大模型为什么写不出好文章？编程内卷时代，AI写作集体平庸的底层真相

日期：2026-06-24 20:52:43 / 人气：2

6月13日，智谱AI发布极致精简新模型GLM-5.2，做出行业极具风向标意义的取舍：砍掉图像识别、视频多模态理解，剥离泛娱乐交互能力，仅保留两大核心能力——超长上下文理解、高阶代码编程。
这款专一化模型，直接追平全球标杆Anthropic Claude Opus 4.8。后者是当下业内公认顶级编程大模型，长期霸榜SWE-bench权威编程评测榜单。消息落地一周，智谱港股股价暴涨85%，资本态度直白且功利。
这早已是智谱固定增长剧本。2月至6月短短四个月，智谱迭代三代GLM大模型，迭代逻辑高度统一：全力拔高编程能力。前代GLM-5追平Claude Opus 4.5，上市五天股价暴涨128%，公司市值一举突破3200亿港元。
行业竞速赛道彻底定型：编程，成为大模型唯一的加分项、估值项。
此前X平台公开对话中，有人向马斯克提问：以中国模型迭代速度，多久能登顶全球第一梯队编程水准？马斯克预判：2026年一季度。智谱首席科学家唐杰直接回击：用不了那么久。
全行业押注编程竞速的狂欢之下，一道割裂的行业悖论，正在被所有普通用户感知：大模型代码越写越精湛，文章却越写越同质化、越写越平庸。
01 行业通病：全网大模型，共用一副写作大脑
AI圈博主葬AI实测GLM-5.2后，给出一针见血的行业总结，戳中全网用户共识：当下大模型已经形成固定二元格局，几乎无法两全。
一类专攻算力逻辑：以智谱为代表，编程性能拉满，文字表达刻板生硬；一类专攻对话共情：以豆包为代表，日常交互流畅舒服，编程能力短板明显。过往兼顾文笔质感、代码能力的Sonnet3.5、GPT-4o初代版本，迭代新版本后，集体放弃文笔特质，转向结构化、冗长化输出，彻底丢掉文字辨识度。
这不是主观体感偏差，而是被顶级学术实验证实的行业现状。
华盛顿大学研究团队开展全域测评：选取市面70余款主流大模型，下发无标准答案开放式命题——撰写故事、时事评论、原创创意文案，横向对比观点、逻辑、措辞差异。
实测结论残酷直观：近80%场景下，不同厂商模型输出高度趋同。观点中庸无棱角、论证模板化分层、句式书面化雷同，遮蔽模型品牌标识后，普通人完全无法区分ChatGPT、Claude、Gemini产出文本。
通俗来讲：走进十家风味餐厅，八家菜品味道一模一样。
该现象被学术论文《Artificial Hivemind（人工蜂巢思维）》定义：不同技术底座、不同训练语料、不同研发团队的大模型，最终趋同演化，共用同质化表达逻辑。这一研究斩获NeurIPS 2025最佳论文，作为机器学习顶会年度最高荣誉，业内盖章认定：AI写作趋同，是全行业结构性问题，而非单一模型优化问题。
大众直觉猜想顺势而生：厂商全力卷编程，挤占文本训练资源，是不是代码能力越强，写作能力就越差？
答案完全相反：编程与优质写作，天生互补，互不冲突。
02 破除误区：代码从来不是文笔的天敌
大众惯性认知里，代码冰冷刻板、文学感性自由，二者底层逻辑相悖。但多家头部AI实验室对照实验，推翻这一常识。
阿里通义千问团队针对Qwen2.5-Coder，设置单一变量对照实验：固定模型架构、训练算力、迭代流程，仅调整训练语料配比，划分三组实验组：
实验组1：100%纯代码语料训练；
实验组2：85%代码+15%文本数理语料训练；
实验组3：70%代码+20%人文文本+10%数理逻辑语料训练。
实验预判：纯代码组编程实力最优。实测结果反向打脸：配比均衡的第三组，编程纠错、项目开发、长链路逻辑编写能力登顶最优。人文文本、数理推理数据，不仅没有拖累代码能力，反而优化模型拆解需求、闭环逻辑、溯源因果的能力。
加拿大头部AI厂商Cohere全域规模化复现实验，数据量化结论更直观：训练语料合规混入结构化代码后，模型自然语言推理能力提升8%，高质量文本生成精度提升7%。
底层逻辑通俗易懂：
代码是极致标准化、严谨化的结构化语言，训练代码，本质是训练模型分层拆解、因果串联、闭环推演、规避漏洞的底层思维，这是深度议论文、叙事散文、深度文案必备能力；
人文文本承载人情语感、语境歧义、情绪留白、风格修辞，补足代码缺少的共情力、变通力、表达张力，辅助模型读懂开发真实意图。
顶级模型早已验证两全可行性：Claude Opus全系模型，长期霸占编程、文学写作双榜单上游，技术层面，模型完全可以兼顾硬核编码与个性化文笔。
既然技术无壁垒，优质文笔到底消失在哪一步？答案：大模型上线前的后训练对齐阶段。
03 平庸根源：后训练打分机制，淘汰了好文笔
所有商用大模型，生命周期分为两大阶段，文笔命运，在第二阶段彻底定型。
第一阶段：预训练阶段。模型海量通识共读，啃读全网文学名著、时政杂文、学术期刊、开源代码、社交媒体内容，吸收修辞风格、叙事节奏、多元观点。这个阶段，模型熟读经典，见过曹雪芹、鲁迅、余华所有优质文笔，具备写出优质文章的原生能力。
第二阶段：后训练对齐阶段。也是商用驯化阶段，依托人类反馈强化学习RLHF，驯化模型合规、好用、可控，适配C端、企业端使用标准，这一步直接抹杀文字风格。
后训练核心逻辑：模型产出文本，专属裁判模型打分评级，高分表达强化留存，低分表达迭代淘汰。整套体系存在与生俱来、且不断放大的致命偏差。
偏差一：混淆篇幅优质，奖励废话冗长
裁判模型学习人类标注偏好：人工测评中，篇幅更长、案例更多、信息更饱满的文本，更容易被判定优质。久而久之，AI裁判直接简化判定逻辑：越长=越好。
行业研究佐证：强化学习数据集内，仅不足1%样本偏好长文本，就足以让裁判固化冗长偏好，且每一轮迭代，都会放大这一偏好。
但顶级好文的核心特质恰恰相反：克制精简、一语中的、无冗余废话。这套评分体系之下，凝练犀利的文字拿不到高分，反复同义复述、凑逻辑篇幅的模板文本持续加分。犀利文风被淘汰，中庸流水文成为最优解。
偏差二：追求安全中立，消解文字个性
商用模型对齐三大硬性指标：事实无误、零争议、价值观中立。为规避幻觉、舆情风险、立场偏差，强化学习持续挤压文本不确定性、突破性表达。
而好文灵魂，恰恰藏在不确定性里：破格用词、逆向观点、情绪转折、主观态度、私人语感。2026年初专项研究证实：商用大模型创意写作的随机表达、个性化语感指数，远低于专业人类作家。
最终驯化结果统一化：观点圆滑折中、句式工整模板、情绪平淡无感、措辞安全合规，全网模型文风趋同，彻底失去辨识度。
美国AI理论研究者Nathan Lambert，发表行业爆款论文《Why AI Writing is Mid》定性结论：编程、准确性、安全性、功能性均可量化优化，唯独文笔风格无法标准化定义。每一轮商用迭代，风格优先级持续后置，慢慢被彻底稀释清零。
04 资本逻辑：可量化的能力，才值得花钱深耕
既然知晓文笔平庸成因，头部厂商为何绝不整改？答案直白功利：资本只认看得见的分数，文笔无法变现。
编程拥有全球统一硬核标尺：SWE-bench编程评测榜。依托开源项目真实bug、工程开发需求，全自动核验代码可用性、修复率、落地效率，分数涨跌客观公允、一秒出结果。
这条商业链路闭环完整：模型跑分提升→开发者迁移使用→企业付费采购→官方官宣造势→媒体全域报道→估值股价上涨。
回看智谱完整路径：迭代GLM拔高跑分→官宣对标全球顶级模型→机构看多入场→股价单日暴涨。编程能力，直接等价营收、市值、融资额度。
写作完全无法复刻这套链路：
1、文笔无标准答案：同一篇杂文，千人千评，好恶完全主观；
2、写作测评体系缺失：现有文学评测榜单成本高、稳定性差，无法全自动跑分对标；
3、优化文笔无商业收益：打磨叙事风格、塑造文字个性，带不来企业付费，带不来股价涨幅。
Nathan Lambert一句行业实话戳破本质：没有任何一家主流模型厂商，愿意为优化写作质感，牺牲一毫编程性能。钱，不在文笔赛道。
05 终极真相：AI不是写不出好文，只是没人愿意让它写
大模型天生具备顶级文笔能力，并非算法短板。
2026年权威论文《Can Good Writing Be Generative》，完成颠覆性定向实验：归集多位风格辨识度极强的全职作家全集文本，定向微调模型，复刻作家专属语感、节奏、用词、叙事逻辑。
实验盲审结果颠覆文学圈认知：
微调前：82.7%文学专家，优先选择人类原创作品；
微调后：62%专业评委，更喜欢AI仿写文字。
参与评审的文学专家集体产生行业信心动摇：AI拿捏文字美感、情绪氛围感、叙事留白的能力，早已比肩人类。
回到GLM-5.2本身：预训练阶段，它完整读完《红楼梦》，吃透中式留白美学、人物情绪文笔、古典叙事章法。上线改版后，智谱直接剥离图文能力，专攻代码，资本市场用85%涨幅投票认可：读懂黛玉葬花，毫无商业价值。
文末定论：
能量化、能跑分、能变现的能力，会被资本堆资源无限拔高；
难评判、难溢价、难估值的能力，会在商用迭代里慢慢消亡。
大模型不是写不出好文章，只是当下的商业世界，不需要它写出好文章。

作者：星欧娱乐

大模型为什么写不出好文章？编程内卷时代，AI写作集体平庸的底层真相

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →