大模型为什么写不出好文章?编程内卷时代,AI写作集体平庸的底层真相
日期:2026-06-24 20:52:43 / 人气:2

6月13日,智谱AI发布极致精简新模型GLM-5.2,做出行业极具风向标意义的取舍:砍掉图像识别、视频多模态理解,剥离泛娱乐交互能力,仅保留两大核心能力——超长上下文理解、高阶代码编程。
这款专一化模型,直接追平全球标杆Anthropic Claude Opus 4.8。后者是当下业内公认顶级编程大模型,长期霸榜SWE-bench权威编程评测榜单。消息落地一周,智谱港股股价暴涨85%,资本态度直白且功利。
这早已是智谱固定增长剧本。2月至6月短短四个月,智谱迭代三代GLM大模型,迭代逻辑高度统一:全力拔高编程能力。前代GLM-5追平Claude Opus 4.5,上市五天股价暴涨128%,公司市值一举突破3200亿港元。
行业竞速赛道彻底定型:编程,成为大模型唯一的加分项、估值项。
此前X平台公开对话中,有人向马斯克提问:以中国模型迭代速度,多久能登顶全球第一梯队编程水准?马斯克预判:2026年一季度。智谱首席科学家唐杰直接回击:用不了那么久。
全行业押注编程竞速的狂欢之下,一道割裂的行业悖论,正在被所有普通用户感知:大模型代码越写越精湛,文章却越写越同质化、越写越平庸。
01 行业通病:全网大模型,共用一副写作大脑
AI圈博主葬AI实测GLM-5.2后,给出一针见血的行业总结,戳中全网用户共识:当下大模型已经形成固定二元格局,几乎无法两全。
一类专攻算力逻辑:以智谱为代表,编程性能拉满,文字表达刻板生硬;一类专攻对话共情:以豆包为代表,日常交互流畅舒服,编程能力短板明显。过往兼顾文笔质感、代码能力的Sonnet3.5、GPT-4o初代版本,迭代新版本后,集体放弃文笔特质,转向结构化、冗长化输出,彻底丢掉文字辨识度。
这不是主观体感偏差,而是被顶级学术实验证实的行业现状。
华盛顿大学研究团队开展全域测评:选取市面70余款主流大模型,下发无标准答案开放式命题——撰写故事、时事评论、原创创意文案,横向对比观点、逻辑、措辞差异。
实测结论残酷直观:近80%场景下,不同厂商模型输出高度趋同。观点中庸无棱角、论证模板化分层、句式书面化雷同,遮蔽模型品牌标识后,普通人完全无法区分ChatGPT、Claude、Gemini产出文本。
通俗来讲:走进十家风味餐厅,八家菜品味道一模一样。
该现象被学术论文《Artificial Hivemind(人工蜂巢思维)》定义:不同技术底座、不同训练语料、不同研发团队的大模型,最终趋同演化,共用同质化表达逻辑。这一研究斩获NeurIPS 2025最佳论文,作为机器学习顶会年度最高荣誉,业内盖章认定:AI写作趋同,是全行业结构性问题,而非单一模型优化问题。
大众直觉猜想顺势而生:厂商全力卷编程,挤占文本训练资源,是不是代码能力越强,写作能力就越差?
答案完全相反:编程与优质写作,天生互补,互不冲突。
02 破除误区:代码从来不是文笔的天敌
大众惯性认知里,代码冰冷刻板、文学感性自由,二者底层逻辑相悖。但多家头部AI实验室对照实验,推翻这一常识。
阿里通义千问团队针对Qwen2.5-Coder,设置单一变量对照实验:固定模型架构、训练算力、迭代流程,仅调整训练语料配比,划分三组实验组:
实验组1:100%纯代码语料训练;
实验组2:85%代码+15%文本数理语料训练;
实验组3:70%代码+20%人文文本+10%数理逻辑语料训练。
实验预判:纯代码组编程实力最优。实测结果反向打脸:配比均衡的第三组,编程纠错、项目开发、长链路逻辑编写能力登顶最优。人文文本、数理推理数据,不仅没有拖累代码能力,反而优化模型拆解需求、闭环逻辑、溯源因果的能力。
加拿大头部AI厂商Cohere全域规模化复现实验,数据量化结论更直观:训练语料合规混入结构化代码后,模型自然语言推理能力提升8%,高质量文本生成精度提升7%。
底层逻辑通俗易懂:
代码是极致标准化、严谨化的结构化语言,训练代码,本质是训练模型分层拆解、因果串联、闭环推演、规避漏洞的底层思维,这是深度议论文、叙事散文、深度文案必备能力;
人文文本承载人情语感、语境歧义、情绪留白、风格修辞,补足代码缺少的共情力、变通力、表达张力,辅助模型读懂开发真实意图。
顶级模型早已验证两全可行性:Claude Opus全系模型,长期霸占编程、文学写作双榜单上游,技术层面,模型完全可以兼顾硬核编码与个性化文笔。
既然技术无壁垒,优质文笔到底消失在哪一步?答案:大模型上线前的后训练对齐阶段。
03 平庸根源:后训练打分机制,淘汰了好文笔
所有商用大模型,生命周期分为两大阶段,文笔命运,在第二阶段彻底定型。
第一阶段:预训练阶段。模型海量通识共读,啃读全网文学名著、时政杂文、学术期刊、开源代码、社交媒体内容,吸收修辞风格、叙事节奏、多元观点。这个阶段,模型熟读经典,见过曹雪芹、鲁迅、余华所有优质文笔,具备写出优质文章的原生能力。
第二阶段:后训练对齐阶段。也是商用驯化阶段,依托人类反馈强化学习RLHF,驯化模型合规、好用、可控,适配C端、企业端使用标准,这一步直接抹杀文字风格。
后训练核心逻辑:模型产出文本,专属裁判模型打分评级,高分表达强化留存,低分表达迭代淘汰。整套体系存在与生俱来、且不断放大的致命偏差。
偏差一:混淆篇幅优质,奖励废话冗长
裁判模型学习人类标注偏好:人工测评中,篇幅更长、案例更多、信息更饱满的文本,更容易被判定优质。久而久之,AI裁判直接简化判定逻辑:越长=越好。
行业研究佐证:强化学习数据集内,仅不足1%样本偏好长文本,就足以让裁判固化冗长偏好,且每一轮迭代,都会放大这一偏好。
但顶级好文的核心特质恰恰相反:克制精简、一语中的、无冗余废话。这套评分体系之下,凝练犀利的文字拿不到高分,反复同义复述、凑逻辑篇幅的模板文本持续加分。犀利文风被淘汰,中庸流水文成为最优解。
偏差二:追求安全中立,消解文字个性
商用模型对齐三大硬性指标:事实无误、零争议、价值观中立。为规避幻觉、舆情风险、立场偏差,强化学习持续挤压文本不确定性、突破性表达。
而好文灵魂,恰恰藏在不确定性里:破格用词、逆向观点、情绪转折、主观态度、私人语感。2026年初专项研究证实:商用大模型创意写作的随机表达、个性化语感指数,远低于专业人类作家。
最终驯化结果统一化:观点圆滑折中、句式工整模板、情绪平淡无感、措辞安全合规,全网模型文风趋同,彻底失去辨识度。
美国AI理论研究者Nathan Lambert,发表行业爆款论文《Why AI Writing is Mid》定性结论:编程、准确性、安全性、功能性均可量化优化,唯独文笔风格无法标准化定义。每一轮商用迭代,风格优先级持续后置,慢慢被彻底稀释清零。
04 资本逻辑:可量化的能力,才值得花钱深耕
既然知晓文笔平庸成因,头部厂商为何绝不整改?答案直白功利:资本只认看得见的分数,文笔无法变现。
编程拥有全球统一硬核标尺:SWE-bench编程评测榜。依托开源项目真实bug、工程开发需求,全自动核验代码可用性、修复率、落地效率,分数涨跌客观公允、一秒出结果。
这条商业链路闭环完整:模型跑分提升→开发者迁移使用→企业付费采购→官方官宣造势→媒体全域报道→估值股价上涨。
回看智谱完整路径:迭代GLM拔高跑分→官宣对标全球顶级模型→机构看多入场→股价单日暴涨。编程能力,直接等价营收、市值、融资额度。
写作完全无法复刻这套链路:
1、文笔无标准答案:同一篇杂文,千人千评,好恶完全主观;
2、写作测评体系缺失:现有文学评测榜单成本高、稳定性差,无法全自动跑分对标;
3、优化文笔无商业收益:打磨叙事风格、塑造文字个性,带不来企业付费,带不来股价涨幅。
Nathan Lambert一句行业实话戳破本质:没有任何一家主流模型厂商,愿意为优化写作质感,牺牲一毫编程性能。钱,不在文笔赛道。
05 终极真相:AI不是写不出好文,只是没人愿意让它写
大模型天生具备顶级文笔能力,并非算法短板。
2026年权威论文《Can Good Writing Be Generative》,完成颠覆性定向实验:归集多位风格辨识度极强的全职作家全集文本,定向微调模型,复刻作家专属语感、节奏、用词、叙事逻辑。
实验盲审结果颠覆文学圈认知:
微调前:82.7%文学专家,优先选择人类原创作品;
微调后:62%专业评委,更喜欢AI仿写文字。
参与评审的文学专家集体产生行业信心动摇:AI拿捏文字美感、情绪氛围感、叙事留白的能力,早已比肩人类。
回到GLM-5.2本身:预训练阶段,它完整读完《红楼梦》,吃透中式留白美学、人物情绪文笔、古典叙事章法。上线改版后,智谱直接剥离图文能力,专攻代码,资本市场用85%涨幅投票认可:读懂黛玉葬花,毫无商业价值。
文末定论:
能量化、能跑分、能变现的能力,会被资本堆资源无限拔高;
难评判、难溢价、难估值的能力,会在商用迭代里慢慢消亡。
大模型不是写不出好文章,只是当下的商业世界,不需要它写出好文章。
作者:星欧娱乐
新闻资讯 News
- 豆瓣6.5分|年轻人,不想陪八十岁...06-24
- 南派三叔来了,也得去1818告状?06-24
- 万亿智谱阴影下,中国互联网巨头...06-24
- 大模型为什么写不出好文章?编程...06-24

