姚顺雨腾讯首篇论文,道破AI死活听不懂人话的真相

日期:2026-02-04 21:38:18 / 人气:44


如今的大语言模型早已展现出惊人实力:解奥数题、过专业考试、写复杂代码不在话下,却在真实世界应用中频频“翻车”——听不懂模糊指令、误解上下文语义、不会灵活适配新场景。问题究竟出在哪里?姚顺雨加入腾讯后发布的首篇论文《CL-bench: A Benchmark for Context Learning》,给出了一针见血的答案,也撕开了当前AI“假智能”的遮羞布。
论文核心观点直击要害:“当前AI与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。一个装满知识却不会学习的AI,就像一个背了整本字典却不会写作的人,看起来博学,实则僵化。” 这篇论文不仅揭示了AI“听不懂人话”的根本性缺陷,更构建了CL-bench这一专属评测体系,为AI及智能体从业者提供了审视模型能力的全新视角。

CL-bench:照出AI“假学习”真相的精准标尺

CL-bench(Context Learning Benchmark,上下文学习测试集)并非普通的评测工具,而是专门针对语言模型“上下文学习能力”打造的大规模基准测试集,其核心设计理念就是“反作弊”——只考模型“现学现用”的能力,而非预训练知识的记忆与调用。该测试集包含500个复杂上下文场景、1899个任务和31607个评估标注点,所有内容均由各领域资深专家精心设计与筛选,确保测试的专业性与严谨性。
为了彻底剥离预训练知识的干扰,CL-bench的任务均满足“无先例可循”的原则:要么是专家全新虚构的内容,要么是现实中极其小众的知识,模型唯有从提供的上下文里快速学习新知识,才能完成任务。论文通过消融实验验证了这一点:在不提供上下文的情况下,即便是最强的GPT-5.1模型,也仅能解决不到1%的任务,充分证明了任务对动态上下文的强依赖性。
从设计难度来看,CL-bench的挑战性远超传统评测集。500个场景中,51.1%包含序列依赖性任务,需先解决前序任务才能推进后续内容,多轮交互逻辑极大提升了测试门槛;单任务标注平均耗时领域专家20小时,每个任务配备16.6个评估标注项,从事实正确性、计算准确性、程序正确性、内容完整性、格式合规性等多维度严格校验,杜绝“模糊得分”的可能。

四大测试场景:全面暴露AI的学习短板

CL-bench将上下文学习场景划分为四大类别,覆盖人类真实工作中的主要学习情境,精准定位AI在不同认知维度的能力缺陷:
领域知识推理:涵盖金融、医疗、法律等七大子领域,提供虚构的专业知识(如专属法律体系、创新金融工具),考验模型学习新概念并应用推理的能力。例如给AI一套虚构国家的完整法律条文与判例,让其判罚复杂民事纠纷,核心是测试“快速接纳新知”的能力。
规则系统应用:包含游戏机制、编程语法、技术标准等五类任务,给定明确规则体系,要求模型严格遵守并执行。比如提供全新编程语言“EduScript”的语法规范,让AI编写合规程序,重点考察“理解规则并落地”的能力。
程序性任务执行:聚焦教学程序、操作流程、工作流编排,提供复杂手册(如7000字无人机物流API文档),让模型将自然语言指令转化为可执行动作,检验“照着新流程做事”的实操能力。
经验发现与模拟:这是最具挑战性的类别,要求模型从大量实验数据、观测日志中归纳潜在规律,而非套用已知规则。例如给定300份带电粒子运动日志,推导运动规律并计算参数,核心测试“举一反三”的归纳推理能力。
这四类场景清晰揭示:人类习以为常的“学新知、守规则、做流程、找规律”能力,正是AI的短板所在。而CL-bench的“防污染”设计——虚构创作、修改真实知识、整合小众新兴内容,彻底阻断了AI“靠背答案作弊”的可能,让其“不会学习”的真相暴露无遗。

残酷评测结果:顶尖AI仅23.7%任务通过率

CL-bench的评分体系堪称“严苛”:16.6个评估项均采用“全对即过、错一即零”的标准,无中间得分空间。无论是事实表述偏差、计算步骤错误,还是代码参数遗漏、格式不符合要求,只要一项不达标,整个任务便判定失败。经5个顶尖AI模型交叉验证及200个案例人工抽查,该评分系统准确率超90%,确保了评测结果的可信度。
测试结果令人警醒:十个最先进的语言模型平均仅能解决17.2%的全量任务,表现最佳的GPT-5.1通过率也仅23.7%。这意味着,即便给AI提供完整的上下文信息,它仍有近四分之三的概率搞砸任务——就像给员工完整操作手册,十次有八次出错,完全无法适配真实工作场景。
错误分析进一步拆解了AI的核心问题:55%以上的错误源于“上下文忽略”,模型无视关键信息,执着于套用预训练知识;60%以上属于“上下文误用”,看懂信息却理解偏差、应用不当;35%以上是格式错误,连明确的格式指令都无法遵守。这三类错误直指本质:AI不会“看”(捕捉关键信息)、不会“想”(正确理解应用)、不会“听”(遵循明确指令),自然无法像人类一样灵活应对动态场景。
任务类别间的通过率差异也颇具深意:领域知识推理通过率最高(顶尖模型25.3%),经验发现与模拟类最低(平均仅11.8%),说明AI擅长演绎推理(套用规则),却极不擅长归纳推理(发现规律),学习能力仍停留在“照葫芦画瓢”阶段,远未达到“举一反三”的水平。而子类别层面,法律法规类任务通过率超29%,数学形式体系类不足15%,也暴露了AI对不同知识类型的学习能力差异极大,偏科程度远超人类。

论文启示:AI的未来在“活学活用”,而非参数堆砌

CL-bench的价值,不仅在于揭示问题,更在于填补了现有评测体系的空白。过去的长上下文评测仅考“信息检索能力”(如从长篇小说中找答案),指令遵循评测只考“规则遵守度”,领域任务评测则混杂多种能力,无法精准定位模型短板。而CL-bench将“上下文学习”单独拆解,剥离外部检索等干扰因素,让评测结果能精准反映模型的核心学习能力。
论文还提出了多个反直觉发现:GPT-5.2在上下文学习维度表现比GPT-5.1差5.6%,原因是其长上下文推理的因果链连贯性下降,更易违反规则约束——这说明模型版本迭代并非全面提升,部分能力优化可能以牺牲其他能力为代价。此外,增加推理强度对不同模型效果差异显著,仅当模型具备正确学习机制时,“多思考”才有效,否则只会在错误方向上越走越远。
这些发现指向一个核心结论:当前AI本质是“参数推理者”,而非“上下文学习者”,擅长调用预训练静态知识,却无法动态吸收新知识。这也是AI在标准化考试中表现优异、在真实场景中频频翻车的根源——实验室任务封闭静态,答案多在训练数据中,而真实世界任务开放动态,需灵活适配上下文。
姚顺雨在公开发言中提到,AI自主学习已形成行业共识,ChatGPT拟合人类聊天风格、Claude Code自主编写项目代码,都是自主学习的雏形,但目前仍局限于特定场景,呈现“渐变式”发展态势。而CL-bench揭示的深层矛盾的解决,将是AI从“工具”进化为“智能体”的关键:下一代AI的核心竞争力,不在于参数规模与知识储备,而在于上下文学习能力与知识持久化技术——让AI能像人类一样“活学活用”,才能真正听懂人话、适配真实世界。  

作者:星欧娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

星欧娱乐 版权所有