原博客链接:https://ysymyth.github.io/The-Second-Half/
姚顺雨 1998年出生,本科毕业于清华大学姚班,普林斯顿大学计算机科学博士,OpenAI前研究员。 2025年12月加入腾讯,现任腾讯“CEO/总裁办公室”首席AI科学家,兼任AI Infra部及大语言模型部负责人,担任腾讯“青云奖学金”主审人。
【快速解读】
0. 开头 / TLDR(“我们到了中场”)
中心思想:AI 发展进入“中场休息”——过去几十年主要靠新训练方法/模型推动(从 DeepBlue、AlphaGo 到 GPT-4 等),但现在出现质变:RL 终于开始“泛化”,形成了能跨很多任务复用的“配方”。因此接下来重心会从“怎么训练模型解题”转向“该定义什么问题、怎么评估进步”,也就是 evaluation 比 training 更重要。
1. The first half(第一半场:方法为王)
中心思想:第一半场的赢家是“方法/模型”,不是 benchmark。作者用经典论文(Transformer、AlexNet、GPT-3)与其 benchmark 引用量对比,说明当时学界的游戏规则是:发明更强的方法 → 在 benchmark 上提升 → 评测是必要但次要。原因在于:方法更难、更通用、可迁移到很多任务;而任务/基准往往只是把人类任务“做成题”。
2. The recipe(“配方”是什么,为什么它改变游戏)
中心思想:所谓“配方”包含:大规模语言预训练 + 规模化(数据/算力)+ reasoning & acting。作者用 RL 的三要素框架解释:算法 / 环境 / 先验(priors)。早期 RL 过度关注算法;深度 RL 时代发现环境很重要;而真正缺失的是强先验——语言预训练提供了能泛化的常识与知识。进一步,把“推理(reasoning)”当作一种 action 引入(例如 ReAct 思路),就能利用语言先验实现跨任务泛化,并允许不同任务用不同的 test-time compute。结论是:当先验和环境对了,算法反而可能变得“相对次要”。
3. The second half(第二半场:重新思考评测与真实效用)
中心思想:配方会“碾压式”解决越来越多 benchmark,导致过去“提出一点新方法+5% 提升”的游戏被破坏——因为下一代通用模型可能不针对该任务也能提升 30%。因此第二半场的主要任务是:重新发明评测设定,不是只把题变难,而是质疑评测的基本假设,逼迫产生超出配方的新方法。
4. Utility problem(效用问题:为什么世界没按比例改变)
中心思想:尽管 AI 在考试/竞赛上不断赢,但现实世界(用经济/GDP衡量)并没有“同倍率改变”。作者把这称为 utility problem,并认为这是 AI 最重要的问题之一。根因可能很简单:现有评测设定与真实世界在关键假设上不同。
4.1 评测假设差异举例(作者重点点名两个)
- “评测应自动化”假设 vs 现实中的“人类在环”:真实任务需要持续与人互动,因此出现引入真人交互(如 Chatbot Arena)或用户模拟(如 tau-bench)的评测方向。
- “评测应 i.i.d.”假设 vs 现实中的“连续工作 + 熟悉度积累”:真实工程师会因熟悉代码库而越做越好,但 agent 往往被当成独立样本评测;这推动对长期记忆方法与相应 benchmark 的需求。
5. 结尾(欢迎来到第二半场)
中心思想:第二半场更像做产品:要用新评测定义真实价值,再用配方或新增组件去解;这更难,但也更可能带来真正“改变游戏”的研究与商业化成果。
(DVOL本文转自:中国DV传媒 http://www.dvol.cn)