Shunyu Yao姚顺雨AI下半场博客 DV OnLine.数码视频在线数字摄像机数字视频处理视频采集卡编辑软件

原博客链接:https://ysymyth.github.io/The-Second-Half/

姚顺雨 1998年出生，本科毕业于清华大学姚班，普林斯顿大学计算机科学博士，OpenAI前研究员。 2025年12月加入腾讯，现任腾讯“CEO/总裁办公室”首席AI科学家，兼任AI Infra部及大语言模型部负责人，担任腾讯“青云奖学金”主审人。

【快速解读】

0. 开头 / TLDR（“我们到了中场”）

中心思想：AI 发展进入“中场休息”——过去几十年主要靠新训练方法/模型推动（从 DeepBlue、AlphaGo 到 GPT-4 等），但现在出现质变：RL 终于开始“泛化”，形成了能跨很多任务复用的“配方”。因此接下来重心会从“怎么训练模型解题”转向“该定义什么问题、怎么评估进步”，也就是 evaluation 比 training 更重要。

1. The first half（第一半场：方法为王）

中心思想：第一半场的赢家是“方法/模型”，不是 benchmark。作者用经典论文（Transformer、AlexNet、GPT-3）与其 benchmark 引用量对比，说明当时学界的游戏规则是：发明更强的方法 → 在 benchmark 上提升 → 评测是必要但次要。原因在于：方法更难、更通用、可迁移到很多任务；而任务/基准往往只是把人类任务“做成题”。

2. The recipe（“配方”是什么，为什么它改变游戏）

中心思想：所谓“配方”包含：大规模语言预训练 + 规模化（数据/算力）+ reasoning & acting。作者用 RL 的三要素框架解释：算法 / 环境 / 先验（priors）。早期 RL 过度关注算法；深度 RL 时代发现环境很重要；而真正缺失的是强先验——语言预训练提供了能泛化的常识与知识。进一步，把“推理（reasoning）”当作一种 action 引入（例如 ReAct 思路），就能利用语言先验实现跨任务泛化，并允许不同任务用不同的 test-time compute。结论是：当先验和环境对了，算法反而可能变得“相对次要”。

3. The second half（第二半场：重新思考评测与真实效用）

中心思想：配方会“碾压式”解决越来越多 benchmark，导致过去“提出一点新方法+5% 提升”的游戏被破坏——因为下一代通用模型可能不针对该任务也能提升 30%。因此第二半场的主要任务是：重新发明评测设定，不是只把题变难，而是质疑评测的基本假设，逼迫产生超出配方的新方法。

4. Utility problem（效用问题：为什么世界没按比例改变）

中心思想：尽管 AI 在考试/竞赛上不断赢，但现实世界（用经济/GDP衡量）并没有“同倍率改变”。作者把这称为 utility problem，并认为这是 AI 最重要的问题之一。根因可能很简单：现有评测设定与真实世界在关键假设上不同。

4.1 评测假设差异举例（作者重点点名两个）

“评测应自动化”假设 vs 现实中的“人类在环”：真实任务需要持续与人互动，因此出现引入真人交互（如 Chatbot Arena）或用户模拟（如 tau-bench）的评测方向。
“评测应 i.i.d.”假设 vs 现实中的“连续工作 + 熟悉度积累”：真实工程师会因熟悉代码库而越做越好，但 agent 往往被当成独立样本评测；这推动对长期记忆方法与相应 benchmark 的需求。

5. 结尾（欢迎来到第二半场）

中心思想：第二半场更像做产品：要用新评测定义真实价值，再用配方或新增组件去解；这更难，但也更可能带来真正“改变游戏”的研究与商业化成果。