首页 | DV动态 | 数码产品 | 视频采编 | 网站建设 |
【收藏DV】
  最近3月排行
·美国首例社交媒体平台成瘾案落槌 Meta、谷歌遭遇里程碑式败诉
·宇宙静得可怕,伊朗学者说文明活不过五千年,我们站在倒计时起点
·PD快速充电协议知识汇总
·修昔底德陷阱-《伯罗奔尼撒战争史》-修昔底德陷阱
·煤气灯效应(Gaslighting)
·Shunyu Yao姚顺雨AI下半场 博客
Shunyu Yao姚顺雨AI下半场 博客
2026/6/9 23:20:05
 
超级小便携式笔记本充电器,两个type-c和一个USB接口,同时可以手机充电。 【3C认证】苹果超薄Magsafe磁吸充电宝快充外接迷你5000毫安移动电源适用于iPhone16可上飞机


Shunyu Yao姚顺雨AI下半场 博客

原博客链接:https://ysymyth.github.io/The-Second-Half/

姚顺雨 1998年出生,本科毕业于清华大学姚班,普林斯顿大学计算机科学博士,OpenAI前研究员。 2025年12月加入腾讯,现任腾讯“CEO/总裁办公室”首席AI科学家,兼任AI Infra部及大语言模型部负责人,担任腾讯“青云奖学金”主审人。


【快速解读】

0. 开头 / TLDR(“我们到了中场”)

中心思想:AI 发展进入“中场休息”——过去几十年主要靠新训练方法/模型推动(从 DeepBlue、AlphaGo 到 GPT-4 等),但现在出现质变:RL 终于开始“泛化”,形成了能跨很多任务复用的“配方”。因此接下来重心会从“怎么训练模型解题”转向“该定义什么问题、怎么评估进步”,也就是 evaluation 比 training 更重要

1. The first half(第一半场:方法为王)

中心思想:第一半场的赢家是“方法/模型”,不是 benchmark。作者用经典论文(Transformer、AlexNet、GPT-3)与其 benchmark 引用量对比,说明当时学界的游戏规则是:发明更强的方法 → 在 benchmark 上提升 → 评测是必要但次要。原因在于:方法更难、更通用、可迁移到很多任务;而任务/基准往往只是把人类任务“做成题”。

2. The recipe(“配方”是什么,为什么它改变游戏)

中心思想:所谓“配方”包含:大规模语言预训练 + 规模化(数据/算力)+ reasoning & acting。作者用 RL 的三要素框架解释:算法 / 环境 / 先验(priors)。早期 RL 过度关注算法;深度 RL 时代发现环境很重要;而真正缺失的是强先验——语言预训练提供了能泛化的常识与知识。进一步,把“推理(reasoning)”当作一种 action 引入(例如 ReAct 思路),就能利用语言先验实现跨任务泛化,并允许不同任务用不同的 test-time compute。结论是:当先验和环境对了,算法反而可能变得“相对次要”。

3. The second half(第二半场:重新思考评测与真实效用)

中心思想:配方会“碾压式”解决越来越多 benchmark,导致过去“提出一点新方法+5% 提升”的游戏被破坏——因为下一代通用模型可能不针对该任务也能提升 30%。因此第二半场的主要任务是:重新发明评测设定,不是只把题变难,而是质疑评测的基本假设,逼迫产生超出配方的新方法。

4. Utility problem(效用问题:为什么世界没按比例改变)

中心思想:尽管 AI 在考试/竞赛上不断赢,但现实世界(用经济/GDP衡量)并没有“同倍率改变”。作者把这称为 utility problem,并认为这是 AI 最重要的问题之一。根因可能很简单:现有评测设定与真实世界在关键假设上不同

4.1 评测假设差异举例(作者重点点名两个)

  • “评测应自动化”假设 vs 现实中的“人类在环”:真实任务需要持续与人互动,因此出现引入真人交互(如 Chatbot Arena)或用户模拟(如 tau-bench)的评测方向。
  • “评测应 i.i.d.”假设 vs 现实中的“连续工作 + 熟悉度积累”:真实工程师会因熟悉代码库而越做越好,但 agent 往往被当成独立样本评测;这推动对长期记忆方法与相应 benchmark 的需求。

5. 结尾(欢迎来到第二半场)

中心思想:第二半场更像做产品:要用新评测定义真实价值,再用配方或新增组件去解;这更难,但也更可能带来真正“改变游戏”的研究与商业化成果。



(DVOL本文转自:中国DV传媒 http://www.dvol.cn)

 

  上一篇:华为的冬天
  下一篇:这是最新一篇文章了。
      更多...
::打印本页 ::      ::关闭窗口::


版权所有© 数码在线网站 DV OnLine©  鲁ICP备12016322号-1