← 返回张小珺主页
深度研究 Deep Dive

姚顺宇:请允许我小疯一下

从理论物理到训练前沿模型:一个反英雄主义的AI研究员
2026.5.11 · 03:50:35 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 两个姚顺宇与AI的当前时刻
  2. 模型能力趋同:Benchmark已是噪声
  3. 壳与模型:逃逸速度的生死线
  4. Coding为何率先爆发
  5. 预训练没有撞墙:一个反共识观点
  6. 蒸馏的两种形态:硬蒸与聪明蒸
  7. 从宁夏到清华:一个underdog的养成
  8. 量子物理:非厄米系统的范式发现
  9. 斯坦福高能物理:买了一个大教训
  10. 加入Anthropic:大规模强化学习的起点
  11. Claude 3.7的诞生:把简单的事做干净
  12. Anthropic的独特性:技术一号位的Top-Down
  13. 离开Anthropic,加入Gemini
  14. Google的觉醒:组织清晰化与Gemini 3
  15. 个人英雄主义已过去
  16. 关键数据与预测汇总

一、两个姚顺宇与AI的当前时刻

硅谷有两个"姚顺宇"——一个从OpenAI跳槽去了腾讯任首席AI科学家,另一个则是本期嘉宾:清华基科班出身、斯坦福理论物理博士,此前在Anthropic,现在在Google DeepMind的研究员。两人本科同级,一个在姚班学计算机,一个在基科班学物理;一个去了普林斯顿,一个去了斯坦福——"完全反过来了"。

姚顺宇
我觉得他是一个比我有趣得多的人。他花了很多时间去思考人和AI的交互,包括一些产品上的事情。我从他身上学到了很多和我很不一样的东西。

AI当前在什么时期?

另一位姚顺宇提出"AI进入下半场",成为著名观点。而本期姚顺宇的判断更为谨慎:

核心判断

从"能不能做到"到"有没有被良好定义"

一年前大家还在担心"OpenAI reasoning做得这么强,我们有没有机会追上"。现在至少在Gemini、OpenAI和Anthropic三家之中,没有哪一家会真的担心自己追不上。更难的事情是——想明白要去做什么。"这是一个赌,但也是一个很需要人的insight的事情。"

纸面上已经看不出区别

SWE-bench上大家都在80%附近,"高一个百分点或两个百分点,主要是噪声而不是信号"。但使用上确实还有区别:Claude目前仍是agent和工具使用表现最好的;Gemini在纯reasoning和日常使用上比较好;OpenAI的Codex在coding上刚追近一些。

二、模型能力趋同:Benchmark已是噪声

三家模型的差异是意愿还是能力?

姚顺宇认为,在纸面上能看出差距的时代,意愿占大多数——Claude一直更看重工具使用和coding,OpenAI有一段时间非常看重reasoning。但到了现在,"纸面上都差不多",差异更多来自"你想象不到的事"。

"想象不到的事"是什么

姚顺宇举了一个历史例子:2-3年前,模型写代码天然就好,当时大家不知道为什么。后来发现原因很简单——从网上随机取预训练数据时,GitHub的数据质量显著比普通网页高。"你不做任何筛选,code data的质量天然就会比别的高一点。"这种"想象不到的原因"在当下依然存在。

三大模型公司能力对比:从分化到趋同

Benchmark已经打满

各项Benchmark的饱和进程

  • SWE-bench:大家都打到80多,"幸亏没人超过83,谁超过谁尴尬"
  • 数学:从AIME打到IMO,从IMO到2KAGI——Gemini 3之前最高十几分,Gemini 3变成30多,Claude 4.6到60多,DeepSeek打到80多
  • 结论:光靠打公众认知的benchmark,"已经没啥太大意思了"——发得快也说明"这道题对所有人来说特别简单了"

三、壳与模型:逃逸速度的生死线

Open Cloud与Manus的本质

姚顺宇观察到一个有趣的现象:Open Cloud的讨论在业外比业内更激烈。"对于业内人来说,它并不是特别令人惊讶——公司内部也有人做了类似的demo,只是没有作为产品认真宣发。"

姚顺宇
技术上来说它并不能说明什么。它依赖于模型能做的很多事情,但那些能力其实不是到今年年初才准备好的。在Opus 4.5发布的时候,tool use能力就已经比OpenAI和Gemini强了。它是模型能力的自然溢出。

壳的两种生存方式

逃得足够快

  • 增长速度快到模型公司反应不过来时已占领用户心智
  • 同时自研模型——Cursor正在走这条路
  • 但即使是Cursor这样增长最快的公司,与Anthropic也已进入"微妙的竞争关系"
  • Coding这种效率工具"很容易赢家通吃"

市场足够小

  • 小到模型公司"懒得管"
  • Midjourney是一个例子
  • Lovart"有机会"
  • 不能做通用场景

Manus和Open Cloud都卖给了模型公司

Manus卖给Meta,Open Cloud卖给OpenAI。姚顺宇认为:"壳在目前这个情况下,壁垒很多都在模型侧。"但产品侧是否能产生壁垒"说不定"——目前除了AI Coding,没有哪个场景真正形成了数据飞轮。ChatBot本质上是搜索的延伸,只是带来了更强的交互性。Meta收购Manus的最大价值是"获得了一批很好的在亚洲的产品团队"。

姚顺宇
如果是我,我内心肯定是想吃一票大的。但我真诚地想,第一步是不能一步登天的。所以如果是我,我会选择先吃一个小的,但我会选一个有想象空间的小。

四、Coding为何率先爆发

Coding不只是最近几个月发展最快——从Claude 3.5 New(外界的"3.6",前年10月)开始,就一直处于高速发展状态。姚顺宇给出了两个根本原因:

回馈信号清晰

  • 实现一个feature,输入对应输出——非常容易测试
  • "很难在别的场景下找到能同时有这两个特质的使用工具的场景"
  • 与之对比:做产品经理"没有标准"——"做出来了之后给人用了,你才知道它好"

数据天然充分

  • GitHub汇聚了过去几十年大量优质程序员的代码
  • 优秀程序员写代码风格"比较类似"——简洁、干净、结构清楚、适于未来开发
  • "有比较共识的标准"——这让Coding产品变得更简单

姚顺宇个人的AI使用情况

90%+
代码由模型生成(保守估计)
20-50x
实验效率提升(对比一年半前)
更长
工作时间反而变长了
姚顺宇
你问了一个我差点会被开除的问题——Google不能用Claude Code的。但保守估计90%的code是模型产生的。不保守的可能就是99或者100。剩下10%是给自己点面子。

工作时间变长的悖论

开发速度变快之后,"越试越想试,有越来越多的想法要去试"。以前看到不懂的文件需要找人问,可能几个小时才解决;现在五秒钟就能得到答案,"所以就接着干了"。工作的密度也变高了。在做AI的领域,"没有谁是在躺着的",Google也不再是那个可以养老的Google。

程序员会被取代吗?

渐变而非突变

  • 不会某天早上全被开除,是一个渐变过程——但渐变已经开始
  • 最终可能是"现在千分之一的人干了过去所有人的工作,拿着现在100倍的工资"
  • AI是一个非常centralized的技术——让少部分人变得更强,但让大部分人失去独特价值
  • 未来好的程序员需要:技术极强 + 理解工作在大组织中如何适配 + 强规划能力
  • "但这三种能力现在是重要的,不代表六个月之后AI不能做"

五、预训练没有撞墙:一个反共识观点

在很多人讨论"预训练的Scaling Law是不是已经到头"的时候,姚顺宇给出了明确的反面回答:

姚顺宇
我觉得完全没有。完全没有。我觉得完全没有。

觉得"到头"的人可能犯了三种错

三种"撞墙"的原因

  • 规律本身的适用范围到头了——这是一种猜测,但需要证据
  • 某个条件不能满足了——比如觉得数据撞上墙了
  • 工作里有个bug自己没发现——"从我的观感来说,绝大多数撞到墙的人是因为第三种"

Bug的形式多种多样:Scaling Law的科学假设没做对(token数量、数据来源等),或者"纯粹有个bug"——"很多时候修好一个bug带来的进展,是远大于一些很神奇的技巧的"。

核心观点

撞墙是信念问题

"当你遇到一个bug,你觉得它不能解决,你就会说到头了。当你遇到一个bug,你觉得肯定可以解决,那你就觉得还没有到头。"但比信念更重要的是做事系统——当结果和预测不一致时,能不能系统性地排除各种可能性。"这是Anthropic做得比较好的事。"

驱动力的来源

驱动力当前状态
算力 + 数据在比较清晰的框架(预训练、后训练)里是主要驱动力。两者强关联——"算力上去了自然需要更多数据,数据上去了自然需要更多算力"
算法有相变特征:在完全没搞清楚怎么做时极其关键(如发现Transformer),一旦跨过那个点就变成平滑提升
预训练"过去几个月还是越来越强了"——接下来四个月还会继续有进展,但"没有人能预测四个月之后的事"
后训练也没有达到平台期——"预训练和后训练两个范式都没有到头"

平台期的两种可能性

"有一种是技术本身到头了——你还想让模型干的事,两个技术死活教不会了。另一种是你想干的事儿到平台期了。"姚顺宇认为现在是后者——"我们有ChatBot,有Coding,后面就不知道该教什么了。模型还是一个非常聪明的小孩,你其实可以教它很多东西,但人类作为老师,现在还不知道下一个该教什么。"

六、蒸馏的两种形态:硬蒸与聪明蒸

中美差距

姚顺宇在2026年Q1的判断:"过去一年半的趋势,中美之间的gap显然越变越小。但最后这个gap会不会完全弥合,甚至中国超过去,是一个不清楚的问题。"中国在算力资源上"占很大劣势",但"可能反而逼出了一些有趣的事"。

硬蒸(Hard Distillation)

  • 从Claude取出一堆生成的token,强行做训练
  • "商业上不道德,智力上也比较愚蠢"
  • 本质上说明这家公司"都不知道自己想干嘛"——只能抄别人让数据看起来好看

聪明蒸(Smart Distillation)

  • 在自己生成数据的链条中用其他模型作为辅助或评价者
  • "商业上灰色地带,但技术上很有意思"
  • 实际上是真正的multi-agent训练——不同家模型的语言分布很不一样,融汇到一个训练系统里技术上更有挑战
姚顺宇
中国的实验室可能成为了做multi-agent训练的先驱。而且是真正的multi-agent,因为如果从不同家的模型里,用比较聪明的方案把他们融汇到一个训练系统里,每家模型的分布是很不一样的。这是技术上更有趣的事。

对具体公司的判断

蒸馏程度的光谱

  • 字节DeepSeek——蒸馏比较少,模型比较有特点
  • 部分公司——"曾经硬蒸,后来慢慢向聪明蒸转化"
  • 豆包的语音"客气的说可能是全世界最好的之一,不客气的说就是全世界最好的"
  • 豆包手机是一个"很好的想法"——苹果想干但自家模型"一直不太行"

七、从宁夏到清华:一个underdog的养成

姚顺宇出生在宁夏一个因煤矿而存在的小城市——"看你这困惑的表情,已经说明了这个城市有多小"。小学后半段随父母迁至上海,此后的人生轨迹充满了"总爱干自己不会的事"这一基调。

上海·初中

在一所"无名之辈"初中(上南中学东校)。成绩可以上"四校"(上海中学、华二等),但进不了最好的班。

格致中学·竞赛班

初中从未搞过竞赛,但"因为没搞过,所以想搞"。放弃四校的普通班,选择稍差的格致中学竞赛班——"光脚的不怕穿鞋的"。

清华·自主招生

参加清华夏令营,最后一天听说有面向北京学生的自主招生。"疯狂给招生办老师发短信"——"你给北京的同学考,为什么不给上海的考?"清华答应了。考试后签约降到一本线。高考果然没考到清华分,但靠自主招生入学。

人生道理

"胆子要大。你不争取是永远得不到的。争取了也有可能得不到,但不争取就绝对得不到。"

姚顺宇
我这个人的个性,就是总爱干一些自己不太会的事。说难听了就是爱折磨自己,说好听的是挑战自己。

父母的教育方式

"我爸妈最好的一点就是他们不太管我。他们可能曾经也试图管过我,后来发现管不住。"中高考填志愿都是自己填的,"我爸妈甚至可能都没见过我志愿单"。他的总结:"当你没有办法理解别人在干什么的时候,别指手画脚就是最好的。"

八、量子物理:非厄米系统的范式发现

本科在清华基科班学物理,跟随高等研究院王忠老师做凝态理论研究。王忠"很sharp,能看问题、理解问题理解得很清楚",是张守晟老师的学生。

非厄米系统的发现过程

从"对不上"到范式更新

  • 研究开放量子系统(与外界有交换的系统)的拓扑现象
  • 发现手算的理论结果(周期边界)和数值计算(开放边界)"死活对不上"
  • 追根溯源发现:过去用于描述厄米系统的基本范式——布洛赫波假设——在非厄米系统里会失效
  • 能量本征态会聚集到体系的一侧——建立了一套全新的描述方法
  • "是一个范式上的更新,后来有很多follow-up的工作"

与AI研究的深层相似

"做那段科研其实和现在做AI特别像——你有一个想法、一个理解,然后做一个数值实验去验证。AI也是你有一个想法,设计实验验证理解是不是对的。"这也是他后来选择AI而非量子计算的关键——AI更像18世纪的热力学物理,理论和实验不分家

物理对AI的帮助

姚顺宇坦言"硬实力上其实没什么帮助"——工具性技能的转化非常少。主要帮助在性格层面:"做物理的人会更想刨根问底,更想理解一个事,做事更系统。"但他也不觉得这是物理人独特的——"做计算机的人也有这个特性,做化学的也有。"

九、斯坦福高能物理:买了一个大教训

博士期间换到高能理论物理——一个"足够难,非常非常难"的方向。但这段经历他的评价是:"对自己来说学到很多,对这个世界来说没有产生什么贡献。"

姚顺宇
摸着良心说,对这个世界有多大的影响,我觉得几乎没有。几乎为零。外界看都是非常光鲜的——理论物理博士,在Stanford。但我很不满意。

高能理论的困境

实验完全追不上理论

  • 高能理论讨论的能量和微观尺度已经远超实验能力
  • 进步依赖于"数学上的自洽性"——但不只一个框架能自洽
  • "谁做得好、谁做得不好,依赖于领域内一些老登的主观判断"
  • "人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上"
教训

两个关键认知

第一,要做有比较客观评价标准的事——"或者从另一个角度来说,要做对这个世界能够产生影响的事。"
第二,达到外界的评价标准和自己认可这个标准是两回事——"你可以达到小圈子的评价标准,像训练模型一样,一旦知道评价标准,做得好是很容易的。但你知道你是不认可的。我后来就发现我蒙蔽不了自己。"

最终选择AI而非量子计算

博士后只在伯克利正式待了两个星期就辞职去了Anthropic。选AI而非量子计算的原因:"量子计算现在主要瓶颈在实验上,不是设计算法——那反而是我不擅长的。而AI更像做数值实验,这和做物理很像。"

十、加入Anthropic:大规模强化学习的起点

通过前同事联系到Anthropic——公司创始团队中有两个做物理出身的技术领导人(Jared Kaplan和Sam McCandlish),由此吸引了一批物理背景的研究员。

~800
入职时Anthropic总人数
~10-11
所在大团队(Horizon)人数
~2000
离开时Anthropic总人数

面试与准备

从零到一的AI学习

  • 面试前"不太知道工业级别的语言模型是怎么训练的,只知道学术界怎么训练的"
  • 把能找到的课程学了一遍,作业做了一遍
  • "手搓了一下"Andrej Karpathy的NanoGPT项目
  • 面试题"也不太难"
  • 选择了强化学习方向而非模型评测——"因为它更加不明朗"

入职时的关键时间窗口

2024年8-9月入职Anthropic时,Claude 3.5 New已经让市场发现了Anthropic在coding上的优势。O1还没发布,大家知道有"草莓"但没看到结果。Anthropic"大体上知道强化学习该怎么做,但有很多细节需要研究"。姚顺宇的到来正好赶上了这个make bet的时刻。

Anthropic的Coding优势从何而来

Claude 3发布后,有人在推特上讨论"Claude 3写代码好像比GPT-4强"——在GPT-4还遥遥领先的年代,这是一个重要信号。Anthropic"执行力非常强",迅速扑上去。但这个coding优势的最初原因"是有原因的,是一个纯技术原因"——"确实有某一个团队做了某个事情"。是自上而下还是自下而上?"最开始可能是自下而上的,但后来就变成了自上而下的事。"

十一、Claude 3.7的诞生:把简单的事做干净

Claude 3.7(内部叫法——因为外界的Claude 3.5有两个版本,后面那个被叫做"3.6",所以新模型顺延叫3.7)是Anthropic后训练的分水岭

研究阶段(约2-3个月)

研究怎么在RL中做agentic coding——如何scale up、如何制备各种环境和数据、遇到什么算法问题。

训练阶段(约2个月)

开始训练到发布,"磕磕绊绊,很多事情要处理"。基础设施非常重要且花时间。

总计约4-5个月

从开始训练到发布。

为什么技术"秘诀"没有意义

姚顺宇
很多Knowhow其实是没什么用的。因为现代的AI训练是一个大的系统,你要了解方方面面才能有全局认识。我回答技术细节,本质上是在误导对方——你不能脱离基础设施去谈算法。

他举了一个具体例子:在强化学习中,生成样本的机器(sampler)和实际训练的机器(trainer)可能不一样。不同公司这种"不一样"的程度不同,导致算法设计完全不同。有些公司最大的工作是控制这种差异、保证训练稳定;有些公司基础设施好到差别很小,可以更多关注训练效果。

核心理念

把简单的事做得比谁都干净

最简单的强化学习算法就是policy gradient,但不代表它是唯一的——还有各种复杂的搜索算法。"是不是这些复杂性是必须的?它给你带来效率提升的同时,也带来infra上的困难。怎么trade-off这些因素,选择最稳定的那条路——这才是research需要理解的。"

十二、Anthropic的独特性:技术一号位的Top-Down

姚顺宇认为Anthropic能make bet的核心原因是一个"听起来其他公司也能做,但却非常奇怪地发现其他公司很难做"的事:

组织模型

技术决策人 = 公司决策人

Anthropic的技术leader(Jared Kaplan和Sam McCandlish)就是公司的联合创始人——"技术上能服众,又能为公司负责任"。Dario作为CEO"可能没有成为一个阻力",这需要创始团队之间足够的互相信任。"Anthropic创始团队没有一个人离开公司——那是一群真正一起打过仗的人。"

Startup(如Anthropic)

  • 重要的是make bet——赌一件事
  • 能快速做决策、强力推进
  • Top-down有很大优势
  • Anthropic从组织上比OpenAI更有优势

大公司(如Google)

  • 想法是尽量减少赌的成分
  • 方方面面都有储备,任何事成了都能跟上
  • 底层比较Bottom-up,但在变得更Top-down
  • 擅长工程管理——把确定性的事做成工程项目

为什么其他公司做不到?

各家的困境

  • OpenAI:"Ilya在的时候有可能可以,但后来好像失去了做决策的能力"
  • Google:另一套打法,不需要这种机制
  • 共同要求:需要技术一号位 + CEO不成为阻力 + 创始团队互信——"有很多公司连小集体都团结不住了"

Anthropic的AI安全叙事

姚顺宇
Anthropic的解释是:我首先得拥有最前沿的模型,大家不得不听我的,来推进我的安全政策。但从我个人角度来说,我觉得这个想法是非常幼稚的。更有可能的是大家都有很好的前沿模型,而你没有办法阻止任何事发生。

他用核武器类比:最终受到控制的方法是多方制衡(multiparty control),而不是寄希望于一家公司制定法律。"试图去阻止AI里的一件事发生,可能本身就不是一种正确的想法。"

十三、离开Anthropic,加入Gemini

离开的原因

多重因素

  • Dario反华立场(公开场合说占40%,"告诉你它不是主要原因,但确实是一个很大的原因")——"他作为个人有什么观点无所谓,但作为CEO把观点推到极端,是非常情绪化的体现"
  • 公司文化冲击——从外面来了一些人,"有些人一天中很多时间花在Slack上讲大道理——idea is cheap"
  • 想学不一样的东西——Anthropic非常专注,但"完全没有人做多模态生成"、在底层工程基础设施上也没有花太多精力

为什么不去OpenAI?

姚顺宇
OpenAI确实也是我当时一个选项。最后没去的主要原因是我对它的文化有比较大的担心——用粗话来说,就是感觉踏实做事的人没有Gemini多,也更没有Anthropic多。

离开时对Anthropic的悲观判断——事后被证伪

当时悲观的原因

"主要收入来源都是API,就是卖token——这是个差生意。这个生意最后就是打价格战,只有对一家公司是好生意,就是Google。"但后来Anthropic在产品上做了很多巧思:Claude Code越来越好用、Claude Work也出来了——"现在看来Anthropic反而更占优势一些。"

Claude Code的个人英雄主义

在被问到Claude Code的起源时,姚顺宇透露:"产品可能还真是有一些个人英雄主义的机会——至少这个事的开端是他(Boris)自己想要做,提高自己或同事的工作效率,最后变成了对所有人都很重要的事。"他认为这可能是"交互方式级别改变的产品"——和抖音一个级别。

十四、Google的觉醒:组织清晰化与Gemini 3

Google为什么变强了

两个关键变化

  • 组织变清晰——尤其预训练现在"非常非常清楚":谁负责什么、每个节点上谁是负责人。以前"还是更混乱一些"。预训练进入了Google的舒适区——"变成一个工程项目,Google的工程管理能力很强"
  • 技术储备一直够——"人一直够",工程师"技术非常非常强"。Google特别擅长"找到一个最为简单的产品形态,大家都长一个样,然后疯狂卷技术"——搜索就是这样
AI模型公司组织模式光谱

Gemini崛起的两个关键事件

Nanobot带来流量

  • 市场上"很爆很爆款"
  • 大量用户下载了Gemini的app
  • 但如果只有Nanobot,效果也不会这么好——"市占率连10%都不到的时候,模型好一点坏一点传播太慢"

Gemini 3留住用户

  • 紧接着发布,把Nanobot带来的用户留下来了
  • Gemini市占率可能在20%左右
  • "没有Gemini打这么一拳,OpenAI的位置其实很爽"——市占率高到模型好坏对它影响不大

Google背后的关键人物

人物角色
Sergey BrinGoogle联合创始人——"最终很多大的决定,可能不是由他决定怎么做,但最后拍板得他来拍"
Koray KavukcuogluDeepMind CTO / Google SVP——"更多在一线出牵头的人"
Demis Hassabis可能更多管偏science的事(如药物设计、Isomorphic Lab等)

OpenAI "救了Google一命"

姚顺宇
OpenAI先把聊天机器人这事做了,让Google意识到很重要。但又没有做到极致,没有完全把搜索干掉——可能就吃掉了一些份额。结果让Google自己把聊天机器人也追上来了。那现在难受的就是他了。

十五、个人英雄主义已过去

这或许是全场最具争议性的核心观点——贯穿访谈始终。

姚顺宇
每个人都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。AI这个事情本身是这个浪,它会往前走,不管你冲不冲这个浪。这个浪都会拍到岸上,只是有人可能冲了这个浪尖,有人晚了一点。

英雄时代何时结束

在Transformer发现的那一刻

  • 之前:从"不知道怎么做"到"知道怎么做"的跳变——发现那个技术的人或小团体可以是英雄
  • 之后:更多是集体主义——"很多想法其实非常trivial,谁都能想、谁都能干,只是你运气好撞到机会"
  • 如果没有Google Brain,Transformer可能要过很多年才被发现——"那是很大的影响"
  • 但现在,"任何一个组织想要停止AI进展,是做不到的"
核心主张

AI本质是简单的

"这甚至不是一个结论,是我的一个陈述。"它简单的本质在于——能做实验。和物理不同,AI不受实验数据的限制,"目前你能做任何你能想到的实验,只是需要时间把计算量提上来或者基础设施准备好——没有什么本质上的困难"。所以这个行业最重要的特质不是聪明,而是靠谱、做事细、对自己做的事负责任

姚顺宇
觉得AI这事本来也不太需要脑子。真的不太需要脑子。需要什么?我觉得这个行业最重要的特质就是靠谱。就是做事细,然后对自己做的事负责任。你说那些东西有多需要脑子?我觉得都是一些本科生就能干的活。

系统性做事的深层要求

虽然AI"简单",但做好系统性的事并不简单——因为它违背人性

面试的阴暗巧思

24小时强化学习项目

  • 要求候选人在24小时内从零完成一个RL项目——自选模型、数据、算法
  • 在AI时代这并不难——AI能帮你全套做
  • 考察点一:能不能有效利用AI(而非考察代码质量)
  • 考察点二:有没有真的理解AI为你做了什么——"全盘扔给AI但最后没理解的人,在一个小时的讨论里会露馅"
  • 阴暗设计:24小时是为了看"这个人有多看重这个机会"——可能需要熬夜

对年轻人的建议

姚顺宇
纯做语言模型已经不是蓝海了。末班车已经发车了。我入行的就是那个末班车。但AI是一个很大的方向,语言模型只是其中很小很小一部分——多模态生成、机器人、用AI帮助科学问题——这些可能更是蓝海。做现在最热火的事并不是正确的选择,做现在没有人做到的事可能更好。

十六、关键数据与预测汇总

判断/数据具体内容
模型进步速度"完全没有"放缓——作为一线研究员,过去四个月及接下来四个月都在加速
预训练Scaling Law没有撞墙,大多数撞墙的人是"有bug"——接下来四个月还会继续有进展
后训练也没有到达平台期——两个范式都有空间
AI自己做研究6-12个月内可能实现完整链条(写code→跑实验→分析结果→提出新假设→设计新实验)
代码由AI生成的比例保守90%,不保守99-100%——"剩下10%是给自己点面子"
实验效率提升比一年到一年半前提升20-50倍
程序员被取代渐变过程已经开始——最终可能千分之一的人做过去所有人的工作
中美AI差距Gap越变越小,但能否完全弥合"不清楚"
Anthropic入职时人数约800人
离开时人数接近2000人(扩了一倍多)
Claude 3.7开发周期约4-5个月(研究2-3个月 + 训练2个月)
Gemini市占率约20%(个人估计,未验证)
关键betLong Horizon + ML Coding——不到范式级别,但"需要在未来几个月内看到曙光"
个人最高优先级Train with finite context, use as infinite context
豆包语音"不客气的说,就是全世界最好的"——一定是模型的事
ChatBot是终极形态?"这个模型明明有那么多能力,但居然用的方法是ChatBot——很蠢"
机器人进展"一定没有到GPT-1的时刻"——还没想明白怎么scale up
新Lab判断"绝大多数new lab都会死"
字节跳动"被严重低估"——美国公司"还没看懂"
个人英雄主义"对于语言模型来说,可能过去了"——在Transformer发现的那一刻

启示与延伸思考

1. "AI本质是简单的"是一个值得严肃对待的判断

姚顺宇不是在贬低AI——他是在做一个认识论层面的区分:AI没有实验数据的瓶颈(不像高能物理),所以任何想法都能被验证。这意味着瓶颈在人的系统性和可靠性,而不在智力。在一个"不需要脑子"但"需要靠谱"的领域,组织和文化可能比个人天才更重要。这也解释了为什么Anthropic(强执行力、Top-Down)和Google(强工程管理、系统性)都能做好,但方式完全不同。

2. "预训练没有撞墙"与"大多数撞墙的人有bug"

这是一个有信息优势的反共识观点——姚顺宇在Anthropic和Google都直接参与了预训练和后训练的工作。他给出的"第三种可能性"(bug)最值得注意:不是规律到头了,不是条件不满足了,而是实现中有个bug自己没发现。这暗示了大规模训练中"系统性排除可能性"的能力才是关键竞争力——也回扣了他对"靠谱"的强调。

3. 壳的困境比想象中更严峻

Manus和Open Cloud都卖给了模型公司。Cursor和Anthropic已进入竞争关系。除了AI Coding,没有真正的AI原生场景形成数据飞轮。"出模型的手掌心,大的我目前还没看到。"这对整个AI应用层创业提出了根本性质疑:你的壁垒到底是什么?如果是产品,你能比模型公司做得好多久?如果是模型,你从哪获得训练资源?

4. "该教什么"比"能不能教会"更难

这是本次访谈中最具洞察力的判断之一:平台期不是来自技术的限制,而是来自人类不知道下一个该教模型什么。ChatBot和Coding之后是什么?姚顺宇自己都说"看清楚了我可能已经出去创业了"。这意味着下一个突破更可能来自product insight(产品洞察)而非technical breakthrough(技术突破)——但他同时又认为"好的产品经理是我现在想不明白该怎么训练AI去做的事"。这个悖论值得深思。

5. 从格致中学到Anthropic:一套一致的人生算法

姚顺宇的每一次关键选择都有相同的结构:放弃确定性更高的选项(四校普通班、继续做凝态物理、留在Anthropic),转向"更不明朗"的方向。他把这叫"爱折磨自己",但更准确的描述可能是系统性地追求信息优势——在不明朗的领域,竞争更少,学习密度更高。博士高能物理的"大教训"不是选择难的方向是错的,而是选择了一个没有客观评价标准的难方向。AI恰恰满足"难但客观"的条件。

6. Long Horizon是下一个值得关注的方向

姚顺宇在Google的两个研究重点——ML Coding和Long Horizon——本质上都指向同一个目标:让AI能够持续地、自主地完成复杂的长期任务。他特别提到"Train with finite context, use as infinite context"——用短context训练但能做长context的事。人类本身就是这样的:context很短("昨天晚上吃的什么我一点也想不起来了"),但能选择性遗忘和检索。这可能是从ChatBot走向真正个人助手的技术路径。

7. 对"老登"的厌恶折射出一代人的价值观

"我在这个行业又没有什么导师,又没有什么旧友,我想喷谁喷谁。"姚顺宇反复表达对"老登"的反感——不是因为年龄本身,而是因为"自己也不懂,还爱指手画脚"。他把年纪大的人分为两种:德高望重的(少指手画脚,培养年轻人)和老登(不懂还爱管)。在一个"不需要脑子但需要靠谱"的领域,权威如果不以实力和贡献为基础,就失去了合法性。这可能是AI行业独有的文化——年轻到大部分人没有学术包袱,客观到能力可以被实验验证。

延伸阅读