深度研究 — #140 姚顺宇：请允许我小疯一下

两个姚顺宇与AI的当前时刻
模型能力趋同：Benchmark已是噪声
壳与模型：逃逸速度的生死线
Coding为何率先爆发
预训练没有撞墙：一个反共识观点
蒸馏的两种形态：硬蒸与聪明蒸
从宁夏到清华：一个underdog的养成
量子物理：非厄米系统的范式发现
斯坦福高能物理：买了一个大教训
加入Anthropic：大规模强化学习的起点
Claude 3.7的诞生：把简单的事做干净
Anthropic的独特性：技术一号位的Top-Down
离开Anthropic，加入Gemini
Google的觉醒：组织清晰化与Gemini 3
个人英雄主义已过去
关键数据与预测汇总

一、两个姚顺宇与AI的当前时刻

硅谷有两个"姚顺宇"——一个从OpenAI跳槽去了腾讯任首席AI科学家，另一个则是本期嘉宾：清华基科班出身、斯坦福理论物理博士，此前在Anthropic，现在在Google DeepMind的研究员。两人本科同级，一个在姚班学计算机，一个在基科班学物理；一个去了普林斯顿，一个去了斯坦福——"完全反过来了"。

姚顺宇

我觉得他是一个比我有趣得多的人。他花了很多时间去思考人和AI的交互，包括一些产品上的事情。我从他身上学到了很多和我很不一样的东西。

AI当前在什么时期？

另一位姚顺宇提出"AI进入下半场"，成为著名观点。而本期姚顺宇的判断更为谨慎：

核心判断

从"能不能做到"到"有没有被良好定义"

一年前大家还在担心"OpenAI reasoning做得这么强，我们有没有机会追上"。现在至少在Gemini、OpenAI和Anthropic三家之中，没有哪一家会真的担心自己追不上。更难的事情是——想明白要去做什么。"这是一个赌，但也是一个很需要人的insight的事情。"

纸面上已经看不出区别

SWE-bench上大家都在80%附近，"高一个百分点或两个百分点，主要是噪声而不是信号"。但使用上确实还有区别：Claude目前仍是agent和工具使用表现最好的；Gemini在纯reasoning和日常使用上比较好；OpenAI的Codex在coding上刚追近一些。

二、模型能力趋同：Benchmark已是噪声

三家模型的差异是意愿还是能力？

姚顺宇认为，在纸面上能看出差距的时代，意愿占大多数——Claude一直更看重工具使用和coding，OpenAI有一段时间非常看重reasoning。但到了现在，"纸面上都差不多"，差异更多来自"你想象不到的事"。

"想象不到的事"是什么

姚顺宇举了一个历史例子：2-3年前，模型写代码天然就好，当时大家不知道为什么。后来发现原因很简单——从网上随机取预训练数据时，GitHub的数据质量显著比普通网页高。"你不做任何筛选，code data的质量天然就会比别的高一点。"这种"想象不到的原因"在当下依然存在。

三大模型公司能力对比：从分化到趋同

Benchmark已经打满

各项Benchmark的饱和进程

SWE-bench：大家都打到80多，"幸亏没人超过83，谁超过谁尴尬"
数学：从AIME打到IMO，从IMO到2KAGI——Gemini 3之前最高十几分，Gemini 3变成30多，Claude 4.6到60多，DeepSeek打到80多
结论：光靠打公众认知的benchmark，"已经没啥太大意思了"——发得快也说明"这道题对所有人来说特别简单了"

三、壳与模型：逃逸速度的生死线

Open Cloud与Manus的本质

姚顺宇观察到一个有趣的现象：Open Cloud的讨论在业外比业内更激烈。"对于业内人来说，它并不是特别令人惊讶——公司内部也有人做了类似的demo，只是没有作为产品认真宣发。"

姚顺宇

技术上来说它并不能说明什么。它依赖于模型能做的很多事情，但那些能力其实不是到今年年初才准备好的。在Opus 4.5发布的时候，tool use能力就已经比OpenAI和Gemini强了。它是模型能力的自然溢出。

壳的两种生存方式

逃得足够快

增长速度快到模型公司反应不过来时已占领用户心智
同时自研模型——Cursor正在走这条路
但即使是Cursor这样增长最快的公司，与Anthropic也已进入"微妙的竞争关系"
Coding这种效率工具"很容易赢家通吃"

市场足够小

小到模型公司"懒得管"
Midjourney是一个例子
Lovart"有机会"
不能做通用场景

Manus和Open Cloud都卖给了模型公司

Manus卖给Meta，Open Cloud卖给OpenAI。姚顺宇认为："壳在目前这个情况下，壁垒很多都在模型侧。"但产品侧是否能产生壁垒"说不定"——目前除了AI Coding，没有哪个场景真正形成了数据飞轮。ChatBot本质上是搜索的延伸，只是带来了更强的交互性。Meta收购Manus的最大价值是"获得了一批很好的在亚洲的产品团队"。

姚顺宇

如果是我，我内心肯定是想吃一票大的。但我真诚地想，第一步是不能一步登天的。所以如果是我，我会选择先吃一个小的，但我会选一个有想象空间的小。

四、Coding为何率先爆发

Coding不只是最近几个月发展最快——从Claude 3.5 New（外界的"3.6"，前年10月）开始，就一直处于高速发展状态。姚顺宇给出了两个根本原因：

回馈信号清晰

实现一个feature，输入对应输出——非常容易测试
"很难在别的场景下找到能同时有这两个特质的使用工具的场景"
与之对比：做产品经理"没有标准"——"做出来了之后给人用了，你才知道它好"

数据天然充分

GitHub汇聚了过去几十年大量优质程序员的代码
优秀程序员写代码风格"比较类似"——简洁、干净、结构清楚、适于未来开发
"有比较共识的标准"——这让Coding产品变得更简单

姚顺宇个人的AI使用情况

90%+

代码由模型生成（保守估计）

20-50x

实验效率提升（对比一年半前）

更长

工作时间反而变长了

姚顺宇

你问了一个我差点会被开除的问题——Google不能用Claude Code的。但保守估计90%的code是模型产生的。不保守的可能就是99或者100。剩下10%是给自己点面子。

工作时间变长的悖论

开发速度变快之后，"越试越想试，有越来越多的想法要去试"。以前看到不懂的文件需要找人问，可能几个小时才解决；现在五秒钟就能得到答案，"所以就接着干了"。工作的密度也变高了。在做AI的领域，"没有谁是在躺着的"，Google也不再是那个可以养老的Google。

程序员会被取代吗？

渐变而非突变

不会某天早上全被开除，是一个渐变过程——但渐变已经开始
最终可能是"现在千分之一的人干了过去所有人的工作，拿着现在100倍的工资"
AI是一个非常centralized的技术——让少部分人变得更强，但让大部分人失去独特价值
未来好的程序员需要：技术极强 + 理解工作在大组织中如何适配 + 强规划能力
"但这三种能力现在是重要的，不代表六个月之后AI不能做"

五、预训练没有撞墙：一个反共识观点

在很多人讨论"预训练的Scaling Law是不是已经到头"的时候，姚顺宇给出了明确的反面回答：

姚顺宇

我觉得完全没有。完全没有。我觉得完全没有。

觉得"到头"的人可能犯了三种错

三种"撞墙"的原因

规律本身的适用范围到头了——这是一种猜测，但需要证据
某个条件不能满足了——比如觉得数据撞上墙了
工作里有个bug自己没发现——"从我的观感来说，绝大多数撞到墙的人是因为第三种"

Bug的形式多种多样：Scaling Law的科学假设没做对（token数量、数据来源等），或者"纯粹有个bug"——"很多时候修好一个bug带来的进展，是远大于一些很神奇的技巧的"。

核心观点

撞墙是信念问题

"当你遇到一个bug，你觉得它不能解决，你就会说到头了。当你遇到一个bug，你觉得肯定可以解决，那你就觉得还没有到头。"但比信念更重要的是做事系统——当结果和预测不一致时，能不能系统性地排除各种可能性。"这是Anthropic做得比较好的事。"

驱动力的来源

驱动力	当前状态
算力 + 数据	在比较清晰的框架（预训练、后训练）里是主要驱动力。两者强关联——"算力上去了自然需要更多数据，数据上去了自然需要更多算力"
算法	有相变特征：在完全没搞清楚怎么做时极其关键（如发现Transformer），一旦跨过那个点就变成平滑提升
预训练	"过去几个月还是越来越强了"——接下来四个月还会继续有进展，但"没有人能预测四个月之后的事"
后训练	也没有达到平台期——"预训练和后训练两个范式都没有到头"

平台期的两种可能性

"有一种是技术本身到头了——你还想让模型干的事，两个技术死活教不会了。另一种是你想干的事儿到平台期了。"姚顺宇认为现在是后者——"我们有ChatBot，有Coding，后面就不知道该教什么了。模型还是一个非常聪明的小孩，你其实可以教它很多东西，但人类作为老师，现在还不知道下一个该教什么。"

六、蒸馏的两种形态：硬蒸与聪明蒸

中美差距

姚顺宇在2026年Q1的判断："过去一年半的趋势，中美之间的gap显然越变越小。但最后这个gap会不会完全弥合，甚至中国超过去，是一个不清楚的问题。"中国在算力资源上"占很大劣势"，但"可能反而逼出了一些有趣的事"。

硬蒸（Hard Distillation）

从Claude取出一堆生成的token，强行做训练
"商业上不道德，智力上也比较愚蠢"
本质上说明这家公司"都不知道自己想干嘛"——只能抄别人让数据看起来好看

聪明蒸（Smart Distillation）

在自己生成数据的链条中用其他模型作为辅助或评价者
"商业上灰色地带，但技术上很有意思"
实际上是真正的multi-agent训练——不同家模型的语言分布很不一样，融汇到一个训练系统里技术上更有挑战

姚顺宇

中国的实验室可能成为了做multi-agent训练的先驱。而且是真正的multi-agent，因为如果从不同家的模型里，用比较聪明的方案把他们融汇到一个训练系统里，每家模型的分布是很不一样的。这是技术上更有趣的事。

对具体公司的判断

蒸馏程度的光谱

字节和DeepSeek——蒸馏比较少，模型比较有特点
部分公司——"曾经硬蒸，后来慢慢向聪明蒸转化"
豆包的语音"客气的说可能是全世界最好的之一，不客气的说就是全世界最好的"
豆包手机是一个"很好的想法"——苹果想干但自家模型"一直不太行"

七、从宁夏到清华：一个underdog的养成

姚顺宇出生在宁夏一个因煤矿而存在的小城市——"看你这困惑的表情，已经说明了这个城市有多小"。小学后半段随父母迁至上海，此后的人生轨迹充满了"总爱干自己不会的事"这一基调。

上海·初中

在一所"无名之辈"初中（上南中学东校）。成绩可以上"四校"（上海中学、华二等），但进不了最好的班。

格致中学·竞赛班

初中从未搞过竞赛，但"因为没搞过，所以想搞"。放弃四校的普通班，选择稍差的格致中学竞赛班——"光脚的不怕穿鞋的"。

清华·自主招生

参加清华夏令营，最后一天听说有面向北京学生的自主招生。"疯狂给招生办老师发短信"——"你给北京的同学考，为什么不给上海的考？"清华答应了。考试后签约降到一本线。高考果然没考到清华分，但靠自主招生入学。

人生道理

"胆子要大。你不争取是永远得不到的。争取了也有可能得不到，但不争取就绝对得不到。"

姚顺宇

我这个人的个性，就是总爱干一些自己不太会的事。说难听了就是爱折磨自己，说好听的是挑战自己。

父母的教育方式

"我爸妈最好的一点就是他们不太管我。他们可能曾经也试图管过我，后来发现管不住。"中高考填志愿都是自己填的，"我爸妈甚至可能都没见过我志愿单"。他的总结："当你没有办法理解别人在干什么的时候，别指手画脚就是最好的。"

八、量子物理：非厄米系统的范式发现

本科在清华基科班学物理，跟随高等研究院王忠老师做凝态理论研究。王忠"很sharp，能看问题、理解问题理解得很清楚"，是张守晟老师的学生。

非厄米系统的发现过程

从"对不上"到范式更新

研究开放量子系统（与外界有交换的系统）的拓扑现象
发现手算的理论结果（周期边界）和数值计算（开放边界）"死活对不上"
追根溯源发现：过去用于描述厄米系统的基本范式——布洛赫波假设——在非厄米系统里会失效
能量本征态会聚集到体系的一侧——建立了一套全新的描述方法
"是一个范式上的更新，后来有很多follow-up的工作"

与AI研究的深层相似

"做那段科研其实和现在做AI特别像——你有一个想法、一个理解，然后做一个数值实验去验证。AI也是你有一个想法，设计实验验证理解是不是对的。"这也是他后来选择AI而非量子计算的关键——AI更像18世纪的热力学物理，理论和实验不分家。

物理对AI的帮助

姚顺宇坦言"硬实力上其实没什么帮助"——工具性技能的转化非常少。主要帮助在性格层面："做物理的人会更想刨根问底，更想理解一个事，做事更系统。"但他也不觉得这是物理人独特的——"做计算机的人也有这个特性，做化学的也有。"

九、斯坦福高能物理：买了一个大教训

博士期间换到高能理论物理——一个"足够难，非常非常难"的方向。但这段经历他的评价是："对自己来说学到很多，对这个世界来说没有产生什么贡献。"

姚顺宇

摸着良心说，对这个世界有多大的影响，我觉得几乎没有。几乎为零。外界看都是非常光鲜的——理论物理博士，在Stanford。但我很不满意。

高能理论的困境

实验完全追不上理论

高能理论讨论的能量和微观尺度已经远超实验能力
进步依赖于"数学上的自洽性"——但不只一个框架能自洽
"谁做得好、谁做得不好，依赖于领域内一些老登的主观判断"
"人这一辈子也没多长，为什么要把自己的时间浪费在伺候老登身上"

教训

两个关键认知

第一，要做有比较客观评价标准的事——"或者从另一个角度来说，要做对这个世界能够产生影响的事。"
第二，达到外界的评价标准和自己认可这个标准是两回事——"你可以达到小圈子的评价标准，像训练模型一样，一旦知道评价标准，做得好是很容易的。但你知道你是不认可的。我后来就发现我蒙蔽不了自己。"

最终选择AI而非量子计算

博士后只在伯克利正式待了两个星期就辞职去了Anthropic。选AI而非量子计算的原因："量子计算现在主要瓶颈在实验上，不是设计算法——那反而是我不擅长的。而AI更像做数值实验，这和做物理很像。"

十、加入Anthropic：大规模强化学习的起点

通过前同事联系到Anthropic——公司创始团队中有两个做物理出身的技术领导人（Jared Kaplan和Sam McCandlish），由此吸引了一批物理背景的研究员。

~800

入职时Anthropic总人数

~10-11

所在大团队（Horizon）人数

~2000

离开时Anthropic总人数

面试与准备

从零到一的AI学习

面试前"不太知道工业级别的语言模型是怎么训练的，只知道学术界怎么训练的"
把能找到的课程学了一遍，作业做了一遍
"手搓了一下"Andrej Karpathy的NanoGPT项目
面试题"也不太难"
选择了强化学习方向而非模型评测——"因为它更加不明朗"

入职时的关键时间窗口

2024年8-9月入职Anthropic时，Claude 3.5 New已经让市场发现了Anthropic在coding上的优势。O1还没发布，大家知道有"草莓"但没看到结果。Anthropic"大体上知道强化学习该怎么做，但有很多细节需要研究"。姚顺宇的到来正好赶上了这个make bet的时刻。

Anthropic的Coding优势从何而来

Claude 3发布后，有人在推特上讨论"Claude 3写代码好像比GPT-4强"——在GPT-4还遥遥领先的年代，这是一个重要信号。Anthropic"执行力非常强"，迅速扑上去。但这个coding优势的最初原因"是有原因的，是一个纯技术原因"——"确实有某一个团队做了某个事情"。是自上而下还是自下而上？"最开始可能是自下而上的，但后来就变成了自上而下的事。"

十一、Claude 3.7的诞生：把简单的事做干净

Claude 3.7（内部叫法——因为外界的Claude 3.5有两个版本，后面那个被叫做"3.6"，所以新模型顺延叫3.7）是Anthropic后训练的分水岭。

研究阶段（约2-3个月）

研究怎么在RL中做agentic coding——如何scale up、如何制备各种环境和数据、遇到什么算法问题。

训练阶段（约2个月）

开始训练到发布，"磕磕绊绊，很多事情要处理"。基础设施非常重要且花时间。

总计约4-5个月

从开始训练到发布。

为什么技术"秘诀"没有意义

姚顺宇

很多Knowhow其实是没什么用的。因为现代的AI训练是一个大的系统，你要了解方方面面才能有全局认识。我回答技术细节，本质上是在误导对方——你不能脱离基础设施去谈算法。

他举了一个具体例子：在强化学习中，生成样本的机器（sampler）和实际训练的机器（trainer）可能不一样。不同公司这种"不一样"的程度不同，导致算法设计完全不同。有些公司最大的工作是控制这种差异、保证训练稳定；有些公司基础设施好到差别很小，可以更多关注训练效果。

核心理念

把简单的事做得比谁都干净

最简单的强化学习算法就是policy gradient，但不代表它是唯一的——还有各种复杂的搜索算法。"是不是这些复杂性是必须的？它给你带来效率提升的同时，也带来infra上的困难。怎么trade-off这些因素，选择最稳定的那条路——这才是research需要理解的。"

十二、Anthropic的独特性：技术一号位的Top-Down

姚顺宇认为Anthropic能make bet的核心原因是一个"听起来其他公司也能做，但却非常奇怪地发现其他公司很难做"的事：

组织模型

技术决策人 = 公司决策人

Anthropic的技术leader（Jared Kaplan和Sam McCandlish）就是公司的联合创始人——"技术上能服众，又能为公司负责任"。Dario作为CEO"可能没有成为一个阻力"，这需要创始团队之间足够的互相信任。"Anthropic创始团队没有一个人离开公司——那是一群真正一起打过仗的人。"

Startup（如Anthropic）

重要的是make bet——赌一件事
能快速做决策、强力推进
Top-down有很大优势
Anthropic从组织上比OpenAI更有优势

大公司（如Google）

想法是尽量减少赌的成分
方方面面都有储备，任何事成了都能跟上
底层比较Bottom-up，但在变得更Top-down
擅长工程管理——把确定性的事做成工程项目

为什么其他公司做不到？

各家的困境

OpenAI："Ilya在的时候有可能可以，但后来好像失去了做决策的能力"
Google：另一套打法，不需要这种机制
共同要求：需要技术一号位 + CEO不成为阻力 + 创始团队互信——"有很多公司连小集体都团结不住了"

Anthropic的AI安全叙事

姚顺宇

Anthropic的解释是：我首先得拥有最前沿的模型，大家不得不听我的，来推进我的安全政策。但从我个人角度来说，我觉得这个想法是非常幼稚的。更有可能的是大家都有很好的前沿模型，而你没有办法阻止任何事发生。

他用核武器类比：最终受到控制的方法是多方制衡（multiparty control），而不是寄希望于一家公司制定法律。"试图去阻止AI里的一件事发生，可能本身就不是一种正确的想法。"

十三、离开Anthropic，加入Gemini

离开的原因

多重因素

Dario反华立场（公开场合说占40%，"告诉你它不是主要原因，但确实是一个很大的原因"）——"他作为个人有什么观点无所谓，但作为CEO把观点推到极端，是非常情绪化的体现"
公司文化冲击——从外面来了一些人，"有些人一天中很多时间花在Slack上讲大道理——idea is cheap"
想学不一样的东西——Anthropic非常专注，但"完全没有人做多模态生成"、在底层工程基础设施上也没有花太多精力

为什么不去OpenAI？

姚顺宇

OpenAI确实也是我当时一个选项。最后没去的主要原因是我对它的文化有比较大的担心——用粗话来说，就是感觉踏实做事的人没有Gemini多，也更没有Anthropic多。

离开时对Anthropic的悲观判断——事后被证伪

当时悲观的原因

"主要收入来源都是API，就是卖token——这是个差生意。这个生意最后就是打价格战，只有对一家公司是好生意，就是Google。"但后来Anthropic在产品上做了很多巧思：Claude Code越来越好用、Claude Work也出来了——"现在看来Anthropic反而更占优势一些。"

Claude Code的个人英雄主义

在被问到Claude Code的起源时，姚顺宇透露："产品可能还真是有一些个人英雄主义的机会——至少这个事的开端是他（Boris）自己想要做，提高自己或同事的工作效率，最后变成了对所有人都很重要的事。"他认为这可能是"交互方式级别改变的产品"——和抖音一个级别。

十四、Google的觉醒：组织清晰化与Gemini 3

Google为什么变强了

两个关键变化

组织变清晰——尤其预训练现在"非常非常清楚"：谁负责什么、每个节点上谁是负责人。以前"还是更混乱一些"。预训练进入了Google的舒适区——"变成一个工程项目，Google的工程管理能力很强"
技术储备一直够——"人一直够"，工程师"技术非常非常强"。Google特别擅长"找到一个最为简单的产品形态，大家都长一个样，然后疯狂卷技术"——搜索就是这样

AI模型公司组织模式光谱

Gemini崛起的两个关键事件

Nanobot带来流量

市场上"很爆很爆款"
大量用户下载了Gemini的app
但如果只有Nanobot，效果也不会这么好——"市占率连10%都不到的时候，模型好一点坏一点传播太慢"

Gemini 3留住用户

紧接着发布，把Nanobot带来的用户留下来了
Gemini市占率可能在20%左右
"没有Gemini打这么一拳，OpenAI的位置其实很爽"——市占率高到模型好坏对它影响不大

Google背后的关键人物

人物	角色
Sergey Brin	Google联合创始人——"最终很多大的决定，可能不是由他决定怎么做，但最后拍板得他来拍"
Koray Kavukcuoglu	DeepMind CTO / Google SVP——"更多在一线出牵头的人"
Demis Hassabis	可能更多管偏science的事（如药物设计、Isomorphic Lab等）

OpenAI "救了Google一命"

姚顺宇

OpenAI先把聊天机器人这事做了，让Google意识到很重要。但又没有做到极致，没有完全把搜索干掉——可能就吃掉了一些份额。结果让Google自己把聊天机器人也追上来了。那现在难受的就是他了。

十五、个人英雄主义已过去

这或许是全场最具争议性的核心观点——贯穿访谈始终。

姚顺宇

每个人都是冲浪的人，本质上是那个浪，而不是你那个冲浪的人。AI这个事情本身是这个浪，它会往前走，不管你冲不冲这个浪。这个浪都会拍到岸上，只是有人可能冲了这个浪尖，有人晚了一点。

英雄时代何时结束

在Transformer发现的那一刻

之前：从"不知道怎么做"到"知道怎么做"的跳变——发现那个技术的人或小团体可以是英雄
之后：更多是集体主义——"很多想法其实非常trivial，谁都能想、谁都能干，只是你运气好撞到机会"
如果没有Google Brain，Transformer可能要过很多年才被发现——"那是很大的影响"
但现在，"任何一个组织想要停止AI进展，是做不到的"

核心主张

AI本质是简单的

"这甚至不是一个结论，是我的一个陈述。"它简单的本质在于——能做实验。和物理不同，AI不受实验数据的限制，"目前你能做任何你能想到的实验，只是需要时间把计算量提上来或者基础设施准备好——没有什么本质上的困难"。所以这个行业最重要的特质不是聪明，而是靠谱、做事细、对自己做的事负责任。

姚顺宇

觉得AI这事本来也不太需要脑子。真的不太需要脑子。需要什么？我觉得这个行业最重要的特质就是靠谱。就是做事细，然后对自己做的事负责任。你说那些东西有多需要脑子？我觉得都是一些本科生就能干的活。

系统性做事的深层要求

虽然AI"简单"，但做好系统性的事并不简单——因为它违背人性：

每个评价框架都很容易被hack——"你总可以做一些事让你的指标看起来很好看"
一个负责任的研究员要想：效果好"是不是真的？是不是我中间漏了哪些因素？"
不能只看training ping好，还要看training + 3个ping是不是比别人差了——"你总可以选择只看training"
"如果一个研究员做不到对全局去考虑的话，在现在这个时代他就不是一个好的研究员"

面试的阴暗巧思

24小时强化学习项目

要求候选人在24小时内从零完成一个RL项目——自选模型、数据、算法
在AI时代这并不难——AI能帮你全套做
考察点一：能不能有效利用AI（而非考察代码质量）
考察点二：有没有真的理解AI为你做了什么——"全盘扔给AI但最后没理解的人，在一个小时的讨论里会露馅"
阴暗设计：24小时是为了看"这个人有多看重这个机会"——可能需要熬夜

对年轻人的建议

姚顺宇

纯做语言模型已经不是蓝海了。末班车已经发车了。我入行的就是那个末班车。但AI是一个很大的方向，语言模型只是其中很小很小一部分——多模态生成、机器人、用AI帮助科学问题——这些可能更是蓝海。做现在最热火的事并不是正确的选择，做现在没有人做到的事可能更好。

十六、关键数据与预测汇总

判断/数据	具体内容
模型进步速度	"完全没有"放缓——作为一线研究员，过去四个月及接下来四个月都在加速
预训练Scaling Law	没有撞墙，大多数撞墙的人是"有bug"——接下来四个月还会继续有进展
后训练	也没有到达平台期——两个范式都有空间
AI自己做研究	6-12个月内可能实现完整链条（写code→跑实验→分析结果→提出新假设→设计新实验）
代码由AI生成的比例	保守90%，不保守99-100%——"剩下10%是给自己点面子"
实验效率提升	比一年到一年半前提升20-50倍
程序员被取代	渐变过程已经开始——最终可能千分之一的人做过去所有人的工作
中美AI差距	Gap越变越小，但能否完全弥合"不清楚"
Anthropic入职时人数	约800人
离开时人数	接近2000人（扩了一倍多）
Claude 3.7开发周期	约4-5个月（研究2-3个月 + 训练2个月）
Gemini市占率	约20%（个人估计，未验证）
关键bet	Long Horizon + ML Coding——不到范式级别，但"需要在未来几个月内看到曙光"
个人最高优先级	Train with finite context, use as infinite context
豆包语音	"不客气的说，就是全世界最好的"——一定是模型的事
ChatBot是终极形态？	"这个模型明明有那么多能力，但居然用的方法是ChatBot——很蠢"
机器人进展	"一定没有到GPT-1的时刻"——还没想明白怎么scale up
新Lab判断	"绝大多数new lab都会死"
字节跳动	"被严重低估"——美国公司"还没看懂"
个人英雄主义	"对于语言模型来说，可能过去了"——在Transformer发现的那一刻

启示与延伸思考

1. "AI本质是简单的"是一个值得严肃对待的判断

姚顺宇不是在贬低AI——他是在做一个认识论层面的区分：AI没有实验数据的瓶颈（不像高能物理），所以任何想法都能被验证。这意味着瓶颈在人的系统性和可靠性，而不在智力。在一个"不需要脑子"但"需要靠谱"的领域，组织和文化可能比个人天才更重要。这也解释了为什么Anthropic（强执行力、Top-Down）和Google（强工程管理、系统性）都能做好，但方式完全不同。

2. "预训练没有撞墙"与"大多数撞墙的人有bug"

这是一个有信息优势的反共识观点——姚顺宇在Anthropic和Google都直接参与了预训练和后训练的工作。他给出的"第三种可能性"（bug）最值得注意：不是规律到头了，不是条件不满足了，而是实现中有个bug自己没发现。这暗示了大规模训练中"系统性排除可能性"的能力才是关键竞争力——也回扣了他对"靠谱"的强调。

3. 壳的困境比想象中更严峻

Manus和Open Cloud都卖给了模型公司。Cursor和Anthropic已进入竞争关系。除了AI Coding，没有真正的AI原生场景形成数据飞轮。"出模型的手掌心，大的我目前还没看到。"这对整个AI应用层创业提出了根本性质疑：你的壁垒到底是什么？如果是产品，你能比模型公司做得好多久？如果是模型，你从哪获得训练资源？

4. "该教什么"比"能不能教会"更难

这是本次访谈中最具洞察力的判断之一：平台期不是来自技术的限制，而是来自人类不知道下一个该教模型什么。ChatBot和Coding之后是什么？姚顺宇自己都说"看清楚了我可能已经出去创业了"。这意味着下一个突破更可能来自product insight（产品洞察）而非technical breakthrough（技术突破）——但他同时又认为"好的产品经理是我现在想不明白该怎么训练AI去做的事"。这个悖论值得深思。

5. 从格致中学到Anthropic：一套一致的人生算法

姚顺宇的每一次关键选择都有相同的结构：放弃确定性更高的选项（四校普通班、继续做凝态物理、留在Anthropic），转向"更不明朗"的方向。他把这叫"爱折磨自己"，但更准确的描述可能是系统性地追求信息优势——在不明朗的领域，竞争更少，学习密度更高。博士高能物理的"大教训"不是选择难的方向是错的，而是选择了一个没有客观评价标准的难方向。AI恰恰满足"难但客观"的条件。

6. Long Horizon是下一个值得关注的方向

姚顺宇在Google的两个研究重点——ML Coding和Long Horizon——本质上都指向同一个目标：让AI能够持续地、自主地完成复杂的长期任务。他特别提到"Train with finite context, use as infinite context"——用短context训练但能做长context的事。人类本身就是这样的：context很短（"昨天晚上吃的什么我一点也想不起来了"），但能选择性遗忘和检索。这可能是从ChatBot走向真正个人助手的技术路径。

7. 对"老登"的厌恶折射出一代人的价值观

"我在这个行业又没有什么导师，又没有什么旧友，我想喷谁喷谁。"姚顺宇反复表达对"老登"的反感——不是因为年龄本身，而是因为"自己也不懂，还爱指手画脚"。他把年纪大的人分为两种：德高望重的（少指手画脚，培养年轻人）和老登（不懂还爱管）。在一个"不需要脑子但需要靠谱"的领域，权威如果不以实力和贡献为基础，就失去了合法性。这可能是AI行业独有的文化——年轻到大部分人没有学术包袱，客观到能力可以被实验验证。

姚顺宇：请允许我小疯一下

目录