硅谷有两个"姚顺宇"——一个从OpenAI跳槽去了腾讯任首席AI科学家,另一个则是本期嘉宾:清华基科班出身、斯坦福理论物理博士,此前在Anthropic,现在在Google DeepMind的研究员。两人本科同级,一个在姚班学计算机,一个在基科班学物理;一个去了普林斯顿,一个去了斯坦福——"完全反过来了"。
另一位姚顺宇提出"AI进入下半场",成为著名观点。而本期姚顺宇的判断更为谨慎:
一年前大家还在担心"OpenAI reasoning做得这么强,我们有没有机会追上"。现在至少在Gemini、OpenAI和Anthropic三家之中,没有哪一家会真的担心自己追不上。更难的事情是——想明白要去做什么。"这是一个赌,但也是一个很需要人的insight的事情。"
SWE-bench上大家都在80%附近,"高一个百分点或两个百分点,主要是噪声而不是信号"。但使用上确实还有区别:Claude目前仍是agent和工具使用表现最好的;Gemini在纯reasoning和日常使用上比较好;OpenAI的Codex在coding上刚追近一些。
姚顺宇认为,在纸面上能看出差距的时代,意愿占大多数——Claude一直更看重工具使用和coding,OpenAI有一段时间非常看重reasoning。但到了现在,"纸面上都差不多",差异更多来自"你想象不到的事"。
姚顺宇举了一个历史例子:2-3年前,模型写代码天然就好,当时大家不知道为什么。后来发现原因很简单——从网上随机取预训练数据时,GitHub的数据质量显著比普通网页高。"你不做任何筛选,code data的质量天然就会比别的高一点。"这种"想象不到的原因"在当下依然存在。
姚顺宇观察到一个有趣的现象:Open Cloud的讨论在业外比业内更激烈。"对于业内人来说,它并不是特别令人惊讶——公司内部也有人做了类似的demo,只是没有作为产品认真宣发。"
Manus卖给Meta,Open Cloud卖给OpenAI。姚顺宇认为:"壳在目前这个情况下,壁垒很多都在模型侧。"但产品侧是否能产生壁垒"说不定"——目前除了AI Coding,没有哪个场景真正形成了数据飞轮。ChatBot本质上是搜索的延伸,只是带来了更强的交互性。Meta收购Manus的最大价值是"获得了一批很好的在亚洲的产品团队"。
Coding不只是最近几个月发展最快——从Claude 3.5 New(外界的"3.6",前年10月)开始,就一直处于高速发展状态。姚顺宇给出了两个根本原因:
开发速度变快之后,"越试越想试,有越来越多的想法要去试"。以前看到不懂的文件需要找人问,可能几个小时才解决;现在五秒钟就能得到答案,"所以就接着干了"。工作的密度也变高了。在做AI的领域,"没有谁是在躺着的",Google也不再是那个可以养老的Google。
在很多人讨论"预训练的Scaling Law是不是已经到头"的时候,姚顺宇给出了明确的反面回答:
Bug的形式多种多样:Scaling Law的科学假设没做对(token数量、数据来源等),或者"纯粹有个bug"——"很多时候修好一个bug带来的进展,是远大于一些很神奇的技巧的"。
"当你遇到一个bug,你觉得它不能解决,你就会说到头了。当你遇到一个bug,你觉得肯定可以解决,那你就觉得还没有到头。"但比信念更重要的是做事系统——当结果和预测不一致时,能不能系统性地排除各种可能性。"这是Anthropic做得比较好的事。"
| 驱动力 | 当前状态 |
|---|---|
| 算力 + 数据 | 在比较清晰的框架(预训练、后训练)里是主要驱动力。两者强关联——"算力上去了自然需要更多数据,数据上去了自然需要更多算力" |
| 算法 | 有相变特征:在完全没搞清楚怎么做时极其关键(如发现Transformer),一旦跨过那个点就变成平滑提升 |
| 预训练 | "过去几个月还是越来越强了"——接下来四个月还会继续有进展,但"没有人能预测四个月之后的事" |
| 后训练 | 也没有达到平台期——"预训练和后训练两个范式都没有到头" |
"有一种是技术本身到头了——你还想让模型干的事,两个技术死活教不会了。另一种是你想干的事儿到平台期了。"姚顺宇认为现在是后者——"我们有ChatBot,有Coding,后面就不知道该教什么了。模型还是一个非常聪明的小孩,你其实可以教它很多东西,但人类作为老师,现在还不知道下一个该教什么。"
姚顺宇在2026年Q1的判断:"过去一年半的趋势,中美之间的gap显然越变越小。但最后这个gap会不会完全弥合,甚至中国超过去,是一个不清楚的问题。"中国在算力资源上"占很大劣势",但"可能反而逼出了一些有趣的事"。
姚顺宇出生在宁夏一个因煤矿而存在的小城市——"看你这困惑的表情,已经说明了这个城市有多小"。小学后半段随父母迁至上海,此后的人生轨迹充满了"总爱干自己不会的事"这一基调。
在一所"无名之辈"初中(上南中学东校)。成绩可以上"四校"(上海中学、华二等),但进不了最好的班。
初中从未搞过竞赛,但"因为没搞过,所以想搞"。放弃四校的普通班,选择稍差的格致中学竞赛班——"光脚的不怕穿鞋的"。
参加清华夏令营,最后一天听说有面向北京学生的自主招生。"疯狂给招生办老师发短信"——"你给北京的同学考,为什么不给上海的考?"清华答应了。考试后签约降到一本线。高考果然没考到清华分,但靠自主招生入学。
"胆子要大。你不争取是永远得不到的。争取了也有可能得不到,但不争取就绝对得不到。"
"我爸妈最好的一点就是他们不太管我。他们可能曾经也试图管过我,后来发现管不住。"中高考填志愿都是自己填的,"我爸妈甚至可能都没见过我志愿单"。他的总结:"当你没有办法理解别人在干什么的时候,别指手画脚就是最好的。"
本科在清华基科班学物理,跟随高等研究院王忠老师做凝态理论研究。王忠"很sharp,能看问题、理解问题理解得很清楚",是张守晟老师的学生。
"做那段科研其实和现在做AI特别像——你有一个想法、一个理解,然后做一个数值实验去验证。AI也是你有一个想法,设计实验验证理解是不是对的。"这也是他后来选择AI而非量子计算的关键——AI更像18世纪的热力学物理,理论和实验不分家。
姚顺宇坦言"硬实力上其实没什么帮助"——工具性技能的转化非常少。主要帮助在性格层面:"做物理的人会更想刨根问底,更想理解一个事,做事更系统。"但他也不觉得这是物理人独特的——"做计算机的人也有这个特性,做化学的也有。"
博士期间换到高能理论物理——一个"足够难,非常非常难"的方向。但这段经历他的评价是:"对自己来说学到很多,对这个世界来说没有产生什么贡献。"
第一,要做有比较客观评价标准的事——"或者从另一个角度来说,要做对这个世界能够产生影响的事。"
第二,达到外界的评价标准和自己认可这个标准是两回事——"你可以达到小圈子的评价标准,像训练模型一样,一旦知道评价标准,做得好是很容易的。但你知道你是不认可的。我后来就发现我蒙蔽不了自己。"
博士后只在伯克利正式待了两个星期就辞职去了Anthropic。选AI而非量子计算的原因:"量子计算现在主要瓶颈在实验上,不是设计算法——那反而是我不擅长的。而AI更像做数值实验,这和做物理很像。"
通过前同事联系到Anthropic——公司创始团队中有两个做物理出身的技术领导人(Jared Kaplan和Sam McCandlish),由此吸引了一批物理背景的研究员。
2024年8-9月入职Anthropic时,Claude 3.5 New已经让市场发现了Anthropic在coding上的优势。O1还没发布,大家知道有"草莓"但没看到结果。Anthropic"大体上知道强化学习该怎么做,但有很多细节需要研究"。姚顺宇的到来正好赶上了这个make bet的时刻。
Claude 3发布后,有人在推特上讨论"Claude 3写代码好像比GPT-4强"——在GPT-4还遥遥领先的年代,这是一个重要信号。Anthropic"执行力非常强",迅速扑上去。但这个coding优势的最初原因"是有原因的,是一个纯技术原因"——"确实有某一个团队做了某个事情"。是自上而下还是自下而上?"最开始可能是自下而上的,但后来就变成了自上而下的事。"
Claude 3.7(内部叫法——因为外界的Claude 3.5有两个版本,后面那个被叫做"3.6",所以新模型顺延叫3.7)是Anthropic后训练的分水岭。
研究怎么在RL中做agentic coding——如何scale up、如何制备各种环境和数据、遇到什么算法问题。
开始训练到发布,"磕磕绊绊,很多事情要处理"。基础设施非常重要且花时间。
从开始训练到发布。
他举了一个具体例子:在强化学习中,生成样本的机器(sampler)和实际训练的机器(trainer)可能不一样。不同公司这种"不一样"的程度不同,导致算法设计完全不同。有些公司最大的工作是控制这种差异、保证训练稳定;有些公司基础设施好到差别很小,可以更多关注训练效果。
最简单的强化学习算法就是policy gradient,但不代表它是唯一的——还有各种复杂的搜索算法。"是不是这些复杂性是必须的?它给你带来效率提升的同时,也带来infra上的困难。怎么trade-off这些因素,选择最稳定的那条路——这才是research需要理解的。"
姚顺宇认为Anthropic能make bet的核心原因是一个"听起来其他公司也能做,但却非常奇怪地发现其他公司很难做"的事:
Anthropic的技术leader(Jared Kaplan和Sam McCandlish)就是公司的联合创始人——"技术上能服众,又能为公司负责任"。Dario作为CEO"可能没有成为一个阻力",这需要创始团队之间足够的互相信任。"Anthropic创始团队没有一个人离开公司——那是一群真正一起打过仗的人。"
他用核武器类比:最终受到控制的方法是多方制衡(multiparty control),而不是寄希望于一家公司制定法律。"试图去阻止AI里的一件事发生,可能本身就不是一种正确的想法。"
"主要收入来源都是API,就是卖token——这是个差生意。这个生意最后就是打价格战,只有对一家公司是好生意,就是Google。"但后来Anthropic在产品上做了很多巧思:Claude Code越来越好用、Claude Work也出来了——"现在看来Anthropic反而更占优势一些。"
在被问到Claude Code的起源时,姚顺宇透露:"产品可能还真是有一些个人英雄主义的机会——至少这个事的开端是他(Boris)自己想要做,提高自己或同事的工作效率,最后变成了对所有人都很重要的事。"他认为这可能是"交互方式级别改变的产品"——和抖音一个级别。
| 人物 | 角色 |
|---|---|
| Sergey Brin | Google联合创始人——"最终很多大的决定,可能不是由他决定怎么做,但最后拍板得他来拍" |
| Koray Kavukcuoglu | DeepMind CTO / Google SVP——"更多在一线出牵头的人" |
| Demis Hassabis | 可能更多管偏science的事(如药物设计、Isomorphic Lab等) |
这或许是全场最具争议性的核心观点——贯穿访谈始终。
"这甚至不是一个结论,是我的一个陈述。"它简单的本质在于——能做实验。和物理不同,AI不受实验数据的限制,"目前你能做任何你能想到的实验,只是需要时间把计算量提上来或者基础设施准备好——没有什么本质上的困难"。所以这个行业最重要的特质不是聪明,而是靠谱、做事细、对自己做的事负责任。
虽然AI"简单",但做好系统性的事并不简单——因为它违背人性:
| 判断/数据 | 具体内容 |
|---|---|
| 模型进步速度 | "完全没有"放缓——作为一线研究员,过去四个月及接下来四个月都在加速 |
| 预训练Scaling Law | 没有撞墙,大多数撞墙的人是"有bug"——接下来四个月还会继续有进展 |
| 后训练 | 也没有到达平台期——两个范式都有空间 |
| AI自己做研究 | 6-12个月内可能实现完整链条(写code→跑实验→分析结果→提出新假设→设计新实验) |
| 代码由AI生成的比例 | 保守90%,不保守99-100%——"剩下10%是给自己点面子" |
| 实验效率提升 | 比一年到一年半前提升20-50倍 |
| 程序员被取代 | 渐变过程已经开始——最终可能千分之一的人做过去所有人的工作 |
| 中美AI差距 | Gap越变越小,但能否完全弥合"不清楚" |
| Anthropic入职时人数 | 约800人 |
| 离开时人数 | 接近2000人(扩了一倍多) |
| Claude 3.7开发周期 | 约4-5个月(研究2-3个月 + 训练2个月) |
| Gemini市占率 | 约20%(个人估计,未验证) |
| 关键bet | Long Horizon + ML Coding——不到范式级别,但"需要在未来几个月内看到曙光" |
| 个人最高优先级 | Train with finite context, use as infinite context |
| 豆包语音 | "不客气的说,就是全世界最好的"——一定是模型的事 |
| ChatBot是终极形态? | "这个模型明明有那么多能力,但居然用的方法是ChatBot——很蠢" |
| 机器人进展 | "一定没有到GPT-1的时刻"——还没想明白怎么scale up |
| 新Lab判断 | "绝大多数new lab都会死" |
| 字节跳动 | "被严重低估"——美国公司"还没看懂" |
| 个人英雄主义 | "对于语言模型来说,可能过去了"——在Transformer发现的那一刻 |
姚顺宇不是在贬低AI——他是在做一个认识论层面的区分:AI没有实验数据的瓶颈(不像高能物理),所以任何想法都能被验证。这意味着瓶颈在人的系统性和可靠性,而不在智力。在一个"不需要脑子"但"需要靠谱"的领域,组织和文化可能比个人天才更重要。这也解释了为什么Anthropic(强执行力、Top-Down)和Google(强工程管理、系统性)都能做好,但方式完全不同。
这是一个有信息优势的反共识观点——姚顺宇在Anthropic和Google都直接参与了预训练和后训练的工作。他给出的"第三种可能性"(bug)最值得注意:不是规律到头了,不是条件不满足了,而是实现中有个bug自己没发现。这暗示了大规模训练中"系统性排除可能性"的能力才是关键竞争力——也回扣了他对"靠谱"的强调。
Manus和Open Cloud都卖给了模型公司。Cursor和Anthropic已进入竞争关系。除了AI Coding,没有真正的AI原生场景形成数据飞轮。"出模型的手掌心,大的我目前还没看到。"这对整个AI应用层创业提出了根本性质疑:你的壁垒到底是什么?如果是产品,你能比模型公司做得好多久?如果是模型,你从哪获得训练资源?
这是本次访谈中最具洞察力的判断之一:平台期不是来自技术的限制,而是来自人类不知道下一个该教模型什么。ChatBot和Coding之后是什么?姚顺宇自己都说"看清楚了我可能已经出去创业了"。这意味着下一个突破更可能来自product insight(产品洞察)而非technical breakthrough(技术突破)——但他同时又认为"好的产品经理是我现在想不明白该怎么训练AI去做的事"。这个悖论值得深思。
姚顺宇的每一次关键选择都有相同的结构:放弃确定性更高的选项(四校普通班、继续做凝态物理、留在Anthropic),转向"更不明朗"的方向。他把这叫"爱折磨自己",但更准确的描述可能是系统性地追求信息优势——在不明朗的领域,竞争更少,学习密度更高。博士高能物理的"大教训"不是选择难的方向是错的,而是选择了一个没有客观评价标准的难方向。AI恰恰满足"难但客观"的条件。
姚顺宇在Google的两个研究重点——ML Coding和Long Horizon——本质上都指向同一个目标:让AI能够持续地、自主地完成复杂的长期任务。他特别提到"Train with finite context, use as infinite context"——用短context训练但能做长context的事。人类本身就是这样的:context很短("昨天晚上吃的什么我一点也想不起来了"),但能选择性遗忘和检索。这可能是从ChatBot走向真正个人助手的技术路径。
"我在这个行业又没有什么导师,又没有什么旧友,我想喷谁喷谁。"姚顺宇反复表达对"老登"的反感——不是因为年龄本身,而是因为"自己也不懂,还爱指手画脚"。他把年纪大的人分为两种:德高望重的(少指手画脚,培养年轻人)和老登(不懂还爱管)。在一个"不需要脑子但需要靠谱"的领域,权威如果不以实力和贡献为基础,就失去了合法性。这可能是AI行业独有的文化——年轻到大部分人没有学术包袱,客观到能力可以被实验验证。