← 返回目录
深度研究 Deep Dive

姚顺雨:6年Agent研究、人与系统、吞噬的边界

#115 对OpenAI姚顺雨3小时访谈
2025.4 · ~03:00:00 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 从姚班到OpenAI:一条非共识之路
  2. 语言Agent的本质:推理带来泛化
  3. Agent的三波演变史
  4. The Second Half:方法论的基点时刻
  5. 任务与环境:被忽视的第二条线
  6. Reward设计:基于结果而非过程
  7. Reliability vs Creativity:两类任务
  8. 创业公司的机会:交互方式的创新
  9. Memory与Context:Agent的核心瓶颈
  10. 数据飞轮、壁垒与Super App
  11. OpenAI的非共识之路:从RL到GPT
  12. 中心化与多元:既单极又多元的世界
  13. Agent的未来12-24个月
  14. 人与Agent的关系:意识、安全与身份
  15. 个人哲学:通用性的执念
  16. 关键数据与判断汇总
  17. 启示与延伸思考

一、从姚班到OpenAI:一条非共识之路

姚顺雨本科就读清华姚班(2015-2019),博士在普林斯顿(2019-2024),2024年毕业后加入OpenAI。他自嘲"前28年的人生非常的乖",但反叛精神隐藏在每一次非共识的选择中。

2016年 · 被Word2Vec震撼

在李健老师的课上看到multi-modal Word2Vec的demo——"国王的embedding减去man加上queen等于woman"。姚顺雨觉得"非常神奇",但当时清华姚班"没有什么做deep learning的老师或者资源"。

2018年 · MIT访学,转向深度学习

跟随吴嘉进学长在MIT做research,开始系统性做deep learning。当时做的是computer vision,但隐约觉得"vision很难实现一个general的AI",language更central。

2019年 · 进入普林斯顿,开始Agent研究

被computer vision方向录取,但已不想做CV。找到导师Karthik,讨论出第一个idea:"GPT-2已经比以前强很多了,它玩游戏是不是也会更强?"从此一直做Agent,至今6年。

2021-2023年 · 核心工作爆发

WebShop(2022)、ReAct(2022)、Tree of Thought、SWE-bench、SWE-agent等一系列工作发布,在Agent领域建立了标志性影响。

2024年 · 加入OpenAI

"OpenAI是做research最好的地方"。2025年4月发布博文《The Second Half》,宣告AI主线程进入下半场。

两个关键的早期选择

选择一:用GPT而不用BERT

  • 当时95%的人在做BERT,只有5%做GPT
  • BERT擅长分类(积极/消极),但Agent需要"自由产生新的动作的能力"
  • "BERT永远做不到"让Agent在游戏中说出"用金色钥匙打开第一个房间的门"
  • "发现这个事情之后,我就再也没有用过BERT"

选择二:从简单环境走向真实数字世界

  • 早期做文字游戏(如Zork),但发现"环境不够大",学到的东西局限在环境里
  • 2015年就有World of Bits的idea(把互联网作为环境),但技术不成熟
  • 2021年与导师讨论后重启这个方向,做了WebShop
  • "很显然做coding的agent是最重要的事情,为什么没有人做?"
姚顺雨
我一直有非共识,就是我想要去做agent。另一个点是我一直想做简单并且通用的东西,我不想做一个很复杂但是只能在一个领域奏效的东西。

二、语言Agent的本质:推理带来泛化

姚顺雨对Agent的定义随context变化,但他认为语言Agent与传统Agent的本质区别只有一个字:推理

核心论点

推理 → 泛化 → 通用Agent

语言模型提供了一个足够强的先验知识(prior),这个先验使得推理成为可能,而推理又可以在不同环境间泛化。传统强化学习的Agent(如AlphaGo)只能在训练环境中工作,无法迁移;语言Agent可以在一个环境学习推理技能,并迁移到全新环境。

姚顺雨
为什么我可以一下子就去玩一个新的游戏,但是现在这些AI需要几十万步或者几百万步的训练?我发现好像是因为我可以思考。我看到一个全新的环境,我会思考——这个灯是黑的,那可能有危险,可能有怪兽,我现在最重要的事情是要点亮灯。没有推理是做不到的。

语言为什么特殊

姚顺雨认为语言不只是一种数据形式,而是人类为了实现泛化而发明出来的工具——"这一点比其他东西更本质"。

其他模态(视觉、音频等)

  • 为特定感知而优化
  • 在特定任务上可能更高效
  • 难以跨任务泛化
  • "学会了攀岩,不能帮你做新任务"

语言

  • 为打通所有任务而发明
  • 在特定任务上可能不是最优
  • 几乎总是能帮你做新的任务
  • "可以交流、学习、思考、推理"

泛化已经发生了吗?

姚顺雨的回答:是的,有证据

  • DeepSeek等模型在Math和Coding上做RL后,在创意写作上也变强了
  • "AlphaGo只能下围棋不能下象棋,但你现在学了数学可以去做创意写作"
  • 本质区别:之前在一个环境训练只能做这一个环境,现在可以做更多环境
  • 泛化不是0和1的绝对事情,而是相对的——但趋势已经明确

三、Agent的三波演变史

姚顺雨将Agent的历史分为三波,每一波都有其核心方法与致命局限。

波次时代核心方法代表致命局限
第一波1960s-1980s符号主义 / 规则系统专家系统、数学定理证明规则无法穷尽所有情况,不可泛化
第二波2013-2020深度强化学习AlphaGo、Dota、机器手每个环境需大量specific工程,无法跨环境泛化
第三波2022至今基于LLM的语言AgentReAct、SWE-agent、Coding Agent尚需解决Memory、Intrinsic Reward、Multi-agent
Agent三波演变:方法与泛化能力

被忽视的"任务线"

姚顺雨指出,大家往往只看到方法的演变线(符号→RL→LLM),却忽视了任务/环境的演变线:从证明数学定理→下围棋玩游戏→互联网/Coding/Computer等真实数字环境。"这两条线是相辅相成的。"这解释了为什么他的研究一直同时在两条线上推进。

OpenAI的五级分类与Agent的位置

Level 1→5的内在逻辑

  • Level 1 聊天机器人:语言先验知识的第一个应用
  • Level 2 推理者:基于语言先验做推理
  • Level 3 代理者/Agent:有了先验+推理,才能做泛化的Agent
  • Level 4 创新者:需要Long-term Memory + Intrinsic Reward
  • Level 5 组织者:需要Multi-agent协作与Scale

姚顺雨认为Level 4和5"可能是正交的,可以平行发展",不确定谁先谁后,"不用太纠结谁是第4级谁是第5级"。

四、The Second Half:方法论的基点时刻

2025年4月,姚顺雨发布博文《The Second Half》,宣告AI主线程进入下半场。这一观点源于他在OpenAI工作半年的感悟。

核心判断

"上半场"与"下半场"的分野

上半场:我有很多问题(怪兽),需要为不同问题造各种各样的武器。不同社区、不同会议、不同方法。
下半场:我终于有了一把通用的"机关枪"(基于LLM+推理+RL的通用方法),现在的问题变成——我要朝哪里开枪?即:定义什么任务、解决什么问题。

姚顺雨
十年前的AI researcher会认为做翻译、玩游戏、用电脑订票、做数学是完全不同的事情,需要完全不同的方法、完全不同的人、开完全不同的会。但现在终于这些事情都用一个方法可以解决了。这是一个本质性的事件。

为什么叫"中场"而非"终场"

类比牛顿力学的诞生

  • Transformer、预训练、强化学习等都是伟大的铺垫——就像开普勒、亚里士多德为牛顿做铺垫
  • 现在是"方法论上的基点事件"——人们发现世界可以用一个统一方法去理解
  • "天下大事分久必合合久必分,大家已经分得太久了"
  • 下半场的核心挑战:定义好的任务、好的环境、创造真实世界的价值

Bottleneck的转移

姚顺雨
很多时候模型的bottleneck不是缺少推理能力或写代码的能力,而是它去找一个完整的context。这个问题我不知道是intelligence的问题,还是产品问题,还是别的什么问题。但如果你要让AI实现价值,你需要去解决这个问题。

五、任务与环境:被忽视的第二条线

姚顺雨多次强调,他的研究始终沿两条线推进:简单通用的方法有价值的真实世界任务/环境。后者往往被学术界忽视。

Coding作为AI最重要的环境之一

姚顺雨
Coding就有点像人的手一样。对于物理世界来说,人最重要的affordance就是制造出手能够使用的工具。但对于digital agent来说,最重要的affordance就是code。因为其他affordance——网页、小说——其实都是给人定义的。只有code是一个很自然的给机器定义的东西。

API vs GUI的经典辩论

最终答案:Meet in the Middle

  • 很多东西没有API,只有前端——你是改造车适应所有路,还是改造路适应车?
  • "让agent既能用code又能用screenshot,两者都做也没那么难"
  • 让车能开在所有路上的难度,低于人力改造所有路变成API的难度
  • 最终的agent"什么都做"

Method-Task Fit

做研究需要的不是product-market fit,而是method-task fit

姚顺雨坦言自己的研究路径"比较特殊"——大多数伟大方法是从特定任务中涌现的(如attention源于翻译),但他经常"先在脑子里想到一个通用方法,再去找任务证明它有价值"。这使得寻找任务成为最难的部分。"做ReAct最难的是寻找任务,做Tree of Thought最难的也是怎么把belief通过实验结果表达出来。"

六、Reward设计:基于结果而非过程

姚顺雨认为做任何RL task,最难的部分是怎么定义reward。他从博士阶段就确立了自己的偏好。

结果
基于结果,而非过程
规则
基于规则,而非偏好
白盒
可清晰计算,非黑盒
姚顺雨
答案是3,那它就是3。你只要最终这个答案是3,那它就是对的。它不是3,它就是错的。如果你去做任何其他的设计,好像都会出现hacking。如果你基于过程去定义reward,你可能会产生一个非常优美的代码,但是它可能不解决问题。

为什么Math和Coding是RL成功的关键

一个被忽视的评估假设

姚顺雨指出当前评估的一个根本假设需要被推翻:"我们评估一个东西是基于500个任务,分别跑500次,把平行的数据加在一起变成reward。但人不是这样的——人在公司上班,重要的是一天30天一年之后变得有多好,而不是在100个平行宇宙把你放到第一天你能做得多好。"

七、Reliability vs Creativity:两类任务的不同挑战

姚顺雨提出了一个Agent任务的二维分类框架。

Reliability型任务(客服等)

  • 做简单的事情,但做得非常reliable
  • 100次里99次以上不能出错
  • 评估指标:pass@k(k次都成功的概率)
  • 当前被严重低估——"我们对简单任务的robustness并不重视"

Creativity型任务(数学证明等)

  • 可以试100次,只要有一次做得特别好就成功
  • 评估指标:pass@k(至少成功一次的概率)
  • 包括:证明黎曼猜想、写很难的代码、创作文学剧本
  • 当前关注较多(pass@100在coding research中常见)

人难 ≠ AI难

一个反直觉的发现

  • 对人来说做客服比做软件工程简单很多(工资低、资历要求低)
  • 但对AI来说,做软件工程反而比做客服更简单
  • 原因:软件工程有更好的环境、更清晰的reward、更多数据
  • 做一个非常robust/reliable的客服有reliability的challenge
  • "人的challenge的相对难易,并不完全反映到AI上"

任务的深度与广度

另一个划分维度

  • 深度(时间跨度):3秒改一个文件 vs 3天完成一个项目——需要Long-term Memory
  • 广度(问题范围):解决一个bug vs 从头搭建Windows这样的repo——需要Multi-agent Research
  • 一个人能做的事情 vs 一个team能做的 vs 一个公司能做的

八、创业公司的机会:交互方式的创新

面对"模型能力溢出会把创业公司吞掉"的担忧,姚顺雨给出了一个清晰的框架。

姚顺雨
创业公司应该担心的不是模型溢出能力,而是模型没有溢出能力——那样你就真的什么都做不了了。有溢出能力是个非常好的事情,这意味着你有机会。
核心框架

创业公司最大的机会 = 新交互方式 + 模型溢出能力

两者缺一不可:如果交互方式像ChatGPT,你有什么理由不被ChatGPT取代?如果交互方式新但模型没有继续变好,你也很难做。最好的情况:做新的交互方式,模型不停有新的溢出能力赋能。

Cursor为什么成功

交互方式的创新,而非模型的创新

  • Cursor创造了一种新的交互方式——不是像人一样的助手,而是copilot
  • "写代码的时候他能给你提示一些东西,或者帮你edit一些东西。但没有人和人是这样交互的"
  • 这就是它的价值所在——它不在模型上做创新,而在交互方式上

Super App拥有者的路径依赖

姚顺雨
拥有一个super app其实对公司是双刃剑。2020年Google有无限多的资源和钱,有Transformer,有最好的research,但它最自然的想法是"我怎么用这些东西提升我的搜索引擎"。当你有像ChatGPT这样一个super app的时候,你大部分资源还是会围绕你的super app。我觉得这是创业公司的机会。

Manus的启发

小厂也能反向影响大厂

  • 传统认为大厂先做出东西,创业公司来抄
  • 但Manus证明了反向也成立——小厂做交互创新,大厂也可以借鉴
  • "可能这个世界是个相互抄的关系,而不是单向抄的关系"
  • 姚顺雨暗示这类产品是"OpenAI主线上的产品"——"You will see"

九、Memory与Context:Agent的核心瓶颈

姚顺雨在多个场合反复强调:Memory和Context是当前Agent最重要的瓶颈,也是产生壁垒的关键。

Agent能力栈:从基础到前沿

为什么人还不可被替代

姚顺雨
为什么这个世界上很多人有价值?并不是因为他的数学能力比别人强,而是因为他有一些自己的信息,这些是他有别人没有的。他去了这个公司7天之后,脑子里面有一些积累下来的context。虽然你没有o3聪明,但你有这些context,所以你做的比o3好。

Memory Hierarchy

冯诺依曼的洞见

"环境永远是Memory Hierarchy的最外层"

姚顺雨引用冯诺依曼遗作《The Brain and the Computer》中让他印象最深的一句话:"Essentially environment is always the most outer part of the memory hierarchy."对人来说:working memory → long term memory(大脑) → 笔记本/Google Doc/Notion(最外层)。对Agent来说:context window → long term memory → 外部环境(MCP、API等)。

Long Context vs Long Term Memory

Memory作为壁垒

Memory可能是ChatGPT产生粘性的关键

  • 没有memory时,大家只在拼谁的模型更强
  • 有了memory,拼的不仅是模型,还是用户用哪个更多、哪个粘性更强
  • 用户积累的context → 更好的体验 → 更强的粘性
  • "这是一种研究优势转换成商业优势的方式"

十、数据飞轮、壁垒与Super App

大多数公司还没有数据飞轮

数据飞轮的三个条件

  • 能够自己训模型
  • 有一个好的reward,能把好数据和坏数据分开
  • reward和应用是aligned的(reward做得更好=公司更成功=模型更好)

"大多数公司还是依赖于模型在变好,然后使用模型变好的溢出能力。"

成功案例:Midjourney

Midjourney是目前比较成功的数据飞轮案例

有非常清晰的reward(人更喜欢哪张图)→ 这个reward和应用是aligned的 → 能自己训模型 → 数据飞轮形成。但条件之一是要"比较不主线"——如果太主线,大厂也可以通过pretraining或RL把能力提上去。

如果是Cursor的CEO

姚顺雨
我肯定会去训练模型或者去尝试训练模型。但做不做pretraining得看情况。Coding是一个非常主线的任务——所有大厂都会把模型的coding做好。你要不要做取决于闭源模型做得多好、开源模型做得多好、中间有多少gap、你能填补多少。

如果是微信的老板

姚顺雨的回答:不急

  • "我有个易守难攻的地方,我为什么要急着进攻?"
  • 真正的危险不是类似微信的东西打败微信,而是"一个很不一样的东西打败了微信"——就像微信打败QQ
  • 需要对颠覆性创新保持警惕,但incremental创新"早做晚做区别没那么大"
  • 关键变量:未来人类的网络是否还长在微信上——agent朋友 vs 人类朋友?

十一、OpenAI的非共识之路:从RL到GPT

姚顺雨讲述了OpenAI内部一段鲜为人知的历史:GPT路线在早期是极度非共识的。

一个关键的历史细节

姚顺雨
我导师他是GPT-1的第二作者。他在OpenAI待了一年然后去普林当教授了。他当时对这个事情就有点怀疑——当时结果也不是特别好,那些榜单上也不是分数最高的。Ilya就跟我导师说:"你看这个语言已经被我们解决了,现在我们只需要scale up,这个东西就结束了。"但即使你是在OpenAI,即使你是GPT的作者,你可能还是没有形成共识的。

不同赌注的共存

OpenAI的真实运作方式

  • OpenAI成立时,最火的是DeepMind的强化学习——所以一开始focus on RL
  • "你只有有个different bet,你才能超越之前的霸主。如果OpenAI一直做RL,可能也很难超过DeepMind"
  • GPT是这样一个different bet——但当时可能"绝大多数人也不认为scale up GPT是最promising的方向"
  • 历史不是"走了这条路然后彻底抛弃走另一条路"——而是70-80%资源做主线,其他东西还在做
  • 后来证明RLHF(RL的积累)对ChatGPT的产品化也至关重要

Ilya和Sam Altman的关键贡献

姚顺雨认为Ilya最大的贡献不是做GPT-1的具体技术,而是"号召all in这个方向"。Sam Altman的贡献也不是提出某个具体技术,"而是做一个创业公司,敢赌这一个事情,把钱都砸进去"。Tom Brown和团队敢于把GPT-3做出来,"让人看到了更大的希望"。"好处是你并不需要所有人达成共识,你只要有足够多人达成共识就可以做了。"

对DeepSeek的评价

十二、中心化与多元:既单极又多元的世界

这是访谈中最具哲学深度的部分。姚顺雨用网络理论的框架描述了他对AI未来格局的判断。

社会网络的三个维度演变

人类社会网络的三个性质

历史趋势:三者同时加强

  • 中心化程度:资源分配越来越集中(二八定律、马太效应)——持续加剧
  • 边缘到中心的可能性:从门阀制/种姓制到今天——阶级跃迁机会反而更多了
  • 网络的多样性:世界上最大公司的支配力在增强,但产业总是越来越多——两个事情可以同时存在
姚顺雨
大模型技术没有垄断性。硅谷头三家好像都能追到一定水平。如果它有垄断性那是比较可怕的。但是如果你能找到一个产品形态,在那里面研究优势能够转换成商业优势,那就会产生壁垒。

中心化力量 vs 去中心化力量

中心化的argument

  • OpenAI/Anthropic可能成为1T、10T、100T公司
  • 占据绝大多数compute
  • 创造super app和super platform
  • 效率是中心化的根本性原因

去中心化的argument

  • 智能变得便宜如电——赋能每个人
  • Multi-agent:每个人有自己的agent,100万人交换信息
  • 不在中心化核心的力量有motivation做非中心化的事情
  • "如果你认为中心化的极限是context limitation"

中间商的困境与机会

姚顺雨指出,很多中间商的价值本质上是"拥有信息差"。在AI时代,这些人"会想去维持自己的权力和资源",可能发明更distributed的network——比如在交易世界中,每个人只拥有信息的一小部分,通过multi-agent交换。"这个世界可能不会是一方超过另一方,两方都会有自己的力量。"

十三、Agent的未来12-24个月

姚顺雨的四个预测

预测一:Chatbot自然演化为Agent

Grok、ChatGPT、Anthropic Claude等默认交互方式会变成Agentic。Chat可能保留为子集,但Agent会成为"更显然重要的交互方式"。

预测二:新的"Cursor"出现

Cursor是在Coding/IDE环境下的Copilot,但会有机会做新环境或更大环境下的Copilot。这两种大的交互方式(remote VM型 vs 嵌入既有环境型)是互补的、正交的。

预测三:新的Scaling Dimension

"会有新的scaling dimension出现"——如果有大量memory,test time compute有新方式scale;如果有multi-agent,又有另一个维度。不同应用需要选择不同scaling维度的比重。

预测四:两年内仍偏中心化

"可能两年内还是会有些super app,然后这些super app会有各自的infra、各自的environment和交互方式。"两年以后?"没有人能看到两年以后。"

Agent如何Scale Up

姚顺雨
Agent token用量可能是Chatbot的500到1000倍?我觉得cost本身不是问题,问题是你的cost不justify你的performance或者value。如果这个很有value的事情我花了500刀但可以给我赚1000刀,that's not a problem。最重要的事情是找到有价值的应用,然后cost总会降低。

对Pretraining的看法

Cost和Value的取舍

  • 做的人少是因为cost非常大,但additional value并没有那么大
  • 如果有一天世界有很多不同的super app和交互方式,需要完全不同的模型能力
  • 这些东西的value足够justify pretraining的cost时,就会合理
  • "是一个value和cost的关系"

十四、人与Agent的关系:意识、安全与身份

给Agent发身份证?

姚顺雨的回答:基于utility

  • 未来很多agent长得并不像人——可能是平台、页面、游戏
  • 但肯定会有拟人化的agent
  • 如果agent有了long-term memory,"他是不是就是你的朋友了?"
  • "很多人很孤独,他需要一个朋友,那拟人化就是一个很合理的存在"
  • 最终还是会基于经济价值

模型会产生意识吗

姚顺雨
意识是一个没有被很好定义的东西。但也许当你能够处理足够复杂的context,并且你有足够大的autonomy或decision making的power,那客观上你可能就产生意识了。我们认为自己有意识,是因为我们在一个自己认为很高的频率在处理信息、做决策、脑子里闪过各种想法。如果一个系统能做到这些,它是不是就可以被定义为有意识了?

安全问题的分层

产品安全(容易解决)

  • 一个产品不安全就没有商业价值
  • 公司为了商业利益自然会重视
  • "一个东西有足够大价值,总会有人解决安全问题"

意识形态安全(不确定)

  • 超越产品层面的安全责任
  • "大家还没有完全定义清楚"
  • "AGI还没有实现的时候就担心它太厉害了,好像不是特别make sense"

十五、个人哲学:通用性的执念

访谈最后,姚顺雨展现了一种贯穿他学术生涯和人生选择的内在一致性——对通用性的执念。

姚顺雨
我从小是一个比较general的人。我想试图变得很通用,了解很多不同的学科,做很多不同的事情。但后来我就发现,一个人即使再聪明再有精力,他能理解的知识也只是人类社会积累的很小一部分。那可能更好的事情是,你去创造一个比你更通用、更general的东西。

对上限的追求

做确定性高的事 vs 做上限高的事

  • "大家往往倾向于做确定性比较高的事情"
  • 但恰好这个时代有巨大的机会——"你去做上限更高的事情是更好的"
  • 如果没有巨大机会,最佳路径可能是incremental积累
  • "但恰好有一个上限非常高的事情,那如果你敢想、胆子特别大、想象力很丰富,就会有好的事情发生"

导师的影响

姚顺雨引述导师Karthik
If someone else can do it, then it's okay to let them do it. 如果从人类全局的角度来说,一个事情很多人都能做,别人做了,可能也没有什么区别。

如果做了一个500亿美元的AI投资

三个方向

  • 模型层公司(OpenAI等)——"大概率来说会有更大价值"
  • 能积累user context或构建特殊environment的公司——"有点像发明汽车之前的石油公司"
  • 拥有大量user context的平台(如微信)——"一手难攻的好平台"

"最终AGI是个系统,它需要intelligence、环境和user context。"

快问快答

问题回答
全球喜欢的食物椰子
全球喜欢的地点伊斯坦布尔
必读的书《智能简史》+ 各种自传/传记
影响AI进程的论文Backprop、Transformer、GPT——"是个积累过程,没有最伟大的"
最关键的bet"bet on有different super app的产品形态、有不同的交互方式"
MBTI"INFP,但我不太记得这些字母的意思"
会创业吗"OpenAI大多数人都会考虑创业。但我还是喜欢把事情想清楚一点再去做"

十六、关键数据与判断汇总

判断具体内容
Agent研究时间6年(2019至今),从PhD第一个项目开始
GPT vs BERT当年95%的人做BERT,5%做GPT;姚顺雨选了GPT后"再也没用过BERT"
Agent三波演变符号主义(1960s)→ 深度RL(2013-2020)→ 语言Agent(2022至今)
当前处于何处"The Second Half"——方法论的基点时刻,类比牛顿力学诞生
Agent Token消耗单用户可能是Chatbot的500-1000倍
最重要的能力处理context/memory的能力 + 基于此做lifelong/online learning
ReAct的地位"大多数时候大家就是用类似ReAct的架构"——最简单的方法可能还是work的最好的
Agent Level 4-5Innovator需要Long-term Memory + Intrinsic Reward;Organization需要Multi-agent Scale
Reward设计原则基于结果(不是过程)+ 基于规则(不是偏好)+ 白盒(不是黑盒)
数据飞轮"大多数公司还没有形成数据飞轮",成功案例:Midjourney
Memory壁垒Memory可能是ChatGPT产生粘性/壁垒的关键
Manus评价"产品sense很好",暗示是OpenAI主线上的产品——"You will see"
大模型垄断性"暂时没有垄断性"——硅谷头三家都能追到一定水平
未来世界格局"既单极又多元"——中心化和多样性同时加强
博文写作用Deep Research做initialization,自己重写约2小时
创业意向"OpenAI大多数人都会考虑",但"喜欢想清楚一点再做"
核心betBet on不同的super app形态和交互方式——"否则这个世界变得很灰暗"

十七、启示与延伸思考

1. "The Second Half"不是AI的下半场,而是方法论的分水岭

姚顺雨用牛顿力学来类比当前时刻的意义:在此之前,做翻译、做游戏、做数学的人开不同的会、用不同的方法;在此之后,一个统一的方法(LLM + 推理 + RL)可以解决所有这些问题。这意味着AI研究的竞争焦点从"造更好的武器"转移到了"找到最该解决的问题"。对创业者来说,这是一个根本性的信号:技术差异化的窗口正在关闭,任务和场景的差异化窗口正在打开。

2. Context是AI价值实现的真正瓶颈,不是智能

姚顺雨反复强调:模型的推理能力已经比大多数人强了,但它"没有创造足够的经济价值"。原因是缺少context——人在公司工作7天后脑子里积累的那些"很难用语言总结下来的东西"。这意味着一个二本毕业生可以做很多o3做不了的事情,不是因为他更聪明,而是因为他有context。解决这个问题,可能比提升模型智能更重要。

3. "人难≠AI难"颠覆了传统的岗位替代叙事

客服对人来说简单但对AI来说更难(需要reliability),软件工程对人来说难但对AI来说更简单(有清晰的reward和环境)。这个洞见意味着AI对劳动力市场的冲击路径将与人们直觉预期的完全不同——不是先替代简单工作再替代复杂工作,而是先替代"有好reward"的工作再去解决"需要robustness"的工作。

4. 创业公司的机会窗口在交互方式,而非模型能力

Cursor的成功不在于模型创新,而在于创造了一种copilot式的新交互方式。姚顺雨的逻辑是:拥有super app的大公司必然围绕既有交互方式分配资源(如Google围绕搜索),这给了创业公司探索全新交互方式的空间。反过来说,如果你做的交互方式"很像ChatGPT",就没有理由不被ChatGPT取代。Manus的案例甚至证明了小厂可以反向影响大厂。

5. Reward设计是RL成功的关键,也是应用的关键

姚顺雨坚持"基于结果而非过程、基于规则而非偏好"的reward设计哲学。Math和Coding最早取得突破,不是因为它们最重要,而是因为它们有最好的reward。这暗示了一个应用选择原则:能定义出清晰、白盒、基于结果的reward的领域,Agent会最先产生价值。反之,reward模糊的领域(如"好的管理")可能要等很久。

6. "既单极又多元"——AI格局最可能的终态

姚顺雨的网络理论框架给出了一个精妙的预测:中心化(头部公司的支配力)和多样性(产业和交互方式的丰富度)会同时增强。这既不是乐观主义的"AI民主化所有人",也不是悲观主义的"OpenAI垄断一切"。壁垒不来自模型(暂时没有垄断性),而来自产品形态中"研究优势转换成商业优势"的节点——Memory可能就是这样一个节点。

7. 姚顺雨的非共识本身就是一个Agent思维的范例

回看他的每一次关键选择——选GPT不选BERT、做真实数字环境不做游戏、做简单通用方法不做复杂specific方法、在95%的人做BERT时做5%的事——都是一种"method-task fit"的搜索过程。他的研究风格就是他所倡导的Agent架构的人肉版:有一个强先验(对通用性的执念),在推理中泛化(跨领域看问题),在真实环境中验证(SWE-bench等)。这种内在一致性解释了为什么他能在Agent领域持续产出标志性工作。

延伸阅读