深度研究 — #115 对<a href="https://openai.com" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">OpenAI</a>姚顺雨3小时访谈：Agent、推理与泛化

← 返回目录

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

从姚班到OpenAI：一条非共识之路
语言Agent的本质：推理带来泛化
Agent的三波演变史
The Second Half：方法论的基点时刻
任务与环境：被忽视的第二条线
Reward设计：基于结果而非过程
Reliability vs Creativity：两类任务
创业公司的机会：交互方式的创新
Memory与Context：Agent的核心瓶颈
数据飞轮、壁垒与Super App
OpenAI的非共识之路：从RL到GPT
中心化与多元：既单极又多元的世界
Agent的未来12-24个月
人与Agent的关系：意识、安全与身份
个人哲学：通用性的执念
关键数据与判断汇总
启示与延伸思考

一、从姚班到OpenAI：一条非共识之路

姚顺雨本科就读清华姚班（2015-2019），博士在普林斯顿（2019-2024），2024年毕业后加入OpenAI。他自嘲"前28年的人生非常的乖"，但反叛精神隐藏在每一次非共识的选择中。

2016年 · 被Word2Vec震撼

在李健老师的课上看到multi-modal Word2Vec的demo——"国王的embedding减去man加上queen等于woman"。姚顺雨觉得"非常神奇"，但当时清华姚班"没有什么做deep learning的老师或者资源"。

2018年 · MIT访学，转向深度学习

跟随吴嘉进学长在MIT做research，开始系统性做deep learning。当时做的是computer vision，但隐约觉得"vision很难实现一个general的AI"，language更central。

2019年 · 进入普林斯顿，开始Agent研究

被computer vision方向录取，但已不想做CV。找到导师Karthik，讨论出第一个idea："GPT-2已经比以前强很多了，它玩游戏是不是也会更强？"从此一直做Agent，至今6年。

2021-2023年 · 核心工作爆发

WebShop（2022）、ReAct（2022）、Tree of Thought、SWE-bench、SWE-agent等一系列工作发布，在Agent领域建立了标志性影响。

2024年 · 加入OpenAI

"OpenAI是做research最好的地方"。2025年4月发布博文《The Second Half》，宣告AI主线程进入下半场。

两个关键的早期选择

选择一：用GPT而不用BERT

当时95%的人在做BERT，只有5%做GPT
BERT擅长分类（积极/消极），但Agent需要"自由产生新的动作的能力"
"BERT永远做不到"让Agent在游戏中说出"用金色钥匙打开第一个房间的门"
"发现这个事情之后，我就再也没有用过BERT"

选择二：从简单环境走向真实数字世界

早期做文字游戏（如Zork），但发现"环境不够大"，学到的东西局限在环境里
2015年就有World of Bits的idea（把互联网作为环境），但技术不成熟
2021年与导师讨论后重启这个方向，做了WebShop
"很显然做coding的agent是最重要的事情，为什么没有人做？"

姚顺雨

我一直有非共识，就是我想要去做agent。另一个点是我一直想做简单并且通用的东西，我不想做一个很复杂但是只能在一个领域奏效的东西。

二、语言Agent的本质：推理带来泛化

姚顺雨对Agent的定义随context变化，但他认为语言Agent与传统Agent的本质区别只有一个字：推理。

核心论点

推理 → 泛化 → 通用Agent

语言模型提供了一个足够强的先验知识（prior），这个先验使得推理成为可能，而推理又可以在不同环境间泛化。传统强化学习的Agent（如AlphaGo）只能在训练环境中工作，无法迁移；语言Agent可以在一个环境学习推理技能，并迁移到全新环境。

姚顺雨

为什么我可以一下子就去玩一个新的游戏，但是现在这些AI需要几十万步或者几百万步的训练？我发现好像是因为我可以思考。我看到一个全新的环境，我会思考——这个灯是黑的，那可能有危险，可能有怪兽，我现在最重要的事情是要点亮灯。没有推理是做不到的。

语言为什么特殊

姚顺雨认为语言不只是一种数据形式，而是人类为了实现泛化而发明出来的工具——"这一点比其他东西更本质"。

其他模态（视觉、音频等）

为特定感知而优化
在特定任务上可能更高效
难以跨任务泛化
"学会了攀岩，不能帮你做新任务"

语言

为打通所有任务而发明
在特定任务上可能不是最优
几乎总是能帮你做新的任务
"可以交流、学习、思考、推理"

泛化已经发生了吗？

姚顺雨的回答：是的，有证据

DeepSeek等模型在Math和Coding上做RL后，在创意写作上也变强了
"AlphaGo只能下围棋不能下象棋，但你现在学了数学可以去做创意写作"
本质区别：之前在一个环境训练只能做这一个环境，现在可以做更多环境
泛化不是0和1的绝对事情，而是相对的——但趋势已经明确

三、Agent的三波演变史

姚顺雨将Agent的历史分为三波，每一波都有其核心方法与致命局限。

波次	时代	核心方法	代表	致命局限
第一波	1960s-1980s	符号主义 / 规则系统	专家系统、数学定理证明	规则无法穷尽所有情况，不可泛化
第二波	2013-2020	深度强化学习	AlphaGo、Dota、机器手	每个环境需大量specific工程，无法跨环境泛化
第三波	2022至今	基于LLM的语言Agent	ReAct、SWE-agent、Coding Agent	尚需解决Memory、Intrinsic Reward、Multi-agent

Agent三波演变：方法与泛化能力

被忽视的"任务线"

姚顺雨指出，大家往往只看到方法的演变线（符号→RL→LLM），却忽视了任务/环境的演变线：从证明数学定理→下围棋玩游戏→互联网/Coding/Computer等真实数字环境。"这两条线是相辅相成的。"这解释了为什么他的研究一直同时在两条线上推进。

OpenAI的五级分类与Agent的位置

Level 1→5的内在逻辑

Level 1 聊天机器人：语言先验知识的第一个应用
Level 2 推理者：基于语言先验做推理
Level 3 代理者/Agent：有了先验+推理，才能做泛化的Agent
Level 4 创新者：需要Long-term Memory + Intrinsic Reward
Level 5 组织者：需要Multi-agent协作与Scale

姚顺雨认为Level 4和5"可能是正交的，可以平行发展"，不确定谁先谁后，"不用太纠结谁是第4级谁是第5级"。

四、The Second Half：方法论的基点时刻

2025年4月，姚顺雨发布博文《The Second Half》，宣告AI主线程进入下半场。这一观点源于他在OpenAI工作半年的感悟。

核心判断

"上半场"与"下半场"的分野

上半场：我有很多问题（怪兽），需要为不同问题造各种各样的武器。不同社区、不同会议、不同方法。
下半场：我终于有了一把通用的"机关枪"（基于LLM+推理+RL的通用方法），现在的问题变成——我要朝哪里开枪？即：定义什么任务、解决什么问题。

姚顺雨

十年前的AI researcher会认为做翻译、玩游戏、用电脑订票、做数学是完全不同的事情，需要完全不同的方法、完全不同的人、开完全不同的会。但现在终于这些事情都用一个方法可以解决了。这是一个本质性的事件。

为什么叫"中场"而非"终场"

类比牛顿力学的诞生

Transformer、预训练、强化学习等都是伟大的铺垫——就像开普勒、亚里士多德为牛顿做铺垫
现在是"方法论上的基点事件"——人们发现世界可以用一个统一方法去理解
"天下大事分久必合合久必分，大家已经分得太久了"
下半场的核心挑战：定义好的任务、好的环境、创造真实世界的价值

Bottleneck的转移

姚顺雨

很多时候模型的bottleneck不是缺少推理能力或写代码的能力，而是它去找一个完整的context。这个问题我不知道是intelligence的问题，还是产品问题，还是别的什么问题。但如果你要让AI实现价值，你需要去解决这个问题。

五、任务与环境：被忽视的第二条线

姚顺雨多次强调，他的研究始终沿两条线推进：简单通用的方法和有价值的真实世界任务/环境。后者往往被学术界忽视。

Coding作为AI最重要的环境之一

姚顺雨

Coding就有点像人的手一样。对于物理世界来说，人最重要的affordance就是制造出手能够使用的工具。但对于digital agent来说，最重要的affordance就是code。因为其他affordance——网页、小说——其实都是给人定义的。只有code是一个很自然的给机器定义的东西。

API vs GUI的经典辩论

最终答案：Meet in the Middle

很多东西没有API，只有前端——你是改造车适应所有路，还是改造路适应车？
"让agent既能用code又能用screenshot，两者都做也没那么难"
让车能开在所有路上的难度，低于人力改造所有路变成API的难度
最终的agent"什么都做"

Method-Task Fit

做研究需要的不是product-market fit，而是method-task fit

姚顺雨坦言自己的研究路径"比较特殊"——大多数伟大方法是从特定任务中涌现的（如attention源于翻译），但他经常"先在脑子里想到一个通用方法，再去找任务证明它有价值"。这使得寻找任务成为最难的部分。"做ReAct最难的是寻找任务，做Tree of Thought最难的也是怎么把belief通过实验结果表达出来。"

六、Reward设计：基于结果而非过程

姚顺雨认为做任何RL task，最难的部分是怎么定义reward。他从博士阶段就确立了自己的偏好。

结果

基于结果，而非过程

规则

基于规则，而非偏好

白盒

可清晰计算，非黑盒

姚顺雨

答案是3，那它就是3。你只要最终这个答案是3，那它就是对的。它不是3，它就是错的。如果你去做任何其他的设计，好像都会出现hacking。如果你基于过程去定义reward，你可能会产生一个非常优美的代码，但是它可能不解决问题。

为什么Math和Coding是RL成功的关键

基于结果（答案对/错），不是基于过程
有清晰的、基于规则的reward
不依赖人的偏好或模型偏好（避免hacking）
这就是为什么这两个任务最早取得突破

一个被忽视的评估假设

姚顺雨指出当前评估的一个根本假设需要被推翻："我们评估一个东西是基于500个任务，分别跑500次，把平行的数据加在一起变成reward。但人不是这样的——人在公司上班，重要的是一天30天一年之后变得有多好，而不是在100个平行宇宙把你放到第一天你能做得多好。"

七、Reliability vs Creativity：两类任务的不同挑战

姚顺雨提出了一个Agent任务的二维分类框架。

Reliability型任务（客服等）

做简单的事情，但做得非常reliable
100次里99次以上不能出错
评估指标：pass@k（k次都成功的概率）
当前被严重低估——"我们对简单任务的robustness并不重视"

Creativity型任务（数学证明等）

可以试100次，只要有一次做得特别好就成功
评估指标：pass@k（至少成功一次的概率）
包括：证明黎曼猜想、写很难的代码、创作文学剧本
当前关注较多（pass@100在coding research中常见）

人难 ≠ AI难

一个反直觉的发现

对人来说做客服比做软件工程简单很多（工资低、资历要求低）
但对AI来说，做软件工程反而比做客服更简单
原因：软件工程有更好的环境、更清晰的reward、更多数据
做一个非常robust/reliable的客服有reliability的challenge
"人的challenge的相对难易，并不完全反映到AI上"

任务的深度与广度

另一个划分维度

深度（时间跨度）：3秒改一个文件 vs 3天完成一个项目——需要Long-term Memory
广度（问题范围）：解决一个bug vs 从头搭建Windows这样的repo——需要Multi-agent Research
一个人能做的事情 vs 一个team能做的 vs 一个公司能做的

八、创业公司的机会：交互方式的创新

面对"模型能力溢出会把创业公司吞掉"的担忧，姚顺雨给出了一个清晰的框架。

姚顺雨

创业公司应该担心的不是模型溢出能力，而是模型没有溢出能力——那样你就真的什么都做不了了。有溢出能力是个非常好的事情，这意味着你有机会。

核心框架

创业公司最大的机会 = 新交互方式 + 模型溢出能力

两者缺一不可：如果交互方式像ChatGPT，你有什么理由不被ChatGPT取代？如果交互方式新但模型没有继续变好，你也很难做。最好的情况：做新的交互方式，模型不停有新的溢出能力赋能。

Cursor为什么成功

交互方式的创新，而非模型的创新

Cursor创造了一种新的交互方式——不是像人一样的助手，而是copilot
"写代码的时候他能给你提示一些东西，或者帮你edit一些东西。但没有人和人是这样交互的"
这就是它的价值所在——它不在模型上做创新，而在交互方式上

Super App拥有者的路径依赖

姚顺雨

拥有一个super app其实对公司是双刃剑。2020年Google有无限多的资源和钱，有Transformer，有最好的research，但它最自然的想法是"我怎么用这些东西提升我的搜索引擎"。当你有像ChatGPT这样一个super app的时候，你大部分资源还是会围绕你的super app。我觉得这是创业公司的机会。

Manus的启发

小厂也能反向影响大厂

传统认为大厂先做出东西，创业公司来抄
但Manus证明了反向也成立——小厂做交互创新，大厂也可以借鉴
"可能这个世界是个相互抄的关系，而不是单向抄的关系"
姚顺雨暗示这类产品是"OpenAI主线上的产品"——"You will see"

九、Memory与Context：Agent的核心瓶颈

姚顺雨在多个场合反复强调：Memory和Context是当前Agent最重要的瓶颈，也是产生壁垒的关键。

Agent能力栈：从基础到前沿

为什么人还不可被替代

姚顺雨

为什么这个世界上很多人有价值？并不是因为他的数学能力比别人强，而是因为他有一些自己的信息，这些是他有别人没有的。他去了这个公司7天之后，脑子里面有一些积累下来的context。虽然你没有o3聪明，但你有这些context，所以你做的比o3好。

Memory Hierarchy

冯诺依曼的洞见

"环境永远是Memory Hierarchy的最外层"

姚顺雨引用冯诺依曼遗作《The Brain and the Computer》中让他印象最深的一句话："Essentially environment is always the most outer part of the memory hierarchy."对人来说：working memory → long term memory（大脑） → 笔记本/Google Doc/Notion（最外层）。对Agent来说：context window → long term memory → 外部环境（MCP、API等）。

Long Context vs Long Term Memory

Long context是实现long term memory的一种方式（可能不是唯一方式）
如果能实现一亿或一千亿或无限长的context，那它就是一种memory
"和人区别很大的方式，但这是有可能的"
当前评估（如needle in a haystack）是必要条件但非充分条件——大家"有点陷入必要条件中"

Memory作为壁垒

Memory可能是ChatGPT产生粘性的关键

没有memory时，大家只在拼谁的模型更强
有了memory，拼的不仅是模型，还是用户用哪个更多、哪个粘性更强
用户积累的context → 更好的体验 → 更强的粘性
"这是一种研究优势转换成商业优势的方式"

十、数据飞轮、壁垒与Super App

大多数公司还没有数据飞轮

数据飞轮的三个条件

能够自己训模型
有一个好的reward，能把好数据和坏数据分开
reward和应用是aligned的（reward做得更好=公司更成功=模型更好）

"大多数公司还是依赖于模型在变好，然后使用模型变好的溢出能力。"

成功案例：Midjourney

Midjourney是目前比较成功的数据飞轮案例

有非常清晰的reward（人更喜欢哪张图）→ 这个reward和应用是aligned的 → 能自己训模型 → 数据飞轮形成。但条件之一是要"比较不主线"——如果太主线，大厂也可以通过pretraining或RL把能力提上去。

如果是Cursor的CEO

姚顺雨

我肯定会去训练模型或者去尝试训练模型。但做不做pretraining得看情况。Coding是一个非常主线的任务——所有大厂都会把模型的coding做好。你要不要做取决于闭源模型做得多好、开源模型做得多好、中间有多少gap、你能填补多少。

如果是微信的老板

姚顺雨的回答：不急

"我有个易守难攻的地方，我为什么要急着进攻？"
真正的危险不是类似微信的东西打败微信，而是"一个很不一样的东西打败了微信"——就像微信打败QQ
需要对颠覆性创新保持警惕，但incremental创新"早做晚做区别没那么大"
关键变量：未来人类的网络是否还长在微信上——agent朋友 vs 人类朋友？

十一、OpenAI的非共识之路：从RL到GPT

姚顺雨讲述了OpenAI内部一段鲜为人知的历史：GPT路线在早期是极度非共识的。

一个关键的历史细节

姚顺雨

我导师他是GPT-1的第二作者。他在OpenAI待了一年然后去普林当教授了。他当时对这个事情就有点怀疑——当时结果也不是特别好，那些榜单上也不是分数最高的。Ilya就跟我导师说："你看这个语言已经被我们解决了，现在我们只需要scale up，这个东西就结束了。"但即使你是在OpenAI，即使你是GPT的作者，你可能还是没有形成共识的。

不同赌注的共存

OpenAI的真实运作方式

OpenAI成立时，最火的是DeepMind的强化学习——所以一开始focus on RL
"你只有有个different bet，你才能超越之前的霸主。如果OpenAI一直做RL，可能也很难超过DeepMind"
GPT是这样一个different bet——但当时可能"绝大多数人也不认为scale up GPT是最promising的方向"
历史不是"走了这条路然后彻底抛弃走另一条路"——而是70-80%资源做主线，其他东西还在做
后来证明RLHF（RL的积累）对ChatGPT的产品化也至关重要

Ilya和Sam Altman的关键贡献

姚顺雨认为Ilya最大的贡献不是做GPT-1的具体技术，而是"号召all in这个方向"。Sam Altman的贡献也不是提出某个具体技术，"而是做一个创业公司，敢赌这一个事情，把钱都砸进去"。Tom Brown和团队敢于把GPT-3做出来，"让人看到了更大的希望"。"好处是你并不需要所有人达成共识，你只要有足够多人达成共识就可以做了。"

对DeepSeek的评价

产品形态突破：长思维链给人一种新的交互方式的magical体验
引发重新思考开源——Sam Altman也在推特上承认OpenAI忽视了这一点
做好开源是"not trivial"的——需要资源、人、组织文化和商业justification
"小概率的事情发生了——就有这样一个人做了这样一个事情"
组织架构、工程、基础设施都有很多值得称道的地方

十二、中心化与多元：既单极又多元的世界

这是访谈中最具哲学深度的部分。姚顺雨用网络理论的框架描述了他对AI未来格局的判断。

社会网络的三个维度演变

人类社会网络的三个性质

历史趋势：三者同时加强

中心化程度：资源分配越来越集中（二八定律、马太效应）——持续加剧
边缘到中心的可能性：从门阀制/种姓制到今天——阶级跃迁机会反而更多了
网络的多样性：世界上最大公司的支配力在增强，但产业总是越来越多——两个事情可以同时存在

姚顺雨

大模型技术没有垄断性。硅谷头三家好像都能追到一定水平。如果它有垄断性那是比较可怕的。但是如果你能找到一个产品形态，在那里面研究优势能够转换成商业优势，那就会产生壁垒。

中心化力量 vs 去中心化力量

中心化的argument

OpenAI/Anthropic可能成为1T、10T、100T公司
占据绝大多数compute
创造super app和super platform
效率是中心化的根本性原因

去中心化的argument

智能变得便宜如电——赋能每个人
Multi-agent：每个人有自己的agent，100万人交换信息
不在中心化核心的力量有motivation做非中心化的事情
"如果你认为中心化的极限是context limitation"

中间商的困境与机会

姚顺雨指出，很多中间商的价值本质上是"拥有信息差"。在AI时代，这些人"会想去维持自己的权力和资源"，可能发明更distributed的network——比如在交易世界中，每个人只拥有信息的一小部分，通过multi-agent交换。"这个世界可能不会是一方超过另一方，两方都会有自己的力量。"

十三、Agent的未来12-24个月

姚顺雨的四个预测

预测一：Chatbot自然演化为Agent

Grok、ChatGPT、Anthropic Claude等默认交互方式会变成Agentic。Chat可能保留为子集，但Agent会成为"更显然重要的交互方式"。

预测二：新的"Cursor"出现

Cursor是在Coding/IDE环境下的Copilot，但会有机会做新环境或更大环境下的Copilot。这两种大的交互方式（remote VM型 vs 嵌入既有环境型）是互补的、正交的。

预测三：新的Scaling Dimension

"会有新的scaling dimension出现"——如果有大量memory，test time compute有新方式scale；如果有multi-agent，又有另一个维度。不同应用需要选择不同scaling维度的比重。

预测四：两年内仍偏中心化

"可能两年内还是会有些super app，然后这些super app会有各自的infra、各自的environment和交互方式。"两年以后？"没有人能看到两年以后。"

Agent如何Scale Up

姚顺雨

Agent token用量可能是Chatbot的500到1000倍？我觉得cost本身不是问题，问题是你的cost不justify你的performance或者value。如果这个很有value的事情我花了500刀但可以给我赚1000刀，that's not a problem。最重要的事情是找到有价值的应用，然后cost总会降低。

对Pretraining的看法

Cost和Value的取舍

做的人少是因为cost非常大，但additional value并没有那么大
如果有一天世界有很多不同的super app和交互方式，需要完全不同的模型能力
这些东西的value足够justify pretraining的cost时，就会合理
"是一个value和cost的关系"

十四、人与Agent的关系：意识、安全与身份

给Agent发身份证？

姚顺雨的回答：基于utility

未来很多agent长得并不像人——可能是平台、页面、游戏
但肯定会有拟人化的agent
如果agent有了long-term memory，"他是不是就是你的朋友了？"
"很多人很孤独，他需要一个朋友，那拟人化就是一个很合理的存在"
最终还是会基于经济价值

模型会产生意识吗

姚顺雨

意识是一个没有被很好定义的东西。但也许当你能够处理足够复杂的context，并且你有足够大的autonomy或decision making的power，那客观上你可能就产生意识了。我们认为自己有意识，是因为我们在一个自己认为很高的频率在处理信息、做决策、脑子里闪过各种想法。如果一个系统能做到这些，它是不是就可以被定义为有意识了？

安全问题的分层

产品安全（容易解决）

一个产品不安全就没有商业价值
公司为了商业利益自然会重视
"一个东西有足够大价值，总会有人解决安全问题"

意识形态安全（不确定）

超越产品层面的安全责任
"大家还没有完全定义清楚"
"AGI还没有实现的时候就担心它太厉害了，好像不是特别make sense"

十五、个人哲学：通用性的执念

访谈最后，姚顺雨展现了一种贯穿他学术生涯和人生选择的内在一致性——对通用性的执念。

姚顺雨

我从小是一个比较general的人。我想试图变得很通用，了解很多不同的学科，做很多不同的事情。但后来我就发现，一个人即使再聪明再有精力，他能理解的知识也只是人类社会积累的很小一部分。那可能更好的事情是，你去创造一个比你更通用、更general的东西。

对上限的追求

做确定性高的事 vs 做上限高的事

"大家往往倾向于做确定性比较高的事情"
但恰好这个时代有巨大的机会——"你去做上限更高的事情是更好的"
如果没有巨大机会，最佳路径可能是incremental积累
"但恰好有一个上限非常高的事情，那如果你敢想、胆子特别大、想象力很丰富，就会有好的事情发生"

导师的影响

姚顺雨引述导师Karthik

If someone else can do it, then it's okay to let them do it. 如果从人类全局的角度来说，一个事情很多人都能做，别人做了，可能也没有什么区别。

如果做了一个500亿美元的AI投资

三个方向

模型层公司（OpenAI等）——"大概率来说会有更大价值"
能积累user context或构建特殊environment的公司——"有点像发明汽车之前的石油公司"
拥有大量user context的平台（如微信）——"一手难攻的好平台"

"最终AGI是个系统，它需要intelligence、环境和user context。"

快问快答

问题	回答
全球喜欢的食物	椰子
全球喜欢的地点	伊斯坦布尔
必读的书	《智能简史》+ 各种自传/传记
影响AI进程的论文	Backprop、Transformer、GPT——"是个积累过程，没有最伟大的"
最关键的bet	"bet on有different super app的产品形态、有不同的交互方式"
MBTI	"INFP，但我不太记得这些字母的意思"
会创业吗	"OpenAI大多数人都会考虑创业。但我还是喜欢把事情想清楚一点再去做"

十六、关键数据与判断汇总

判断	具体内容
Agent研究时间	6年（2019至今），从PhD第一个项目开始
GPT vs BERT	当年95%的人做BERT，5%做GPT；姚顺雨选了GPT后"再也没用过BERT"
Agent三波演变	符号主义（1960s）→ 深度RL（2013-2020）→ 语言Agent（2022至今）
当前处于何处	"The Second Half"——方法论的基点时刻，类比牛顿力学诞生
Agent Token消耗	单用户可能是Chatbot的500-1000倍
最重要的能力	处理context/memory的能力 + 基于此做lifelong/online learning
ReAct的地位	"大多数时候大家就是用类似ReAct的架构"——最简单的方法可能还是work的最好的
Agent Level 4-5	Innovator需要Long-term Memory + Intrinsic Reward；Organization需要Multi-agent Scale
Reward设计原则	基于结果（不是过程）+ 基于规则（不是偏好）+ 白盒（不是黑盒）
数据飞轮	"大多数公司还没有形成数据飞轮"，成功案例：Midjourney
Memory壁垒	Memory可能是ChatGPT产生粘性/壁垒的关键
Manus评价	"产品sense很好"，暗示是OpenAI主线上的产品——"You will see"
大模型垄断性	"暂时没有垄断性"——硅谷头三家都能追到一定水平
未来世界格局	"既单极又多元"——中心化和多样性同时加强
博文写作	用Deep Research做initialization，自己重写约2小时
创业意向	"OpenAI大多数人都会考虑"，但"喜欢想清楚一点再做"
核心bet	Bet on不同的super app形态和交互方式——"否则这个世界变得很灰暗"

十七、启示与延伸思考

1. "The Second Half"不是AI的下半场，而是方法论的分水岭

姚顺雨用牛顿力学来类比当前时刻的意义：在此之前，做翻译、做游戏、做数学的人开不同的会、用不同的方法；在此之后，一个统一的方法（LLM + 推理 + RL）可以解决所有这些问题。这意味着AI研究的竞争焦点从"造更好的武器"转移到了"找到最该解决的问题"。对创业者来说，这是一个根本性的信号：技术差异化的窗口正在关闭，任务和场景的差异化窗口正在打开。

2. Context是AI价值实现的真正瓶颈，不是智能

姚顺雨反复强调：模型的推理能力已经比大多数人强了，但它"没有创造足够的经济价值"。原因是缺少context——人在公司工作7天后脑子里积累的那些"很难用语言总结下来的东西"。这意味着一个二本毕业生可以做很多o3做不了的事情，不是因为他更聪明，而是因为他有context。解决这个问题，可能比提升模型智能更重要。

3. "人难≠AI难"颠覆了传统的岗位替代叙事

客服对人来说简单但对AI来说更难（需要reliability），软件工程对人来说难但对AI来说更简单（有清晰的reward和环境）。这个洞见意味着AI对劳动力市场的冲击路径将与人们直觉预期的完全不同——不是先替代简单工作再替代复杂工作，而是先替代"有好reward"的工作再去解决"需要robustness"的工作。

4. 创业公司的机会窗口在交互方式，而非模型能力

Cursor的成功不在于模型创新，而在于创造了一种copilot式的新交互方式。姚顺雨的逻辑是：拥有super app的大公司必然围绕既有交互方式分配资源（如Google围绕搜索），这给了创业公司探索全新交互方式的空间。反过来说，如果你做的交互方式"很像ChatGPT"，就没有理由不被ChatGPT取代。Manus的案例甚至证明了小厂可以反向影响大厂。

5. Reward设计是RL成功的关键，也是应用的关键

姚顺雨坚持"基于结果而非过程、基于规则而非偏好"的reward设计哲学。Math和Coding最早取得突破，不是因为它们最重要，而是因为它们有最好的reward。这暗示了一个应用选择原则：能定义出清晰、白盒、基于结果的reward的领域，Agent会最先产生价值。反之，reward模糊的领域（如"好的管理"）可能要等很久。

6. "既单极又多元"——AI格局最可能的终态

姚顺雨的网络理论框架给出了一个精妙的预测：中心化（头部公司的支配力）和多样性（产业和交互方式的丰富度）会同时增强。这既不是乐观主义的"AI民主化所有人"，也不是悲观主义的"OpenAI垄断一切"。壁垒不来自模型（暂时没有垄断性），而来自产品形态中"研究优势转换成商业优势"的节点——Memory可能就是这样一个节点。

7. 姚顺雨的非共识本身就是一个Agent思维的范例

回看他的每一次关键选择——选GPT不选BERT、做真实数字环境不做游戏、做简单通用方法不做复杂specific方法、在95%的人做BERT时做5%的事——都是一种"method-task fit"的搜索过程。他的研究风格就是他所倡导的Agent架构的人肉版：有一个强先验（对通用性的执念），在推理中泛化（跨领域看问题），在真实环境中验证（SWE-bench等）。这种内在一致性解释了为什么他能在Agent领域持续产出标志性工作。

姚顺雨：6年Agent研究、人与系统、吞噬的边界

目录