← 返回目录
一、从姚班到OpenAI:一条非共识之路
姚顺雨本科就读清华姚班(2015-2019),博士在普林斯顿(2019-2024),2024年毕业后加入OpenAI。他自嘲"前28年的人生非常的乖",但反叛精神隐藏在每一次非共识的选择中。
2016年 · 被Word2Vec震撼
在李健老师的课上看到multi-modal Word2Vec的demo——"国王的embedding减去man加上queen等于woman"。姚顺雨觉得"非常神奇",但当时清华姚班"没有什么做deep learning的老师或者资源"。
2018年 · MIT访学,转向深度学习
跟随吴嘉进学长在MIT做research,开始系统性做deep learning。当时做的是computer vision,但隐约觉得"vision很难实现一个general的AI",language更central。
2019年 · 进入普林斯顿,开始Agent研究
被computer vision方向录取,但已不想做CV。找到导师Karthik,讨论出第一个idea:"GPT-2已经比以前强很多了,它玩游戏是不是也会更强?"从此一直做Agent,至今6年。
2021-2023年 · 核心工作爆发
WebShop(2022)、ReAct(2022)、Tree of Thought、SWE-bench、SWE-agent等一系列工作发布,在Agent领域建立了标志性影响。
两个关键的早期选择
选择一:用GPT而不用BERT
- 当时95%的人在做BERT,只有5%做GPT
- BERT擅长分类(积极/消极),但Agent需要"自由产生新的动作的能力"
- "BERT永远做不到"让Agent在游戏中说出"用金色钥匙打开第一个房间的门"
- "发现这个事情之后,我就再也没有用过BERT"
选择二:从简单环境走向真实数字世界
- 早期做文字游戏(如Zork),但发现"环境不够大",学到的东西局限在环境里
- 2015年就有World of Bits的idea(把互联网作为环境),但技术不成熟
- 2021年与导师讨论后重启这个方向,做了WebShop
- "很显然做coding的agent是最重要的事情,为什么没有人做?"
姚顺雨
我一直有非共识,就是我想要去做agent。另一个点是我一直想做简单并且通用的东西,我不想做一个很复杂但是只能在一个领域奏效的东西。
二、语言Agent的本质:推理带来泛化
姚顺雨对Agent的定义随context变化,但他认为语言Agent与传统Agent的本质区别只有一个字:推理。
核心论点
推理 → 泛化 → 通用Agent
语言模型提供了一个足够强的先验知识(prior),这个先验使得推理成为可能,而推理又可以在不同环境间泛化。传统强化学习的Agent(如AlphaGo)只能在训练环境中工作,无法迁移;语言Agent可以在一个环境学习推理技能,并迁移到全新环境。
姚顺雨
为什么我可以一下子就去玩一个新的游戏,但是现在这些AI需要几十万步或者几百万步的训练?我发现好像是因为我可以思考。我看到一个全新的环境,我会思考——这个灯是黑的,那可能有危险,可能有怪兽,我现在最重要的事情是要点亮灯。没有推理是做不到的。
语言为什么特殊
姚顺雨认为语言不只是一种数据形式,而是人类为了实现泛化而发明出来的工具——"这一点比其他东西更本质"。
其他模态(视觉、音频等)
- 为特定感知而优化
- 在特定任务上可能更高效
- 难以跨任务泛化
- "学会了攀岩,不能帮你做新任务"
语言
- 为打通所有任务而发明
- 在特定任务上可能不是最优
- 几乎总是能帮你做新的任务
- "可以交流、学习、思考、推理"
泛化已经发生了吗?
姚顺雨的回答:是的,有证据
- DeepSeek等模型在Math和Coding上做RL后,在创意写作上也变强了
- "AlphaGo只能下围棋不能下象棋,但你现在学了数学可以去做创意写作"
- 本质区别:之前在一个环境训练只能做这一个环境,现在可以做更多环境
- 泛化不是0和1的绝对事情,而是相对的——但趋势已经明确
三、Agent的三波演变史
姚顺雨将Agent的历史分为三波,每一波都有其核心方法与致命局限。
| 波次 | 时代 | 核心方法 | 代表 | 致命局限 |
| 第一波 | 1960s-1980s | 符号主义 / 规则系统 | 专家系统、数学定理证明 | 规则无法穷尽所有情况,不可泛化 |
| 第二波 | 2013-2020 | 深度强化学习 | AlphaGo、Dota、机器手 | 每个环境需大量specific工程,无法跨环境泛化 |
| 第三波 | 2022至今 | 基于LLM的语言Agent | ReAct、SWE-agent、Coding Agent | 尚需解决Memory、Intrinsic Reward、Multi-agent |
被忽视的"任务线"
姚顺雨指出,大家往往只看到方法的演变线(符号→RL→LLM),却忽视了任务/环境的演变线:从证明数学定理→下围棋玩游戏→互联网/Coding/Computer等真实数字环境。"这两条线是相辅相成的。"这解释了为什么他的研究一直同时在两条线上推进。
OpenAI的五级分类与Agent的位置
Level 1→5的内在逻辑
- Level 1 聊天机器人:语言先验知识的第一个应用
- Level 2 推理者:基于语言先验做推理
- Level 3 代理者/Agent:有了先验+推理,才能做泛化的Agent
- Level 4 创新者:需要Long-term Memory + Intrinsic Reward
- Level 5 组织者:需要Multi-agent协作与Scale
姚顺雨认为Level 4和5"可能是正交的,可以平行发展",不确定谁先谁后,"不用太纠结谁是第4级谁是第5级"。
四、The Second Half:方法论的基点时刻
2025年4月,姚顺雨发布博文《The Second Half》,宣告AI主线程进入下半场。这一观点源于他在OpenAI工作半年的感悟。
核心判断
"上半场"与"下半场"的分野
上半场:我有很多问题(怪兽),需要为不同问题造各种各样的武器。不同社区、不同会议、不同方法。
下半场:我终于有了一把通用的"机关枪"(基于LLM+推理+RL的通用方法),现在的问题变成——我要朝哪里开枪?即:定义什么任务、解决什么问题。
姚顺雨
十年前的AI researcher会认为做翻译、玩游戏、用电脑订票、做数学是完全不同的事情,需要完全不同的方法、完全不同的人、开完全不同的会。但现在终于这些事情都用一个方法可以解决了。这是一个本质性的事件。
为什么叫"中场"而非"终场"
类比牛顿力学的诞生
- Transformer、预训练、强化学习等都是伟大的铺垫——就像开普勒、亚里士多德为牛顿做铺垫
- 现在是"方法论上的基点事件"——人们发现世界可以用一个统一方法去理解
- "天下大事分久必合合久必分,大家已经分得太久了"
- 下半场的核心挑战:定义好的任务、好的环境、创造真实世界的价值
Bottleneck的转移
姚顺雨
很多时候模型的bottleneck不是缺少推理能力或写代码的能力,而是它去找一个完整的context。这个问题我不知道是intelligence的问题,还是产品问题,还是别的什么问题。但如果你要让AI实现价值,你需要去解决这个问题。
五、任务与环境:被忽视的第二条线
姚顺雨多次强调,他的研究始终沿两条线推进:简单通用的方法和有价值的真实世界任务/环境。后者往往被学术界忽视。
Coding作为AI最重要的环境之一
姚顺雨
Coding就有点像人的手一样。对于物理世界来说,人最重要的affordance就是制造出手能够使用的工具。但对于digital agent来说,最重要的affordance就是code。因为其他affordance——网页、小说——其实都是给人定义的。只有code是一个很自然的给机器定义的东西。
API vs GUI的经典辩论
最终答案:Meet in the Middle
- 很多东西没有API,只有前端——你是改造车适应所有路,还是改造路适应车?
- "让agent既能用code又能用screenshot,两者都做也没那么难"
- 让车能开在所有路上的难度,低于人力改造所有路变成API的难度
- 最终的agent"什么都做"
Method-Task Fit
做研究需要的不是product-market fit,而是method-task fit
姚顺雨坦言自己的研究路径"比较特殊"——大多数伟大方法是从特定任务中涌现的(如attention源于翻译),但他经常"先在脑子里想到一个通用方法,再去找任务证明它有价值"。这使得寻找任务成为最难的部分。"做ReAct最难的是寻找任务,做Tree of Thought最难的也是怎么把belief通过实验结果表达出来。"
六、Reward设计:基于结果而非过程
姚顺雨认为做任何RL task,最难的部分是怎么定义reward。他从博士阶段就确立了自己的偏好。
姚顺雨
答案是3,那它就是3。你只要最终这个答案是3,那它就是对的。它不是3,它就是错的。如果你去做任何其他的设计,好像都会出现hacking。如果你基于过程去定义reward,你可能会产生一个非常优美的代码,但是它可能不解决问题。
为什么Math和Coding是RL成功的关键
- 基于结果(答案对/错),不是基于过程
- 有清晰的、基于规则的reward
- 不依赖人的偏好或模型偏好(避免hacking)
- 这就是为什么这两个任务最早取得突破
一个被忽视的评估假设
姚顺雨指出当前评估的一个根本假设需要被推翻:"我们评估一个东西是基于500个任务,分别跑500次,把平行的数据加在一起变成reward。但人不是这样的——人在公司上班,重要的是一天30天一年之后变得有多好,而不是在100个平行宇宙把你放到第一天你能做得多好。"
七、Reliability vs Creativity:两类任务的不同挑战
姚顺雨提出了一个Agent任务的二维分类框架。
Reliability型任务(客服等)
- 做简单的事情,但做得非常reliable
- 100次里99次以上不能出错
- 评估指标:pass@k(k次都成功的概率)
- 当前被严重低估——"我们对简单任务的robustness并不重视"
Creativity型任务(数学证明等)
- 可以试100次,只要有一次做得特别好就成功
- 评估指标:pass@k(至少成功一次的概率)
- 包括:证明黎曼猜想、写很难的代码、创作文学剧本
- 当前关注较多(pass@100在coding research中常见)
人难 ≠ AI难
一个反直觉的发现
- 对人来说做客服比做软件工程简单很多(工资低、资历要求低)
- 但对AI来说,做软件工程反而比做客服更简单
- 原因:软件工程有更好的环境、更清晰的reward、更多数据
- 做一个非常robust/reliable的客服有reliability的challenge
- "人的challenge的相对难易,并不完全反映到AI上"
任务的深度与广度
另一个划分维度
- 深度(时间跨度):3秒改一个文件 vs 3天完成一个项目——需要Long-term Memory
- 广度(问题范围):解决一个bug vs 从头搭建Windows这样的repo——需要Multi-agent Research
- 一个人能做的事情 vs 一个team能做的 vs 一个公司能做的
八、创业公司的机会:交互方式的创新
面对"模型能力溢出会把创业公司吞掉"的担忧,姚顺雨给出了一个清晰的框架。
姚顺雨
创业公司应该担心的不是模型溢出能力,而是模型没有溢出能力——那样你就真的什么都做不了了。有溢出能力是个非常好的事情,这意味着你有机会。
核心框架
创业公司最大的机会 = 新交互方式 + 模型溢出能力
两者缺一不可:如果交互方式像ChatGPT,你有什么理由不被ChatGPT取代?如果交互方式新但模型没有继续变好,你也很难做。最好的情况:做新的交互方式,模型不停有新的溢出能力赋能。
交互方式的创新,而非模型的创新
- Cursor创造了一种新的交互方式——不是像人一样的助手,而是copilot
- "写代码的时候他能给你提示一些东西,或者帮你edit一些东西。但没有人和人是这样交互的"
- 这就是它的价值所在——它不在模型上做创新,而在交互方式上
Super App拥有者的路径依赖
姚顺雨
拥有一个super app其实对公司是双刃剑。2020年
Google有无限多的资源和钱,有Transformer,有最好的research,但它最自然的想法是"我怎么用这些东西提升我的搜索引擎"。当你有像ChatGPT这样一个super app的时候,你大部分资源还是会围绕你的super app。我觉得这是创业公司的机会。
小厂也能反向影响大厂
- 传统认为大厂先做出东西,创业公司来抄
- 但Manus证明了反向也成立——小厂做交互创新,大厂也可以借鉴
- "可能这个世界是个相互抄的关系,而不是单向抄的关系"
- 姚顺雨暗示这类产品是"OpenAI主线上的产品"——"You will see"
九、Memory与Context:Agent的核心瓶颈
姚顺雨在多个场合反复强调:Memory和Context是当前Agent最重要的瓶颈,也是产生壁垒的关键。
为什么人还不可被替代
姚顺雨
为什么这个世界上很多人有价值?并不是因为他的数学能力比别人强,而是因为他有一些自己的信息,这些是他有别人没有的。他去了这个公司7天之后,脑子里面有一些积累下来的context。虽然你没有o3聪明,但你有这些context,所以你做的比o3好。
Memory Hierarchy
冯诺依曼的洞见
"环境永远是Memory Hierarchy的最外层"
姚顺雨引用冯诺依曼遗作《The Brain and the Computer》中让他印象最深的一句话:"Essentially environment is always the most outer part of the memory hierarchy."对人来说:working memory → long term memory(大脑) → 笔记本/Google Doc/Notion(最外层)。对Agent来说:context window → long term memory → 外部环境(MCP、API等)。
Long Context vs Long Term Memory
- Long context是实现long term memory的一种方式(可能不是唯一方式)
- 如果能实现一亿或一千亿或无限长的context,那它就是一种memory
- "和人区别很大的方式,但这是有可能的"
- 当前评估(如needle in a haystack)是必要条件但非充分条件——大家"有点陷入必要条件中"
Memory作为壁垒
Memory可能是ChatGPT产生粘性的关键
- 没有memory时,大家只在拼谁的模型更强
- 有了memory,拼的不仅是模型,还是用户用哪个更多、哪个粘性更强
- 用户积累的context → 更好的体验 → 更强的粘性
- "这是一种研究优势转换成商业优势的方式"
十、数据飞轮、壁垒与Super App
大多数公司还没有数据飞轮
数据飞轮的三个条件
- 能够自己训模型
- 有一个好的reward,能把好数据和坏数据分开
- reward和应用是aligned的(reward做得更好=公司更成功=模型更好)
"大多数公司还是依赖于模型在变好,然后使用模型变好的溢出能力。"
Midjourney是目前比较成功的数据飞轮案例
有非常清晰的reward(人更喜欢哪张图)→ 这个reward和应用是aligned的 → 能自己训模型 → 数据飞轮形成。但条件之一是要"比较不主线"——如果太主线,大厂也可以通过pretraining或RL把能力提上去。
如果是Cursor的CEO
姚顺雨
我肯定会去训练模型或者去尝试训练模型。但做不做pretraining得看情况。Coding是一个非常主线的任务——所有大厂都会把模型的coding做好。你要不要做取决于闭源模型做得多好、开源模型做得多好、中间有多少gap、你能填补多少。
如果是微信的老板
姚顺雨的回答:不急
- "我有个易守难攻的地方,我为什么要急着进攻?"
- 真正的危险不是类似微信的东西打败微信,而是"一个很不一样的东西打败了微信"——就像微信打败QQ
- 需要对颠覆性创新保持警惕,但incremental创新"早做晚做区别没那么大"
- 关键变量:未来人类的网络是否还长在微信上——agent朋友 vs 人类朋友?
十一、OpenAI的非共识之路:从RL到GPT
姚顺雨讲述了OpenAI内部一段鲜为人知的历史:GPT路线在早期是极度非共识的。
一个关键的历史细节
姚顺雨
我导师他是GPT-1的第二作者。他在OpenAI待了一年然后去普林当教授了。他当时对这个事情就有点怀疑——当时结果也不是特别好,那些榜单上也不是分数最高的。Ilya就跟我导师说:"你看这个语言已经被我们解决了,现在我们只需要scale up,这个东西就结束了。"但即使你是在OpenAI,即使你是GPT的作者,你可能还是没有形成共识的。
不同赌注的共存
OpenAI的真实运作方式
- OpenAI成立时,最火的是DeepMind的强化学习——所以一开始focus on RL
- "你只有有个different bet,你才能超越之前的霸主。如果OpenAI一直做RL,可能也很难超过DeepMind"
- GPT是这样一个different bet——但当时可能"绝大多数人也不认为scale up GPT是最promising的方向"
- 历史不是"走了这条路然后彻底抛弃走另一条路"——而是70-80%资源做主线,其他东西还在做
- 后来证明RLHF(RL的积累)对ChatGPT的产品化也至关重要
姚顺雨认为Ilya最大的贡献不是做GPT-1的具体技术,而是"号召all in这个方向"。Sam Altman的贡献也不是提出某个具体技术,"而是做一个创业公司,敢赌这一个事情,把钱都砸进去"。Tom Brown和团队敢于把GPT-3做出来,"让人看到了更大的希望"。"好处是你并不需要所有人达成共识,你只要有足够多人达成共识就可以做了。"
对DeepSeek的评价
- 产品形态突破:长思维链给人一种新的交互方式的magical体验
- 引发重新思考开源——Sam Altman也在推特上承认OpenAI忽视了这一点
- 做好开源是"not trivial"的——需要资源、人、组织文化和商业justification
- "小概率的事情发生了——就有这样一个人做了这样一个事情"
- 组织架构、工程、基础设施都有很多值得称道的地方
十二、中心化与多元:既单极又多元的世界
这是访谈中最具哲学深度的部分。姚顺雨用网络理论的框架描述了他对AI未来格局的判断。
人类社会网络的三个性质
历史趋势:三者同时加强
- 中心化程度:资源分配越来越集中(二八定律、马太效应)——持续加剧
- 边缘到中心的可能性:从门阀制/种姓制到今天——阶级跃迁机会反而更多了
- 网络的多样性:世界上最大公司的支配力在增强,但产业总是越来越多——两个事情可以同时存在
姚顺雨
大模型技术没有垄断性。硅谷头三家好像都能追到一定水平。如果它有垄断性那是比较可怕的。但是如果你能找到一个产品形态,在那里面研究优势能够转换成商业优势,那就会产生壁垒。
中心化力量 vs 去中心化力量
中心化的argument
- OpenAI/Anthropic可能成为1T、10T、100T公司
- 占据绝大多数compute
- 创造super app和super platform
- 效率是中心化的根本性原因
去中心化的argument
- 智能变得便宜如电——赋能每个人
- Multi-agent:每个人有自己的agent,100万人交换信息
- 不在中心化核心的力量有motivation做非中心化的事情
- "如果你认为中心化的极限是context limitation"
中间商的困境与机会
姚顺雨指出,很多中间商的价值本质上是"拥有信息差"。在AI时代,这些人"会想去维持自己的权力和资源",可能发明更distributed的network——比如在交易世界中,每个人只拥有信息的一小部分,通过multi-agent交换。"这个世界可能不会是一方超过另一方,两方都会有自己的力量。"
十三、Agent的未来12-24个月
姚顺雨的四个预测
预测一:Chatbot自然演化为Agent
Grok、ChatGPT、Anthropic Claude等默认交互方式会变成Agentic。Chat可能保留为子集,但Agent会成为"更显然重要的交互方式"。
预测二:新的"Cursor"出现
Cursor是在Coding/IDE环境下的Copilot,但会有机会做新环境或更大环境下的Copilot。这两种大的交互方式(remote VM型 vs 嵌入既有环境型)是互补的、正交的。
预测三:新的Scaling Dimension
"会有新的scaling dimension出现"——如果有大量memory,test time compute有新方式scale;如果有multi-agent,又有另一个维度。不同应用需要选择不同scaling维度的比重。
预测四:两年内仍偏中心化
"可能两年内还是会有些super app,然后这些super app会有各自的infra、各自的environment和交互方式。"两年以后?"没有人能看到两年以后。"
Agent如何Scale Up
姚顺雨
Agent token用量可能是Chatbot的500到1000倍?我觉得cost本身不是问题,问题是你的cost不justify你的performance或者value。如果这个很有value的事情我花了500刀但可以给我赚1000刀,that's not a problem。最重要的事情是找到有价值的应用,然后cost总会降低。
对Pretraining的看法
Cost和Value的取舍
- 做的人少是因为cost非常大,但additional value并没有那么大
- 如果有一天世界有很多不同的super app和交互方式,需要完全不同的模型能力
- 这些东西的value足够justify pretraining的cost时,就会合理
- "是一个value和cost的关系"
十四、人与Agent的关系:意识、安全与身份
给Agent发身份证?
姚顺雨的回答:基于utility
- 未来很多agent长得并不像人——可能是平台、页面、游戏
- 但肯定会有拟人化的agent
- 如果agent有了long-term memory,"他是不是就是你的朋友了?"
- "很多人很孤独,他需要一个朋友,那拟人化就是一个很合理的存在"
- 最终还是会基于经济价值
模型会产生意识吗
姚顺雨
意识是一个没有被很好定义的东西。但也许当你能够处理足够复杂的context,并且你有足够大的autonomy或decision making的power,那客观上你可能就产生意识了。我们认为自己有意识,是因为我们在一个自己认为很高的频率在处理信息、做决策、脑子里闪过各种想法。如果一个系统能做到这些,它是不是就可以被定义为有意识了?
安全问题的分层
产品安全(容易解决)
- 一个产品不安全就没有商业价值
- 公司为了商业利益自然会重视
- "一个东西有足够大价值,总会有人解决安全问题"
意识形态安全(不确定)
- 超越产品层面的安全责任
- "大家还没有完全定义清楚"
- "AGI还没有实现的时候就担心它太厉害了,好像不是特别make sense"
十五、个人哲学:通用性的执念
访谈最后,姚顺雨展现了一种贯穿他学术生涯和人生选择的内在一致性——对通用性的执念。
姚顺雨
我从小是一个比较general的人。我想试图变得很通用,了解很多不同的学科,做很多不同的事情。但后来我就发现,一个人即使再聪明再有精力,他能理解的知识也只是人类社会积累的很小一部分。那可能更好的事情是,你去创造一个比你更通用、更general的东西。
对上限的追求
做确定性高的事 vs 做上限高的事
- "大家往往倾向于做确定性比较高的事情"
- 但恰好这个时代有巨大的机会——"你去做上限更高的事情是更好的"
- 如果没有巨大机会,最佳路径可能是incremental积累
- "但恰好有一个上限非常高的事情,那如果你敢想、胆子特别大、想象力很丰富,就会有好的事情发生"
导师的影响
姚顺雨引述导师Karthik
If someone else can do it, then it's okay to let them do it. 如果从人类全局的角度来说,一个事情很多人都能做,别人做了,可能也没有什么区别。
如果做了一个500亿美元的AI投资
三个方向
- 模型层公司(OpenAI等)——"大概率来说会有更大价值"
- 能积累user context或构建特殊environment的公司——"有点像发明汽车之前的石油公司"
- 拥有大量user context的平台(如微信)——"一手难攻的好平台"
"最终AGI是个系统,它需要intelligence、环境和user context。"
快问快答
| 问题 | 回答 |
| 全球喜欢的食物 | 椰子 |
| 全球喜欢的地点 | 伊斯坦布尔 |
| 必读的书 | 《智能简史》+ 各种自传/传记 |
| 影响AI进程的论文 | Backprop、Transformer、GPT——"是个积累过程,没有最伟大的" |
| 最关键的bet | "bet on有different super app的产品形态、有不同的交互方式" |
| MBTI | "INFP,但我不太记得这些字母的意思" |
| 会创业吗 | "OpenAI大多数人都会考虑创业。但我还是喜欢把事情想清楚一点再去做" |
十六、关键数据与判断汇总
| 判断 | 具体内容 |
| Agent研究时间 | 6年(2019至今),从PhD第一个项目开始 |
| GPT vs BERT | 当年95%的人做BERT,5%做GPT;姚顺雨选了GPT后"再也没用过BERT" |
| Agent三波演变 | 符号主义(1960s)→ 深度RL(2013-2020)→ 语言Agent(2022至今) |
| 当前处于何处 | "The Second Half"——方法论的基点时刻,类比牛顿力学诞生 |
| Agent Token消耗 | 单用户可能是Chatbot的500-1000倍 |
| 最重要的能力 | 处理context/memory的能力 + 基于此做lifelong/online learning |
| ReAct的地位 | "大多数时候大家就是用类似ReAct的架构"——最简单的方法可能还是work的最好的 |
| Agent Level 4-5 | Innovator需要Long-term Memory + Intrinsic Reward;Organization需要Multi-agent Scale |
| Reward设计原则 | 基于结果(不是过程)+ 基于规则(不是偏好)+ 白盒(不是黑盒) |
| 数据飞轮 | "大多数公司还没有形成数据飞轮",成功案例:Midjourney |
| Memory壁垒 | Memory可能是ChatGPT产生粘性/壁垒的关键 |
| Manus评价 | "产品sense很好",暗示是OpenAI主线上的产品——"You will see" |
| 大模型垄断性 | "暂时没有垄断性"——硅谷头三家都能追到一定水平 |
| 未来世界格局 | "既单极又多元"——中心化和多样性同时加强 |
| 博文写作 | 用Deep Research做initialization,自己重写约2小时 |
| 创业意向 | "OpenAI大多数人都会考虑",但"喜欢想清楚一点再做" |
| 核心bet | Bet on不同的super app形态和交互方式——"否则这个世界变得很灰暗" |
十七、启示与延伸思考
1. "The Second Half"不是AI的下半场,而是方法论的分水岭
姚顺雨用牛顿力学来类比当前时刻的意义:在此之前,做翻译、做游戏、做数学的人开不同的会、用不同的方法;在此之后,一个统一的方法(LLM + 推理 + RL)可以解决所有这些问题。这意味着AI研究的竞争焦点从"造更好的武器"转移到了"找到最该解决的问题"。对创业者来说,这是一个根本性的信号:技术差异化的窗口正在关闭,任务和场景的差异化窗口正在打开。
2. Context是AI价值实现的真正瓶颈,不是智能
姚顺雨反复强调:模型的推理能力已经比大多数人强了,但它"没有创造足够的经济价值"。原因是缺少context——人在公司工作7天后脑子里积累的那些"很难用语言总结下来的东西"。这意味着一个二本毕业生可以做很多o3做不了的事情,不是因为他更聪明,而是因为他有context。解决这个问题,可能比提升模型智能更重要。
3. "人难≠AI难"颠覆了传统的岗位替代叙事
客服对人来说简单但对AI来说更难(需要reliability),软件工程对人来说难但对AI来说更简单(有清晰的reward和环境)。这个洞见意味着AI对劳动力市场的冲击路径将与人们直觉预期的完全不同——不是先替代简单工作再替代复杂工作,而是先替代"有好reward"的工作再去解决"需要robustness"的工作。
4. 创业公司的机会窗口在交互方式,而非模型能力
Cursor的成功不在于模型创新,而在于创造了一种copilot式的新交互方式。姚顺雨的逻辑是:拥有super app的大公司必然围绕既有交互方式分配资源(如Google围绕搜索),这给了创业公司探索全新交互方式的空间。反过来说,如果你做的交互方式"很像ChatGPT",就没有理由不被ChatGPT取代。Manus的案例甚至证明了小厂可以反向影响大厂。
5. Reward设计是RL成功的关键,也是应用的关键
姚顺雨坚持"基于结果而非过程、基于规则而非偏好"的reward设计哲学。Math和Coding最早取得突破,不是因为它们最重要,而是因为它们有最好的reward。这暗示了一个应用选择原则:能定义出清晰、白盒、基于结果的reward的领域,Agent会最先产生价值。反之,reward模糊的领域(如"好的管理")可能要等很久。
6. "既单极又多元"——AI格局最可能的终态
姚顺雨的网络理论框架给出了一个精妙的预测:中心化(头部公司的支配力)和多样性(产业和交互方式的丰富度)会同时增强。这既不是乐观主义的"AI民主化所有人",也不是悲观主义的"OpenAI垄断一切"。壁垒不来自模型(暂时没有垄断性),而来自产品形态中"研究优势转换成商业优势"的节点——Memory可能就是这样一个节点。
7. 姚顺雨的非共识本身就是一个Agent思维的范例
回看他的每一次关键选择——选GPT不选BERT、做真实数字环境不做游戏、做简单通用方法不做复杂specific方法、在95%的人做BERT时做5%的事——都是一种"method-task fit"的搜索过程。他的研究风格就是他所倡导的Agent架构的人肉版:有一个强先验(对通用性的执念),在推理中泛化(跨领域看问题),在真实环境中验证(SWE-bench等)。这种内在一致性解释了为什么他能在Agent领域持续产出标志性工作。
延伸阅读
- 姚顺雨博文《The Second Half》(2025.4) — 本次访谈的核心议题来源
- EP.140 对姚顺宇的4小时访谈 — 更技术性的深度对话:在Anthropic和Gemini训模型、技术预测
- EP.139 Agent的综述(苏煜)— Agent技术史、OpenClaw Moment、边界的消弭
- EP.138 对罗福莉3.5小时访谈 — AI范式巨变、Agent范式与后训练
- EP.97 大模型季报 — AGI的主线与主峰
- EP.95 对Manus创始人肖弘3小时访谈 — 姚顺雨所提到的交互创新案例