← 返回张小珺主页
深度研究 Deep Dive

王小川返场谈o1与强化学习

#76 摸到了一条从快思考走向慢思考的路
2024.9 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 从Altman被逐到强化学习突破的线索
  2. 快思考与慢思考:学与思的融合
  3. DIKW模型:从信息到智慧的进阶
  4. O1的核心关注点:语言中轴与COT
  5. 强化学习原理:监督学习 vs 强化学习
  6. 为何O1偏科:文无第一,武无第二
  7. 从分布内到分布外:强化学习的必然性
  8. 百川的强化学习实验:用诗词做文科RL
  9. 医疗:强化学习的最佳应用场景
  10. 复刻O1:难度、资源与时间线
  11. 推理时Scaling Law与双曲线增长
  12. O1与GPT-4O的关系:不需要合并
  13. 造人而非造工具:TPF取代PMF
  14. 水涨船高的场景逻辑
  15. 竞争格局:六小龙与字节的射程
  16. 关键数据与判断汇总

一、从Altman被逐到强化学习突破的线索

王小川在访谈开头就还原了他对OpenAI内部动态的判断链条——从Sam Altman被董事会短暂逐出事件,推断出OpenAI在强化学习上的重大突破。

推理链条

线索一:董事会"既不丑也不坏"

王小川认为OpenAI董事会成员"又聪明,也挺正直",不会犯傻。如果这些人做出逐出CEO的决定,背后一定有"大家没发现的事情"。

线索二:Noam的消息

在Altman被逐前约一周,一位名为Noam的核心人物——之前在DeepMind做强化学习的大神,加入OpenAI后"号称跟朋友说他们有突破性的事情了"。

线索三:两件事串联

做强化学习背景的大佬有突破 + 一周后Altman被逐(安全性分歧)——"两个人穿一块,确实有可能在强化学习里面有突破"。董事会认为Sam把安全性放在了技术突破后面。

王小川
那个事情我们当时理解里面就觉得并不是狗血的事,因为它的董事会其实也是又聪明、也挺正直的人的,都不会有犯傻。有的出错是要么丑要么坏,其实这些人既不丑也不坏。

王小川的信息网络

这段叙述揭示了王小川对OpenAI内部动态的信息获取能力:他能在事件发生前一周就听到关于Noam的消息,并将其与董事会冲突串联起来做出判断。他在百川创业之初(2023年4月)就强调强化学习,说明这并非事后诸葛亮。

二、快思考与慢思考:学与思的融合

王小川提出了本次访谈最核心的框架——用中国传统文化的"学"与"思"来理解大模型与强化学习的关系。

核心框架

学与思的二元体系

大模型 = 学(快思考):"读万卷书",学而不思则罔——读了很多书,但内心是一个偏比较混乱的状态。一拍脑袋、张口就说。

强化学习 = 思(慢思考):"行万里路",思而不学则殆——AlphaGo是典型代表,DeepMind沿着这条路走,但"停在一个问题里面走不出来了"。

王小川的核心判断:这两个技术早晚会合币(合并)。O1就是这个合并的第一步。

大模型(学/快思考)

  • 把全天下最优质的语言做压缩训练
  • 在原有数据分布内的智能
  • "学而不思则罔"
  • 见多识广,模仿为主
  • 不会超过原始数据的能力

强化学习(思/慢思考)

  • 在环境中通过反馈学习
  • 能跳出原有数据分布
  • "思而不学则殆"
  • 自主探索,有绝对标准
  • 单独使用泛化性有限(如AlphaGo)
王小川
它不是个转弯的过程,而是怎么用大模型的快思考之后能够让它学会了这个慢思考,这是一个进阶。

范式升级而非范式转弯

王小川坚决反对"O1进一步退两步"或"技术路线转弯"的说法。他的逻辑是:慢思考必须建立在快思考的基础之上——你必须先有大模型的"学",才能在此基础上发展强化学习的"思"。O1是在GPT-4基础上叠加的新范式,是进阶,不是替代。

三、DIKW模型:从信息到智慧的进阶

王小川用经典的DIKW知识金字塔来定位AI发展的阶段。

DIKW 知识金字塔与AI发展阶段
DIKW层级含义对应技术代表产品
Data(数据)原始数据数据库/存储传统IT
Information(信息)帮你获得信息搜索引擎Google/百度
Knowledge(知识)有知识、有沟通、有快思考大模型/LLMGPT-4
Wisdom(智慧)真正开始有智能大模型 + 强化学习O1

王小川的关键判断

O1的范式升级"是把原来的模型作为它的组件之一,而不只是用今天的强化学习只服务于大模型——大模型是它的一个组件了"。这意味着大模型从主角变成了组件,被嵌入到一个更大的思考框架中。

四、O1的核心关注点:语言中轴与COT

王小川给出了观察O1应该关注的核心要点。

三个核心关注点

1
以语言为中心,升级到COT
2
思考过程与结果分离为两阶段
3
COT带来的泛化能力

语言中轴的坚持

  • 之前业界觉得多模态是智能的方向,但从OpenAI传出"多模态帮助不大"
  • 坚持以语言为核心,进一步从语言走向思维链(COT)
  • 语言在承载思考时变成了多步思考

两阶段分离的意义

  • 思考过程给结果分成两个步骤
  • 追求的不是"这个题解对了"的结果,而是"解题的过程是对的"
  • 类比:学会一个思路就能解好多题——思路可以泛化
  • 训练分成两阶段后,COT能快速从数学泛化到其他领域

O1为何隐藏思维链

王小川
一旦公开之后的话,更容易被大家不仅是仿效它的逻辑,更容易去蒸馏它的数据。不仅破解它的算法,而且它的数据获取......也说明这个技术本身它的独有性也有限的。所以它封锁这个事情,是一个竞争策略。

隐藏思维链 = 承认技术壁垒有限

王小川指出O1隐藏COT恰恰说明了一个反直觉的事实:这项技术的独有性是有限的。如果公开,竞争对手可以通过蒸馏数据快速逼近。这也暗示了王小川对复刻O1难度的判断——原理不难,工程和数据是瓶颈

五、强化学习原理:监督学习 vs 强化学习

王小川用教小孩的比喻深入浅出地解释了两种学习范式的本质区别。

监督学习

  • 告诉小孩解题的过程:一二三怎么做
  • 小孩学得快,但"并没有能够知其所以然"
  • 需要大量标注好的训练数据
  • 在数据分布内表现优异

强化学习

  • 只告诉小孩对或错,不告诉过程
  • 小孩"要自理化性地去找方法"
  • 需要评价系统(reward model)而非过程标注
  • 能探索分布外的新方法
核心概念

求解 vs 验证的不对称性

王小川引用计算理论中的经典不对称:求解一个问题比验证一个问题更难

  • 走迷宫:找到出路是难的,但验证一条路是否走通是简单的
  • 数学证明:证明一个定理是难的,但验证一个证明过程有没有bug是简单的

强化学习正是利用了这个不对称性:"我并不知道怎么解这个题,但我能验证你解的对不对。"这使得系统能力"得到很大的提升",在同等标注数据难度下"就能解更复杂的题目"。

六、为何O1偏科:文无第一,武无第二

面对"O1在数学编程很强但语言方面退步"的评价,王小川用"文无第一,武无第二"做了精彩解读。

文科 = 文无第一

  • 写得好不好"没有统一标准"
  • 大模型擅长:见多识广,从全天下文字中找优美的东西
  • 没法用绝对标准改进系统
  • 强化学习难以介入(缺少reward signal)

理科 = 武无第二

  • "有绝对对和错的标准"
  • 数学有正确答案,程序可编译运行
  • 对错标准 = reward model / critical model
  • 强化学习可大幅提升:"理科功力就大涨"
王小川
文科来讲的话呢,好不好其实没有统一的标准......理科叫武无第二,就是它有绝对对和错的标准。一旦增加了强化学习之后,就能够把这个没有第二的对错变成它这个训练信号放进去,因此理科的功力就大涨。

并非真正偏科

王小川实际上不认为O1是偏科的:"我也不觉得它是偏才。"他认为理科大幅进步后,大家对文科的关注降低了,产生了"退步"的错觉。他指出听说O1在某些翻译任务上"也还变得更好了"。正确的描述应该是:"文科也不错,理科一下子变成特别强"。

七、从分布内到分布外:强化学习的必然性

王小川深入解释了为什么大模型必须引入强化学习——这涉及一个根本的认知论问题。

大模型的根本局限

大模型本质是"把全天下最优质的语言做一个压缩",它的思考能力不会超过原始数据。这是一种"数据分布内"的智能。

但真正的智能需要"跳出原来的框架"——探索以前未知的事,这就是"从分布内走向分布外"。

从分布内到分布外:大模型 + 强化学习的能力拓展
王小川
大模型它本身是把这个全天下最优质的语言来做一个训练,其实我们称为一个压缩的过程......它的思考的能力是不会超过你原始的数据的。但是我们知道真正的智能的时候,是要跳出原来的框架......从分布内走向分布外,这是必须的一个过程。

强化学习如何实现突破

泛化性的来源

强化学习本身不代表泛化性

王小川坦承"强化学习本身不代表泛化性"——AlphaGo就做不到泛化。O1之所以有泛化能力,是因为两阶段分离:先训练COT能力(在数学和代码领域),然后COT本身作为一种通用思考方法可以泛化到其他领域。类比GPT-3.5时代:训练代码提升了整个系统的逻辑能力。

八、百川的强化学习实验:用诗词做文科RL

王小川透露了百川在强化学习方面一个独特的早期实验——在文科领域而非理科领域做强化学习。

为什么选择诗词

文科中的"武无第二"

通常强化学习只能在有绝对标准的理科任务上做(数学、代码),文科"写得好不好挺难让机器做校对的"。但百川团队发现了一个例外:唐诗宋词有严格的形式规则——字数、平仄、韵律、对仗,这些规则可以用程序判定,因此可以充当reward model。

实验设计

意外发现:强化学习激活潜藏能力

王小川
当我们强化学习,它一部分是从环境上学到新东西,一部分我们发现它会激活你原有的一些能力。比如说我们当初写诗词的时候,让它学会了字数、平仄和韵律,然后结果大部分自己就把对仗也输出了。本来还没教它学对仗呢!

强化学习的"激活"效应

这是一个重要发现:强化学习不仅能从环境反馈中学到新东西,还能激活模型中已有但潜藏的能力。在诗词实验中,模型在只被训练了字数、平仄、韵律之后,自发地输出了对仗——说明模型从预训练数据中已经"知道"对仗,但需要强化学习来"激活"这种能力。

与O1的差距

王小川坦承百川当时的实验"接近O1的做法"但"没它做得更加完整"——关键差距在于缺少COT。百川的reward model是"不带COT的",直接从输入判断答案的正确性。O1的突破正在于加入了思维链过程。

九、医疗:强化学习的最佳应用场景

王小川将医疗定位为百川的战略核心场景——这不仅仅是商业选择,而是基于强化学习方法论的必然推导。

医疗为什么适合强化学习

医疗 = "武无第二"的领域

  • 一个病人的症状 → 到底有什么病 → 有答案
  • 该做什么检验检查 → 有标准
  • 该开什么药 → 有答案
  • 医生也是靠"临床中间一辈子看几万个病人"来提升自己的
  • 很多数据是被记录下来的

如果访问医生的COT(诊断思考路径),再验证答案对不对,就能使模型"功力大涨"。

造医生而非造助理

助手/助理(王小川否定的方向)

  • 帮你省时间
  • 娱乐帮你杀时间
  • "上一代的思考逻辑"
  • 本质是动手(执行)

顾问/医生(王小川选择的方向)

  • 给你提供know-how
  • 让你变得更加强大
  • "创业公司更该选择的地方"
  • 本质是动脑子(判断)
王小川
助手帮你省时间的,娱乐帮你杀时间的。但是一个顾问,其实不是帮你省时间还是杀时间的,它是给你提供know-how,这样你变得更加强大的。这是个创业公司更该选择的地方。

路线图

近期

全科和儿科入手,造能用的数字医生

中期

走向专科医生

远期

从智能模型走向生命的数学模型

十、复刻O1:难度、资源与时间线

1-2月
初步接近O1的模型出现
~9月
达到O1水平可能需要的时间
~GPT-4
做O1所需算力量级

王小川对复刻难度的判断

比复刻GPT-4更难,但会更快

  • "复刻它本身如果你深入它,会变得很简单"——原理层面
  • 难在算力专家标注系统——仍需大量人工
  • 自我博弈(self-play RL)"肯定会"减少人工成分,但当前仍需要
  • 国内外人才储备和资金储备比GPT-3.5/4时期"多很多了"
  • 预计"一两个月时间里面就开始有接近它的模型出现"
  • 但"达到它的高度"需要花更多力气

速度类比

王小川
GPT-4你可能用了十八个月,O1你可能做到它那样也许九个月时间。但如果起步能够有一个现在的样子出来,可能一两个月就有了。

十一、推理时Scaling Law与双曲线增长

针对Jim Fan提出的"双Scaling Law"概念,王小川给出了自己的分析。

训练时 vs 推理时 Scaling Law 趋势

训练时 Scaling Law

  • 训练阶段增加计算确实有用
  • 但随着数据的耗竭,"意义开始下降"
  • 边际收益递减

推理时 Scaling Law

  • "处于一个上升期"
  • 推理阶段增加更多算力,效果会更好
  • 目前"在一个爬坡期"

关键:成绩的效果(乘积效应)

王小川强调:"训练阶段的能力和推理阶段的能力是成绩的效果"——也就是乘积关系,不是简单叠加。训练能力 x 推理能力 = 总能力。这意味着即使训练时Scaling Law放缓,推理时Scaling Law的爬坡仍能带来指数级提升。

十二、O1与GPT-4O的关系:不需要合并

当被问到O1和GPT-4O合并的问题时,王小川给出了一个简洁判断。

王小川的判断

  • O1"有能力现在叫统治了"——需要深度思考时用O1就够了
  • GPT-4O可能只在"成本需要特别便宜、你不要思考"的场景使用
  • "合并也不难,但不融合你也可以用"——分两个调用也行
  • O1有机会"全包含"GPT-4O的能力

对全知全能大统一模型的看法

王小川认为OpenAI代表的路线图"是一个通用的道路",会逐步把领域拓展开。但他强调:专业领域数据仍会扮演很重要的角色。通用大模型自身积累的数据闭环"不能做到全知全能",还需要结合专业领域知识。

王小川
GPT-4它为什么不是个2C的模型、全知全能直接2C了对吧?它最后还有大量API开给2B的公司来调用它。然后在场景中间是加入场景的know-how,才能实现一个好的服务。

十三、造人而非造工具:TPF取代PMF

王小川提出了一个对创业方法论的根本性颠覆——从PMF走向TPF

方法论转变

PMF → TPF

PMF(Product-Market Fit):发现需求 → 满足需求 → 创造需求。需求驱动。上一代互联网的逻辑。

TPF(Technology-Product Fit):技术已到,需求已存在,供给不足。"我把它造出来,它就有市场。"供给驱动。更强调技术与产品的匹配度。

大模型的本质:造人

为什么是造人而不是造工具

  • 大模型会语言、会思考、会沟通
  • 学的是人类遗留下来的知识和经验
  • "不是在造计算器、造车这种逻辑"
  • 是在造数字员工——具备人的核心能力
  • 百川选择"把造医生当成重点突破"
王小川
大模型核心很大的一个逻辑就在造人,在造数字员工。因为它会语言、会思考、会沟通,这本身就是。而且学的是人类之前遗留下来的这些知识和经验。所以它不是在造计算器、造车这种逻辑了,它是在造人。

产品形态不重要

当被问到"跟医生交互的界面是什么"时,王小川表示形态不重要——可以是APP,可以是医院里的设备,核心是靠自然语言交互。他类比电话号码:你可以拿手机也行,拿耳机也行,放在兜里也行。

十四、水涨船高的场景逻辑

王小川提出了一个精巧的场景选择框架——水涨船高 vs 母鸡下蛋

母鸡下蛋(错误模式)

  • 做个广告模型放那,再做个客服模型放那
  • 模型再好,就下个新的蛋
  • 蛋越来越多,自己的压力越来越大
  • 水涨了,蛋反而被淹掉
  • "沿途下蛋"模式

水涨船高(正确模式)

  • 找一个终极形态的应用场景
  • 模型越大,场景越受益
  • 进入门槛不需要太高
  • 随着模型进步,价值自然增长
  • 医疗就是这样的场景

场景选择的核心标准

王小川的场景选择逻辑:(1)假设模型能力特别强以后,什么场景更受益;(2)模型能力一般时,进入门槛也不至于太高;(3)模型越大,场景越受益——不是模型升级后场景就过时了。医疗完美符合这三条:医生永远需要更强的诊断能力,基础模型就能开始做全科,模型越强能做的专科越多。

双轮驱动

超级模型 + 超级应用

  • 去年只是"造一个轮子"——模型刚入场
  • 今年开始"双轮驱动"——模型 + 应用
  • 场景越清楚,对模型的要求越能细化
  • 一个是"练肌肉"(模型),一个是"牵引力"(场景)
  • 明年希望得到市场检验

十五、竞争格局:六小龙与字节的射程

市场判断

≥1
六小龙至少活几家
?
"它是不是个市场都不知道"
王小川
字节会发展非常快的。就一定有比它们更高——它们看不到的东西或者能力做不到——才会有创业公司生存的机会。叫做走出大厂的射程。就在字节射程内,你是没什么好活的。

百川的生存策略

走出大厂射程

  • 不做通用顾问——"我们也不会做的"
  • 降低了娱乐方向——"时代还没到",原本的虚拟世界目标暂缓
  • 战略优先级调整:集中在医疗
  • 新定义:一家"想得清楚的大模型公司"

Ilya离开的影响

关于Ilya Sutskever离开OpenAI是否影响强化学习发展,王小川判断"可能已经不会影响了——这个思想已经成熟并走通了"。但他对"新的大的思想突破"持开放态度——"不知道是Ilya之外的其他人是否能稳在顶上"。

对竞争对手的评价

王小川
我觉得他们在努力找方向吧。

个人状态

王小川表示"最近确实不怎么焦虑"——钱已经到了,方向很清楚了,团队开始有了。最艰难的时刻是"一开始搭团队"。

十六、关键数据与判断汇总

判断具体内容
O1的定位范式升级,不是转弯,不是进一步退两步——"摸到了一条走向慢思考的道路"
O1的重要性相当于GPT-3的时刻——"重要性不亚于GPT-3",在GPT-4基础上跑通了新范式
O1的本质从Knowledge层进化到Wisdom层——"真的开始有智能了"
O1核心关注语言中轴 + COT + 两阶段泛化能力
复刻O1的时间初步接近:1-2个月;达到水平:约9个月(vs GPT-4的18个月)
复刻O1的算力"可能跟做个GPT-4差不多"
强化学习的泛化强化学习本身不泛化,泛化来自COT——数学代码的COT泛化到其他领域
训练vs推理Scaling Law训练阶段开始放缓,推理阶段处于上升爬坡期,两者是乘积关系
百川RL实验用唐诗宋词做文科强化学习,发现RL可以激活模型潜藏能力
百川战略场景医疗(造医生)——从全科/儿科入手,走向专科,最终走向生命数学模型
方法论转变从PMF(需求驱动)转向TPF(供给驱动/技术-产品匹配)
场景选择标准"水涨船高"——模型越大场景越受益,而非"母鸡下蛋"
六小龙存活"至少活一家"
字节威胁"在字节射程内你是没什么好活的"——必须走出大厂射程
代码的未来角色从辅助写代码 → 大模型通过写代码解决更多问题的核心能力——"新范式"
Ilya离开影响对强化学习"应该影响不大"——思想已成熟并走通
娱乐方向降低优先级——造虚拟世界"时代还没到"
国内接近GPT-4"在接近"
O1可见上限"可能在未来两三年内这个范式就会跑出结果"

启示与延伸思考

1. "学与思"框架是理解AI发展阶段的最佳中文隐喻

王小川用"学而不思则罔,思而不学则殆"来对应大模型与强化学习的关系,不仅是传播层面的精妙,更揭示了技术本质:大模型是压缩已有知识(学),强化学习是在环境中探索未知(思)。两者的合并不是转弯,而是"学"的基础上生长出"思"的能力。这个框架预测了O1之后的发展方向——不会回到纯大模型,也不会抛弃大模型,而是在大模型的"快思考"之上持续发展"慢思考"。

2. "文无第一,武无第二"解释了强化学习的适用边界

这个判断框架清晰地预言了哪些领域会被强化学习优先攻克:凡是有绝对标准、可以判定对错的领域(数学、代码、医疗诊断、棋类),强化学习都能大幅提升能力;凡是"好不好没有统一标准"的领域(文学、艺术、创意),强化学习的介入更慢更难。百川用诗词做实验的巧妙之处正在于:在文科中找到了"武无第二"的形式规则。

3. "从分布内到分布外"是大模型必须引入强化学习的根本原因

王小川点出了大模型的天花板:预训练本质是数据压缩,智能不会超过训练数据的分布边界。而真正的智能需要"跳出框架"——探索训练数据中不存在的解法。强化学习通过环境反馈提供分布外的信号,是突破这个天花板的必要手段。这个判断意味着:无论预训练规模多大,仅靠预训练永远无法达到AGI。

4. 强化学习的"激活"效应是一个被低估的发现

百川的诗词实验发现:训练了字数、平仄、韵律后,模型自发输出了对仗。这意味着大模型中存在大量"潜藏能力"——预训练时学到了但无法主动调用的知识。强化学习不仅能教模型新东西,还能"唤醒"它已有的能力。如果这个效应在更多领域被验证,强化学习的价值可能远超当前估计。

5. "水涨船高 vs 母鸡下蛋"是大模型创业者最该思考的场景选择框架

王小川指出了两种截然不同的场景策略:(1)沿途下蛋——每个模型版本做一个场景,蛋越来越多,压力越来越大;(2)水涨船高——选一个模型越强越受益的场景,等着模型进步带来的红利。医疗是"水涨船高"的典型——模型越强,能诊断的疾病越多,准确率越高。广告和客服是"母鸡下蛋"的典型——一个小模型就够了,大模型升级后旧产品就被淹没。

6. 造顾问而非造助手,是大模型创业的差异化关键

王小川将AI产品分为三类:助手(帮你省时间)、娱乐(帮你杀时间)、顾问(给你提供know-how让你变强大)。他认为前两类是"上一代的逻辑",而且是大厂擅长的。创业公司的机会在"顾问"——这个方向大厂"看不到"或"做不到"(需要深度领域知识)。这与"走出大厂射程"的策略完全一致。

7. O1预示了代码将成为大模型的"核心能力"而非"辅助工具"

王小川做了一个大胆预言:"未来代码会变成大模型下一步的核心能力"——不是AI帮程序员写代码,而是大模型通过写代码来解决自身的思考问题。从强化学习走向"写代码来解决问题"的新范式,代码运行生成的结果甚至可以和模型融合。如果这个预言成立,代码将从AI的应用场景之一变成AI自身进化的核心机制。

8. 王小川的信息推理能力本身就是"慢思考"的示范

从Noam的消息 + 董事会事件 → 推断出OpenAI在强化学习有突破;从"文无第一武无第二" → 解释O1的偏科现象;从求解与验证的不对称性 → 解释强化学习为何有效。整个访谈展示了王小川将碎片信息串联为逻辑链条的能力——恰恰是他所倡导的"慢思考"在人类智能中的体现。

延伸阅读