深度研究 — #76 <a href="https://baike.baidu.com/item/%E7%8E%8B%E5%B0%8F%E5%B7%9D/6964556" target="_blank" rel="noopener" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">王小川</a>返场谈o1与强化学习：摸到了一条从快思考走向慢思考的路

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

从Altman被逐到强化学习突破的线索
快思考与慢思考：学与思的融合
DIKW模型：从信息到智慧的进阶
O1的核心关注点：语言中轴与COT
强化学习原理：监督学习 vs 强化学习
为何O1偏科：文无第一，武无第二
从分布内到分布外：强化学习的必然性
百川的强化学习实验：用诗词做文科RL
医疗：强化学习的最佳应用场景
复刻O1：难度、资源与时间线
推理时Scaling Law与双曲线增长
O1与GPT-4O的关系：不需要合并
造人而非造工具：TPF取代PMF
水涨船高的场景逻辑
竞争格局：六小龙与字节的射程
关键数据与判断汇总

一、从Altman被逐到强化学习突破的线索

王小川在访谈开头就还原了他对OpenAI内部动态的判断链条——从Sam Altman被董事会短暂逐出事件，推断出OpenAI在强化学习上的重大突破。

推理链条

线索一：董事会"既不丑也不坏"

王小川认为OpenAI董事会成员"又聪明，也挺正直"，不会犯傻。如果这些人做出逐出CEO的决定，背后一定有"大家没发现的事情"。

线索二：Noam的消息

在Altman被逐前约一周，一位名为Noam的核心人物——之前在DeepMind做强化学习的大神，加入OpenAI后"号称跟朋友说他们有突破性的事情了"。

线索三：两件事串联

做强化学习背景的大佬有突破 + 一周后Altman被逐（安全性分歧）——"两个人穿一块，确实有可能在强化学习里面有突破"。董事会认为Sam把安全性放在了技术突破后面。

王小川

那个事情我们当时理解里面就觉得并不是狗血的事，因为它的董事会其实也是又聪明、也挺正直的人的，都不会有犯傻。有的出错是要么丑要么坏，其实这些人既不丑也不坏。

王小川的信息网络

这段叙述揭示了王小川对OpenAI内部动态的信息获取能力：他能在事件发生前一周就听到关于Noam的消息，并将其与董事会冲突串联起来做出判断。他在百川创业之初（2023年4月）就强调强化学习，说明这并非事后诸葛亮。

二、快思考与慢思考：学与思的融合

王小川提出了本次访谈最核心的框架——用中国传统文化的"学"与"思"来理解大模型与强化学习的关系。

核心框架

学与思的二元体系

大模型 = 学（快思考）："读万卷书"，学而不思则罔——读了很多书，但内心是一个偏比较混乱的状态。一拍脑袋、张口就说。

强化学习 = 思（慢思考）："行万里路"，思而不学则殆——AlphaGo是典型代表，DeepMind沿着这条路走，但"停在一个问题里面走不出来了"。

王小川的核心判断：这两个技术早晚会合币（合并）。O1就是这个合并的第一步。

大模型（学/快思考）

把全天下最优质的语言做压缩训练
在原有数据分布内的智能
"学而不思则罔"
见多识广，模仿为主
不会超过原始数据的能力

强化学习（思/慢思考）

在环境中通过反馈学习
能跳出原有数据分布
"思而不学则殆"
自主探索，有绝对标准
单独使用泛化性有限（如AlphaGo）

王小川

它不是个转弯的过程，而是怎么用大模型的快思考之后能够让它学会了这个慢思考，这是一个进阶。

范式升级而非范式转弯

王小川坚决反对"O1进一步退两步"或"技术路线转弯"的说法。他的逻辑是：慢思考必须建立在快思考的基础之上——你必须先有大模型的"学"，才能在此基础上发展强化学习的"思"。O1是在GPT-4基础上叠加的新范式，是进阶，不是替代。

三、DIKW模型：从信息到智慧的进阶

王小川用经典的DIKW知识金字塔来定位AI发展的阶段。

DIKW 知识金字塔与AI发展阶段

DIKW层级	含义	对应技术	代表产品
Data（数据）	原始数据	数据库/存储	传统IT
Information（信息）	帮你获得信息	搜索引擎	Google/百度
Knowledge（知识）	有知识、有沟通、有快思考	大模型/LLM	GPT-4
Wisdom（智慧）	真正开始有智能	大模型 + 强化学习	O1

王小川的关键判断

O1的范式升级"是把原来的模型作为它的组件之一，而不只是用今天的强化学习只服务于大模型——大模型是它的一个组件了"。这意味着大模型从主角变成了组件，被嵌入到一个更大的思考框架中。

四、O1的核心关注点：语言中轴与COT

王小川给出了观察O1应该关注的核心要点。

三个核心关注点

以语言为中心，升级到COT

思考过程与结果分离为两阶段

COT带来的泛化能力

语言中轴的坚持

之前业界觉得多模态是智能的方向，但从OpenAI传出"多模态帮助不大"
坚持以语言为核心，进一步从语言走向思维链（COT）
语言在承载思考时变成了多步思考

两阶段分离的意义

把思考过程和给结果分成两个步骤
追求的不是"这个题解对了"的结果，而是"解题的过程是对的"
类比：学会一个思路就能解好多题——思路可以泛化
训练分成两阶段后，COT能快速从数学泛化到其他领域

O1为何隐藏思维链

王小川

一旦公开之后的话，更容易被大家不仅是仿效它的逻辑，更容易去蒸馏它的数据。不仅破解它的算法，而且它的数据获取......也说明这个技术本身它的独有性也有限的。所以它封锁这个事情，是一个竞争策略。

隐藏思维链 = 承认技术壁垒有限

王小川指出O1隐藏COT恰恰说明了一个反直觉的事实：这项技术的独有性是有限的。如果公开，竞争对手可以通过蒸馏数据快速逼近。这也暗示了王小川对复刻O1难度的判断——原理不难，工程和数据是瓶颈。

五、强化学习原理：监督学习 vs 强化学习

王小川用教小孩的比喻深入浅出地解释了两种学习范式的本质区别。

监督学习

告诉小孩解题的过程：一二三怎么做
小孩学得快，但"并没有能够知其所以然"
需要大量标注好的训练数据
在数据分布内表现优异

强化学习

只告诉小孩对或错，不告诉过程
小孩"要自理化性地去找方法"
需要评价系统（reward model）而非过程标注
能探索分布外的新方法

核心概念

求解 vs 验证的不对称性

王小川引用计算理论中的经典不对称：求解一个问题比验证一个问题更难。

走迷宫：找到出路是难的，但验证一条路是否走通是简单的
数学证明：证明一个定理是难的，但验证一个证明过程有没有bug是简单的

强化学习正是利用了这个不对称性："我并不知道怎么解这个题，但我能验证你解的对不对。"这使得系统能力"得到很大的提升"，在同等标注数据难度下"就能解更复杂的题目"。

六、为何O1偏科：文无第一，武无第二

面对"O1在数学编程很强但语言方面退步"的评价，王小川用"文无第一，武无第二"做了精彩解读。

文科 = 文无第一

写得好不好"没有统一标准"
大模型擅长：见多识广，从全天下文字中找优美的东西
没法用绝对标准改进系统
强化学习难以介入（缺少reward signal）

理科 = 武无第二

"有绝对对和错的标准"
数学有正确答案，程序可编译运行
对错标准 = reward model / critical model
强化学习可大幅提升："理科功力就大涨"

王小川

文科来讲的话呢，好不好其实没有统一的标准......理科叫武无第二，就是它有绝对对和错的标准。一旦增加了强化学习之后，就能够把这个没有第二的对错变成它这个训练信号放进去，因此理科的功力就大涨。

并非真正偏科

王小川实际上不认为O1是偏科的："我也不觉得它是偏才。"他认为理科大幅进步后，大家对文科的关注降低了，产生了"退步"的错觉。他指出听说O1在某些翻译任务上"也还变得更好了"。正确的描述应该是："文科也不错，理科一下子变成特别强"。

七、从分布内到分布外：强化学习的必然性

王小川深入解释了为什么大模型必须引入强化学习——这涉及一个根本的认知论问题。

大模型的根本局限

大模型本质是"把全天下最优质的语言做一个压缩"，它的思考能力不会超过原始数据。这是一种"数据分布内"的智能。

但真正的智能需要"跳出原来的框架"——探索以前未知的事，这就是"从分布内走向分布外"。

从分布内到分布外：大模型 + 强化学习的能力拓展

王小川

大模型它本身是把这个全天下最优质的语言来做一个训练，其实我们称为一个压缩的过程......它的思考的能力是不会超过你原始的数据的。但是我们知道真正的智能的时候，是要跳出原来的框架......从分布内走向分布外，这是必须的一个过程。

强化学习如何实现突破

创造一个环境让模型与之互动
环境的反馈提供原来语言数据之外的内容
通过环境反馈提升解决问题的能力
这使得用强化学习"变成必须的一件事情"

泛化性的来源

强化学习本身不代表泛化性

王小川坦承"强化学习本身不代表泛化性"——AlphaGo就做不到泛化。O1之所以有泛化能力，是因为两阶段分离：先训练COT能力（在数学和代码领域），然后COT本身作为一种通用思考方法可以泛化到其他领域。类比GPT-3.5时代：训练代码提升了整个系统的逻辑能力。

八、百川的强化学习实验：用诗词做文科RL

王小川透露了百川在强化学习方面一个独特的早期实验——在文科领域而非理科领域做强化学习。

为什么选择诗词

文科中的"武无第二"

通常强化学习只能在有绝对标准的理科任务上做（数学、代码），文科"写得好不好挺难让机器做校对的"。但百川团队发现了一个例外：唐诗宋词有严格的形式规则——字数、平仄、韵律、对仗，这些规则可以用程序判定，因此可以充当reward model。

实验设计

不是让机器仿照人写诗词（监督学习）
而是让机器写诗词后，用程序模型判断是否符合平仄、字数、韵律、对仗（强化学习）
词牌名大概一百多种，每种有特定格式
先用规则判定，再转化为模型——"接近O1的做法"

意外发现：强化学习激活潜藏能力

王小川

当我们强化学习，它一部分是从环境上学到新东西，一部分我们发现它会激活你原有的一些能力。比如说我们当初写诗词的时候，让它学会了字数、平仄和韵律，然后结果大部分自己就把对仗也输出了。本来还没教它学对仗呢！

强化学习的"激活"效应

这是一个重要发现：强化学习不仅能从环境反馈中学到新东西，还能激活模型中已有但潜藏的能力。在诗词实验中，模型在只被训练了字数、平仄、韵律之后，自发地输出了对仗——说明模型从预训练数据中已经"知道"对仗，但需要强化学习来"激活"这种能力。

与O1的差距

王小川坦承百川当时的实验"接近O1的做法"但"没它做得更加完整"——关键差距在于缺少COT。百川的reward model是"不带COT的"，直接从输入判断答案的正确性。O1的突破正在于加入了思维链过程。

九、医疗：强化学习的最佳应用场景

王小川将医疗定位为百川的战略核心场景——这不仅仅是商业选择，而是基于强化学习方法论的必然推导。

医疗为什么适合强化学习

医疗 = "武无第二"的领域

一个病人的症状 → 到底有什么病 → 有答案
该做什么检验检查 → 有标准
该开什么药 → 有答案
医生也是靠"临床中间一辈子看几万个病人"来提升自己的
很多数据是被记录下来的

如果访问医生的COT（诊断思考路径），再验证答案对不对，就能使模型"功力大涨"。

造医生而非造助理

助手/助理（王小川否定的方向）

帮你省时间
娱乐帮你杀时间
"上一代的思考逻辑"
本质是动手（执行）

顾问/医生（王小川选择的方向）

给你提供know-how
让你变得更加强大
"创业公司更该选择的地方"
本质是动脑子（判断）

王小川

助手帮你省时间的，娱乐帮你杀时间的。但是一个顾问，其实不是帮你省时间还是杀时间的，它是给你提供know-how，这样你变得更加强大的。这是个创业公司更该选择的地方。

路线图

近期

从全科和儿科入手，造能用的数字医生

中期

走向专科医生

远期

从智能模型走向生命的数学模型

十、复刻O1：难度、资源与时间线

1-2月

初步接近O1的模型出现

~9月

达到O1水平可能需要的时间

~GPT-4

做O1所需算力量级

王小川对复刻难度的判断

比复刻GPT-4更难，但会更快

"复刻它本身如果你深入它，会变得很简单"——原理层面
难在算力和专家标注系统——仍需大量人工
自我博弈（self-play RL）"肯定会"减少人工成分，但当前仍需要
国内外人才储备和资金储备比GPT-3.5/4时期"多很多了"
预计"一两个月时间里面就开始有接近它的模型出现"
但"达到它的高度"需要花更多力气

速度类比

王小川

GPT-4你可能用了十八个月，O1你可能做到它那样也许九个月时间。但如果起步能够有一个现在的样子出来，可能一两个月就有了。

十一、推理时Scaling Law与双曲线增长

针对Jim Fan提出的"双Scaling Law"概念，王小川给出了自己的分析。

训练时 vs 推理时 Scaling Law 趋势

训练时 Scaling Law

训练阶段增加计算确实有用
但随着数据的耗竭，"意义开始下降"
边际收益递减

推理时 Scaling Law

"处于一个上升期"
推理阶段增加更多算力，效果会更好
目前"在一个爬坡期"

关键：成绩的效果（乘积效应）

王小川强调："训练阶段的能力和推理阶段的能力是成绩的效果"——也就是乘积关系，不是简单叠加。训练能力 x 推理能力 = 总能力。这意味着即使训练时Scaling Law放缓，推理时Scaling Law的爬坡仍能带来指数级提升。

十二、O1与GPT-4O的关系：不需要合并

当被问到O1和GPT-4O合并的问题时，王小川给出了一个简洁判断。

王小川的判断

O1"有能力现在叫统治了"——需要深度思考时用O1就够了
GPT-4O可能只在"成本需要特别便宜、你不要思考"的场景使用
"合并也不难，但不融合你也可以用"——分两个调用也行
O1有机会"全包含"GPT-4O的能力

对全知全能大统一模型的看法

王小川认为OpenAI代表的路线图"是一个通用的道路"，会逐步把领域拓展开。但他强调：专业领域数据仍会扮演很重要的角色。通用大模型自身积累的数据闭环"不能做到全知全能"，还需要结合专业领域知识。

王小川

GPT-4它为什么不是个2C的模型、全知全能直接2C了对吧？它最后还有大量API开给2B的公司来调用它。然后在场景中间是加入场景的know-how，才能实现一个好的服务。

十三、造人而非造工具：TPF取代PMF

王小川提出了一个对创业方法论的根本性颠覆——从PMF走向TPF。

方法论转变

PMF → TPF

PMF（Product-Market Fit）：发现需求 → 满足需求 → 创造需求。需求驱动。上一代互联网的逻辑。

TPF（Technology-Product Fit）：技术已到，需求已存在，供给不足。"我把它造出来，它就有市场。"供给驱动。更强调技术与产品的匹配度。

大模型的本质：造人

为什么是造人而不是造工具

大模型会语言、会思考、会沟通
学的是人类遗留下来的知识和经验
"不是在造计算器、造车这种逻辑"
是在造数字员工——具备人的核心能力
百川选择"把造医生当成重点突破"

王小川

大模型核心很大的一个逻辑就在造人，在造数字员工。因为它会语言、会思考、会沟通，这本身就是。而且学的是人类之前遗留下来的这些知识和经验。所以它不是在造计算器、造车这种逻辑了，它是在造人。

产品形态不重要

当被问到"跟医生交互的界面是什么"时，王小川表示形态不重要——可以是APP，可以是医院里的设备，核心是靠自然语言交互。他类比电话号码：你可以拿手机也行，拿耳机也行，放在兜里也行。

十四、水涨船高的场景逻辑

王小川提出了一个精巧的场景选择框架——水涨船高 vs 母鸡下蛋。

母鸡下蛋（错误模式）

做个广告模型放那，再做个客服模型放那
模型再好，就下个新的蛋
蛋越来越多，自己的压力越来越大
水涨了，蛋反而被淹掉
"沿途下蛋"模式

水涨船高（正确模式）

找一个终极形态的应用场景
模型越大，场景越受益
进入门槛不需要太高
随着模型进步，价值自然增长
医疗就是这样的场景

场景选择的核心标准

王小川的场景选择逻辑：（1）假设模型能力特别强以后，什么场景更受益；（2）模型能力一般时，进入门槛也不至于太高；（3）模型越大，场景越受益——不是模型升级后场景就过时了。医疗完美符合这三条：医生永远需要更强的诊断能力，基础模型就能开始做全科，模型越强能做的专科越多。

双轮驱动

超级模型 + 超级应用

去年只是"造一个轮子"——模型刚入场
今年开始"双轮驱动"——模型 + 应用
场景越清楚，对模型的要求越能细化
一个是"练肌肉"（模型），一个是"牵引力"（场景）
明年希望得到市场检验

十五、竞争格局：六小龙与字节的射程

市场判断

≥1

六小龙至少活几家

"它是不是个市场都不知道"

王小川

字节会发展非常快的。就一定有比它们更高——它们看不到的东西或者能力做不到——才会有创业公司生存的机会。叫做走出大厂的射程。就在字节射程内，你是没什么好活的。

百川的生存策略

走出大厂射程

不做通用顾问——"我们也不会做的"
降低了娱乐方向——"时代还没到"，原本的虚拟世界目标暂缓
战略优先级调整：集中在医疗
新定义：一家"想得清楚的大模型公司"

Ilya离开的影响

关于Ilya Sutskever离开OpenAI是否影响强化学习发展，王小川判断"可能已经不会影响了——这个思想已经成熟并走通了"。但他对"新的大的思想突破"持开放态度——"不知道是Ilya之外的其他人是否能稳在顶上"。

对竞争对手的评价

王小川

我觉得他们在努力找方向吧。

个人状态

王小川表示"最近确实不怎么焦虑"——钱已经到了，方向很清楚了，团队开始有了。最艰难的时刻是"一开始搭团队"。

十六、关键数据与判断汇总

判断	具体内容
O1的定位	范式升级，不是转弯，不是进一步退两步——"摸到了一条走向慢思考的道路"
O1的重要性	相当于GPT-3的时刻——"重要性不亚于GPT-3"，在GPT-4基础上跑通了新范式
O1的本质	从Knowledge层进化到Wisdom层——"真的开始有智能了"
O1核心关注	语言中轴 + COT + 两阶段泛化能力
复刻O1的时间	初步接近：1-2个月；达到水平：约9个月（vs GPT-4的18个月）
复刻O1的算力	"可能跟做个GPT-4差不多"
强化学习的泛化	强化学习本身不泛化，泛化来自COT——数学代码的COT泛化到其他领域
训练vs推理Scaling Law	训练阶段开始放缓，推理阶段处于上升爬坡期，两者是乘积关系
百川RL实验	用唐诗宋词做文科强化学习，发现RL可以激活模型潜藏能力
百川战略场景	医疗（造医生）——从全科/儿科入手，走向专科，最终走向生命数学模型
方法论转变	从PMF（需求驱动）转向TPF（供给驱动/技术-产品匹配）
场景选择标准	"水涨船高"——模型越大场景越受益，而非"母鸡下蛋"
六小龙存活	"至少活一家"
字节威胁	"在字节射程内你是没什么好活的"——必须走出大厂射程
代码的未来角色	从辅助写代码 → 大模型通过写代码解决更多问题的核心能力——"新范式"
Ilya离开影响	对强化学习"应该影响不大"——思想已成熟并走通
娱乐方向	降低优先级——造虚拟世界"时代还没到"
国内接近GPT-4	"在接近"
O1可见上限	"可能在未来两三年内这个范式就会跑出结果"

启示与延伸思考

1. "学与思"框架是理解AI发展阶段的最佳中文隐喻

王小川用"学而不思则罔，思而不学则殆"来对应大模型与强化学习的关系，不仅是传播层面的精妙，更揭示了技术本质：大模型是压缩已有知识（学），强化学习是在环境中探索未知（思）。两者的合并不是转弯，而是"学"的基础上生长出"思"的能力。这个框架预测了O1之后的发展方向——不会回到纯大模型，也不会抛弃大模型，而是在大模型的"快思考"之上持续发展"慢思考"。

2. "文无第一，武无第二"解释了强化学习的适用边界

这个判断框架清晰地预言了哪些领域会被强化学习优先攻克：凡是有绝对标准、可以判定对错的领域（数学、代码、医疗诊断、棋类），强化学习都能大幅提升能力；凡是"好不好没有统一标准"的领域（文学、艺术、创意），强化学习的介入更慢更难。百川用诗词做实验的巧妙之处正在于：在文科中找到了"武无第二"的形式规则。

3. "从分布内到分布外"是大模型必须引入强化学习的根本原因

王小川点出了大模型的天花板：预训练本质是数据压缩，智能不会超过训练数据的分布边界。而真正的智能需要"跳出框架"——探索训练数据中不存在的解法。强化学习通过环境反馈提供分布外的信号，是突破这个天花板的必要手段。这个判断意味着：无论预训练规模多大，仅靠预训练永远无法达到AGI。

4. 强化学习的"激活"效应是一个被低估的发现

百川的诗词实验发现：训练了字数、平仄、韵律后，模型自发输出了对仗。这意味着大模型中存在大量"潜藏能力"——预训练时学到了但无法主动调用的知识。强化学习不仅能教模型新东西，还能"唤醒"它已有的能力。如果这个效应在更多领域被验证，强化学习的价值可能远超当前估计。

5. "水涨船高 vs 母鸡下蛋"是大模型创业者最该思考的场景选择框架

王小川指出了两种截然不同的场景策略：（1）沿途下蛋——每个模型版本做一个场景，蛋越来越多，压力越来越大；（2）水涨船高——选一个模型越强越受益的场景，等着模型进步带来的红利。医疗是"水涨船高"的典型——模型越强，能诊断的疾病越多，准确率越高。广告和客服是"母鸡下蛋"的典型——一个小模型就够了，大模型升级后旧产品就被淹没。

6. 造顾问而非造助手，是大模型创业的差异化关键

王小川将AI产品分为三类：助手（帮你省时间）、娱乐（帮你杀时间）、顾问（给你提供know-how让你变强大）。他认为前两类是"上一代的逻辑"，而且是大厂擅长的。创业公司的机会在"顾问"——这个方向大厂"看不到"或"做不到"（需要深度领域知识）。这与"走出大厂射程"的策略完全一致。

7. O1预示了代码将成为大模型的"核心能力"而非"辅助工具"

王小川做了一个大胆预言："未来代码会变成大模型下一步的核心能力"——不是AI帮程序员写代码，而是大模型通过写代码来解决自身的思考问题。从强化学习走向"写代码来解决问题"的新范式，代码运行生成的结果甚至可以和模型融合。如果这个预言成立，代码将从AI的应用场景之一变成AI自身进化的核心机制。

8. 王小川的信息推理能力本身就是"慢思考"的示范

从Noam的消息 + 董事会事件 → 推断出OpenAI在强化学习有突破；从"文无第一武无第二" → 解释O1的偏科现象；从求解与验证的不对称性 → 解释强化学习为何有效。整个访谈展示了王小川将碎片信息串联为逻辑链条的能力——恰恰是他所倡导的"慢思考"在人类智能中的体现。

王小川返场谈o1与强化学习

目录