王小川在访谈开头就还原了他对OpenAI内部动态的判断链条——从Sam Altman被董事会短暂逐出事件,推断出OpenAI在强化学习上的重大突破。
王小川认为OpenAI董事会成员"又聪明,也挺正直",不会犯傻。如果这些人做出逐出CEO的决定,背后一定有"大家没发现的事情"。
在Altman被逐前约一周,一位名为Noam的核心人物——之前在DeepMind做强化学习的大神,加入OpenAI后"号称跟朋友说他们有突破性的事情了"。
做强化学习背景的大佬有突破 + 一周后Altman被逐(安全性分歧)——"两个人穿一块,确实有可能在强化学习里面有突破"。董事会认为Sam把安全性放在了技术突破后面。
这段叙述揭示了王小川对OpenAI内部动态的信息获取能力:他能在事件发生前一周就听到关于Noam的消息,并将其与董事会冲突串联起来做出判断。他在百川创业之初(2023年4月)就强调强化学习,说明这并非事后诸葛亮。
王小川提出了本次访谈最核心的框架——用中国传统文化的"学"与"思"来理解大模型与强化学习的关系。
大模型 = 学(快思考):"读万卷书",学而不思则罔——读了很多书,但内心是一个偏比较混乱的状态。一拍脑袋、张口就说。
强化学习 = 思(慢思考):"行万里路",思而不学则殆——AlphaGo是典型代表,DeepMind沿着这条路走,但"停在一个问题里面走不出来了"。
王小川的核心判断:这两个技术早晚会合币(合并)。O1就是这个合并的第一步。
王小川坚决反对"O1进一步退两步"或"技术路线转弯"的说法。他的逻辑是:慢思考必须建立在快思考的基础之上——你必须先有大模型的"学",才能在此基础上发展强化学习的"思"。O1是在GPT-4基础上叠加的新范式,是进阶,不是替代。
王小川用经典的DIKW知识金字塔来定位AI发展的阶段。
| DIKW层级 | 含义 | 对应技术 | 代表产品 |
|---|---|---|---|
| Data(数据) | 原始数据 | 数据库/存储 | 传统IT |
| Information(信息) | 帮你获得信息 | 搜索引擎 | Google/百度 |
| Knowledge(知识) | 有知识、有沟通、有快思考 | 大模型/LLM | GPT-4 |
| Wisdom(智慧) | 真正开始有智能 | 大模型 + 强化学习 | O1 |
O1的范式升级"是把原来的模型作为它的组件之一,而不只是用今天的强化学习只服务于大模型——大模型是它的一个组件了"。这意味着大模型从主角变成了组件,被嵌入到一个更大的思考框架中。
王小川给出了观察O1应该关注的核心要点。
王小川指出O1隐藏COT恰恰说明了一个反直觉的事实:这项技术的独有性是有限的。如果公开,竞争对手可以通过蒸馏数据快速逼近。这也暗示了王小川对复刻O1难度的判断——原理不难,工程和数据是瓶颈。
王小川用教小孩的比喻深入浅出地解释了两种学习范式的本质区别。
王小川引用计算理论中的经典不对称:求解一个问题比验证一个问题更难。
强化学习正是利用了这个不对称性:"我并不知道怎么解这个题,但我能验证你解的对不对。"这使得系统能力"得到很大的提升",在同等标注数据难度下"就能解更复杂的题目"。
面对"O1在数学编程很强但语言方面退步"的评价,王小川用"文无第一,武无第二"做了精彩解读。
王小川实际上不认为O1是偏科的:"我也不觉得它是偏才。"他认为理科大幅进步后,大家对文科的关注降低了,产生了"退步"的错觉。他指出听说O1在某些翻译任务上"也还变得更好了"。正确的描述应该是:"文科也不错,理科一下子变成特别强"。
王小川深入解释了为什么大模型必须引入强化学习——这涉及一个根本的认知论问题。
大模型本质是"把全天下最优质的语言做一个压缩",它的思考能力不会超过原始数据。这是一种"数据分布内"的智能。
但真正的智能需要"跳出原来的框架"——探索以前未知的事,这就是"从分布内走向分布外"。
王小川坦承"强化学习本身不代表泛化性"——AlphaGo就做不到泛化。O1之所以有泛化能力,是因为两阶段分离:先训练COT能力(在数学和代码领域),然后COT本身作为一种通用思考方法可以泛化到其他领域。类比GPT-3.5时代:训练代码提升了整个系统的逻辑能力。
王小川透露了百川在强化学习方面一个独特的早期实验——在文科领域而非理科领域做强化学习。
通常强化学习只能在有绝对标准的理科任务上做(数学、代码),文科"写得好不好挺难让机器做校对的"。但百川团队发现了一个例外:唐诗宋词有严格的形式规则——字数、平仄、韵律、对仗,这些规则可以用程序判定,因此可以充当reward model。
这是一个重要发现:强化学习不仅能从环境反馈中学到新东西,还能激活模型中已有但潜藏的能力。在诗词实验中,模型在只被训练了字数、平仄、韵律之后,自发地输出了对仗——说明模型从预训练数据中已经"知道"对仗,但需要强化学习来"激活"这种能力。
王小川坦承百川当时的实验"接近O1的做法"但"没它做得更加完整"——关键差距在于缺少COT。百川的reward model是"不带COT的",直接从输入判断答案的正确性。O1的突破正在于加入了思维链过程。
王小川将医疗定位为百川的战略核心场景——这不仅仅是商业选择,而是基于强化学习方法论的必然推导。
如果访问医生的COT(诊断思考路径),再验证答案对不对,就能使模型"功力大涨"。
从全科和儿科入手,造能用的数字医生
走向专科医生
从智能模型走向生命的数学模型
针对Jim Fan提出的"双Scaling Law"概念,王小川给出了自己的分析。
王小川强调:"训练阶段的能力和推理阶段的能力是成绩的效果"——也就是乘积关系,不是简单叠加。训练能力 x 推理能力 = 总能力。这意味着即使训练时Scaling Law放缓,推理时Scaling Law的爬坡仍能带来指数级提升。
当被问到O1和GPT-4O合并的问题时,王小川给出了一个简洁判断。
王小川认为OpenAI代表的路线图"是一个通用的道路",会逐步把领域拓展开。但他强调:专业领域数据仍会扮演很重要的角色。通用大模型自身积累的数据闭环"不能做到全知全能",还需要结合专业领域知识。
王小川提出了一个对创业方法论的根本性颠覆——从PMF走向TPF。
PMF(Product-Market Fit):发现需求 → 满足需求 → 创造需求。需求驱动。上一代互联网的逻辑。
TPF(Technology-Product Fit):技术已到,需求已存在,供给不足。"我把它造出来,它就有市场。"供给驱动。更强调技术与产品的匹配度。
当被问到"跟医生交互的界面是什么"时,王小川表示形态不重要——可以是APP,可以是医院里的设备,核心是靠自然语言交互。他类比电话号码:你可以拿手机也行,拿耳机也行,放在兜里也行。
王小川提出了一个精巧的场景选择框架——水涨船高 vs 母鸡下蛋。
王小川的场景选择逻辑:(1)假设模型能力特别强以后,什么场景更受益;(2)模型能力一般时,进入门槛也不至于太高;(3)模型越大,场景越受益——不是模型升级后场景就过时了。医疗完美符合这三条:医生永远需要更强的诊断能力,基础模型就能开始做全科,模型越强能做的专科越多。
关于Ilya Sutskever离开OpenAI是否影响强化学习发展,王小川判断"可能已经不会影响了——这个思想已经成熟并走通了"。但他对"新的大的思想突破"持开放态度——"不知道是Ilya之外的其他人是否能稳在顶上"。
王小川表示"最近确实不怎么焦虑"——钱已经到了,方向很清楚了,团队开始有了。最艰难的时刻是"一开始搭团队"。
| 判断 | 具体内容 |
|---|---|
| O1的定位 | 范式升级,不是转弯,不是进一步退两步——"摸到了一条走向慢思考的道路" |
| O1的重要性 | 相当于GPT-3的时刻——"重要性不亚于GPT-3",在GPT-4基础上跑通了新范式 |
| O1的本质 | 从Knowledge层进化到Wisdom层——"真的开始有智能了" |
| O1核心关注 | 语言中轴 + COT + 两阶段泛化能力 |
| 复刻O1的时间 | 初步接近:1-2个月;达到水平:约9个月(vs GPT-4的18个月) |
| 复刻O1的算力 | "可能跟做个GPT-4差不多" |
| 强化学习的泛化 | 强化学习本身不泛化,泛化来自COT——数学代码的COT泛化到其他领域 |
| 训练vs推理Scaling Law | 训练阶段开始放缓,推理阶段处于上升爬坡期,两者是乘积关系 |
| 百川RL实验 | 用唐诗宋词做文科强化学习,发现RL可以激活模型潜藏能力 |
| 百川战略场景 | 医疗(造医生)——从全科/儿科入手,走向专科,最终走向生命数学模型 |
| 方法论转变 | 从PMF(需求驱动)转向TPF(供给驱动/技术-产品匹配) |
| 场景选择标准 | "水涨船高"——模型越大场景越受益,而非"母鸡下蛋" |
| 六小龙存活 | "至少活一家" |
| 字节威胁 | "在字节射程内你是没什么好活的"——必须走出大厂射程 |
| 代码的未来角色 | 从辅助写代码 → 大模型通过写代码解决更多问题的核心能力——"新范式" |
| Ilya离开影响 | 对强化学习"应该影响不大"——思想已成熟并走通 |
| 娱乐方向 | 降低优先级——造虚拟世界"时代还没到" |
| 国内接近GPT-4 | "在接近" |
| O1可见上限 | "可能在未来两三年内这个范式就会跑出结果" |
王小川用"学而不思则罔,思而不学则殆"来对应大模型与强化学习的关系,不仅是传播层面的精妙,更揭示了技术本质:大模型是压缩已有知识(学),强化学习是在环境中探索未知(思)。两者的合并不是转弯,而是"学"的基础上生长出"思"的能力。这个框架预测了O1之后的发展方向——不会回到纯大模型,也不会抛弃大模型,而是在大模型的"快思考"之上持续发展"慢思考"。
这个判断框架清晰地预言了哪些领域会被强化学习优先攻克:凡是有绝对标准、可以判定对错的领域(数学、代码、医疗诊断、棋类),强化学习都能大幅提升能力;凡是"好不好没有统一标准"的领域(文学、艺术、创意),强化学习的介入更慢更难。百川用诗词做实验的巧妙之处正在于:在文科中找到了"武无第二"的形式规则。
王小川点出了大模型的天花板:预训练本质是数据压缩,智能不会超过训练数据的分布边界。而真正的智能需要"跳出框架"——探索训练数据中不存在的解法。强化学习通过环境反馈提供分布外的信号,是突破这个天花板的必要手段。这个判断意味着:无论预训练规模多大,仅靠预训练永远无法达到AGI。
百川的诗词实验发现:训练了字数、平仄、韵律后,模型自发输出了对仗。这意味着大模型中存在大量"潜藏能力"——预训练时学到了但无法主动调用的知识。强化学习不仅能教模型新东西,还能"唤醒"它已有的能力。如果这个效应在更多领域被验证,强化学习的价值可能远超当前估计。
王小川指出了两种截然不同的场景策略:(1)沿途下蛋——每个模型版本做一个场景,蛋越来越多,压力越来越大;(2)水涨船高——选一个模型越强越受益的场景,等着模型进步带来的红利。医疗是"水涨船高"的典型——模型越强,能诊断的疾病越多,准确率越高。广告和客服是"母鸡下蛋"的典型——一个小模型就够了,大模型升级后旧产品就被淹没。
王小川将AI产品分为三类:助手(帮你省时间)、娱乐(帮你杀时间)、顾问(给你提供know-how让你变强大)。他认为前两类是"上一代的逻辑",而且是大厂擅长的。创业公司的机会在"顾问"——这个方向大厂"看不到"或"做不到"(需要深度领域知识)。这与"走出大厂射程"的策略完全一致。
王小川做了一个大胆预言:"未来代码会变成大模型下一步的核心能力"——不是AI帮程序员写代码,而是大模型通过写代码来解决自身的思考问题。从强化学习走向"写代码来解决问题"的新范式,代码运行生成的结果甚至可以和模型融合。如果这个预言成立,代码将从AI的应用场景之一变成AI自身进化的核心机制。
从Noam的消息 + 董事会事件 → 推断出OpenAI在强化学习有突破;从"文无第一武无第二" → 解释O1的偏科现象;从求解与验证的不对称性 → 解释强化学习为何有效。整个访谈展示了王小川将碎片信息串联为逻辑链条的能力——恰恰是他所倡导的"慢思考"在人类智能中的体现。