深度研究 — #75 和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

嘉宾背景：从伯克利到OpenAI
o1的整体评价与预期
AGI路线不是转弯，而是梯子又高了一节
两座金矿：预训练与后训练
强化学习三要素：奖励、探索、题目
RL算法演进：从DQN到PPO
强化学习的Scaling Law
思维链：给AI一张草稿纸
推理能力与幻觉消除
Self-Play的边界与误解
通用模型vs垂类模型
算力成本与推理预算
垂类创业的机会与陷阱
OpenAI内部：闭着眼睛挖矿
OpenAI的组织文化与技术审美
回国创业：不后悔的选择
关键数据汇总

一、嘉宾背景：从伯克利到OpenAI

吴翼，清华大学交叉信息研究院助理教授，编赛科技创始人，研究方向为强化学习。2019年2月至2020年7月在OpenAI全职工作，此前在UC Berkeley读PhD。

进入OpenAI的偶然

一个二选一的巧合

2018年决定回国到交叉信息研究院当老师，回国前想去硅谷工业界待一段时间
当时PhD圈的一选是Google Research或DeepMind，OpenAI在ChatGPT之前并非首选
伯克利那一届六七个去当老师的同学"都去了DeepMind"
因为Google的offer下来太慢，"我就说我不等了"，最终去了OpenAI
事后看来："Google Brain这样的组织可能哪里都能看到，但OpenAI这样的组织其实还是挺罕见的"

伯克利：强化学习的摇篮

2014-2015年

DeepMind发布DQN，伯克利的Peter Abbeel教授拍板："从今天开始，我们要全部转向deep reinforcement learning"。当时Sergey Levine还是Peter的博后，做了一些尝试发现有效果。

2016年

吴翼开始做深度强化学习。第一篇论文Value Iteration Network拿到NeurIPS 2016 Best Paper，是领域里最早讨论强化学习泛化性的工作之一。

2017年

从伯克利开始，最早用强化学习做instruction following（指令遵从）。PPO算法也在同年由OpenAI提出。

吴翼

当时很多人会嘲笑Berkeley，说整个Berkeley这个学校就是个deep reinforcement learning学校。但确实是这样。

方向判断比资源更重要

吴翼强调，无论是伯克利还是OpenAI，最关键的是有像Peter Abbeel、Ilya Sutskever这样的人，在很早的时候就指定了方向并坚定探索。"你作为一个小的公司，学术界也好，还是一个startup来说，你没有那么多的资源，你可能只能bet一两个方向。你bet的对了就对了，错了就错了。"

二、o1的整体评价与预期

吴翼对o1 preview版本的评价是能力提升在预期之内，技术细节在预期之外。

预期之内

很长一段时间就知道OpenAI在做类似的事情（Strawberry、Q*坊间已传很久）
在需要较长逻辑推理的问题上，比之前版本好很多
"慢归慢，但确实是变强的"

预期之外

真的在用户使用端做这么长时间的推理
推理链长度达到几千个token，"比大家想象的还要长"
直接上来就给大家做大规模的推理+搜索
整个推理系统的基建完全不一样

两个核心关注点

第一：真正的能力提升

奥数题、代码题、编程题
PhD级别的科学问题
看它到底有多聪明

第二：产品层面的进步

原来需要写很长prompt才能解决的问题
现在能否用短prompt让AI自己完成
复杂的推理和逻辑问题变得好用
"不光是做数学题代码题的进步"

o1 preview是"GPT-3时刻"还是"ChatGPT时刻"？

吴翼倾向于认为preview版本是个GPT-3时刻——能力上已经往上走了一档，但产品上能否让大家觉得从"不好用"变成"好用"，还需要等完整版本。回顾历史：GPT-3和ChatGPT在基础能力上没有本质差别，ChatGPT的突破是RLHF做得好，让模型变得可用、产品化。

三、AGI路线不是转弯，而是梯子又高了一节

对于"o1是否意味着AGI路线出现转弯"这个问题，吴翼给出了明确否定。

核心论断

不是转弯，是阶段转换

AGI路线上有Pretraining（预训练）和Post-training（后训练）两个阶段。从2017-2018年开始的预训练阶段，经过多年发展，"可以挖的金矿会变得越来越少"。而Post-training发现是一个新的大矿脉——可以做强化学习、探索、搜索、产生合成数据，甚至反补预训练。

吴翼

纯预训练的阶段过去了，然后走到了一个预训练驱动的后训练，然后以强化学习为基础的一个后训练的阶段。这个阶段会让迈向AGI的这个梯子再往上多了几节。

预训练 vs 强化学习的本质区别

预训练 = 相关性

小明吃药生病好了，小红吃药生病好了
推导出小兰吃药生病也会好
但这没有因果性，只有相关性
有可能他们身体好，或者感冒七天自愈

强化学习 = 因果性

我生病了，吃药，好了（正向奖励）
我生病了，不吃药，没好（负向奖励）
正负奖励叠加 = 因果推断
"吃一堑长一智"

长文本是AGI第一步，推理能力是第二步

吴翼同意杨植麟"长文本是实现AGI第一步"的判断。长文本让你能把大量材料放在context上让大模型理解——这是第一步。但光有long context不解决问题，"它要long context加上推理才能带来最终的智能"。强化学习正是实现好的推理能力的关键路径。

四、两座金矿：预训练与后训练

吴翼用"挖矿"的比喻来描述AGI的进程，这也是本集标题"第二座金矿"的由来。

核心比喻

AGI = 挖矿搭梯子

"AGI的过程就是一个挖矿的过程。大家要挖一个材料去把这个梯子搭出来。然后你原来发现一个大金矿——预训练——你就一直在挖。挖着挖着发现好像快挖没了，但是它还有的挖。然后你会发现：这儿又有个新金矿——强化学习——我们再挖一挖。"

两座金矿：预训练与后训练的双因子模型

双曲线增长模型

吴翼高度认同英伟达Jim Fan的观点：模型不仅有训练时的Scaling Law，还有推理时的Scaling Law。两者是乘法关系，不是加法。

乘法效应解释

第一个因子：预训练——有多少数据就有多少智能
第二个因子：强化学习——在同样数据基础上乘上一个系数，通过算力和AI自我探索带来额外提升
两个因子相乘，所以第二个引擎不是独立的，而是放大第一个
"第一个因子可能快到顶了，但第二个因子的矿看起来还很深，没有看到底"

吴翼

就像我19年在OpenAI工作的时候，当时内部就有个讨论，当时还是Dario在做分享——在做GPT-3那个分享——当时有人说这个Scaling Law会不会到顶，因为数据只有那么多。我记得当时Dario是这么说的：他说他确实有可能到顶，但是先让我们去摸一摸天花板。

五、强化学习三要素：奖励、探索、题目

吴翼将强化学习拆解为三个同等重要的部分，缺一不可。

Reward Model 奖励模型

搜索与探索

Prompt 题目/任务

中学生竞赛的类比

三个要素的具体对应

Reward Model = 老师：老师给你反馈，题做错了告诉你不能这么想
Prompt = 合适难度的题：给中学生做小学题没用，做博士题也没用，要在能力边界出题
搜索/探索 = 举一反三：代码没写对，能不能自己再想怎么把题做对

吴翼

强化学习它为什么难？它为什么在过去的这么多年里面没有人真正的去大规模使用它？因为它里面有很多问题必须同时做对才可以有效果。只有一个好的奖励模型也不能保证模型的能力提升。

奖励模型为什么难

P与NP的类比

奖励模型本质上是NP类问题——给一个答案，判断它对不对
理论计算机科学认为：NP比P难一点，但没有难那么多
意味着：奖励模型的难度并没有比训练一个解题模型显著简单
"大家不能指望说reward model它就很简单"
很多问题可能没有universal reward model——推理问题可能有，但人类偏好不行

Reward Model必须与模型能力耦合进化

吴翼的核心观点：reward model不可能由一个独立小组"闭着眼睛"去训练。它的进步必须随着模型本身推理能力的进步——更好的模型产生更高质量的数据，反过来训练更好的reward model，再促进模型进一步提升。"它一定是耦合的。"

六、RL算法演进：从DQN到PPO

吴翼梳理了强化学习关键算法的演进脉络及其在大模型时代的适用性。

RL算法演进：DQN、AlphaGo到PPO

算法	类型	优势	劣势	适用场景
DQN	Offline RL	数学性质好、算力需求小	优化不直接，训练价值网络而非策略；scaling有问题	学术界、有限资源
DPO	Offline RL	简洁高效	同DQN，在有限资源下的折衷	对齐训练（RLHF替代）
PPO	Online RL	直接训练策略网络，效果最好	需要大量算力做足够探索，算力不够时无效果	OpenAI全系列项目

吴翼

PPO当且仅当你有足够多的算力的时候，PPO才会有用。如果你的算力不够的时候，你直接用PPO，它是没有效果的。这是很遗憾的一件事情。但是当你有足够的算力的时候，PPO的效果会比DQN好很多。

算法选择的本质：资源决定路线

学术界（资源少）：主流使用DQN类Offline RL算法，如DPO
工业界（有10-100倍算力）：追求最极致效果，用PPO
OpenAI的DOTA项目、DeepMind的AlphaStar最终都用了PPO或类似算法
"当你追求最极致的效果的时候，你就需要去用一个效果最好的算法。但这个效果最好的算法它不是效率最高的。"

七、强化学习的Scaling Law

强化学习是否符合Scaling Law是一个核心问题。吴翼的判断是：很有希望，但还没有人真正走通。

已知的事实

AlphaGo需要很大的算力，算力越大效果越好
DOTA项目、AlphaStar也都需要非常多的算力才能带来能力提升
大模型阶段有足够多的算力给到强化学习，确实可以带来模型的提升

不确定的部分

Scaling的复杂性

算力乘以10倍，能否带来10倍能力提升？"其实不太清楚"
Scaling到底是哪一块在起作用？算力？更好的reward数据？更好的prompt数据？"很耦合"
"甚至有可能有一块没有scale好，它整个scaling law都会break"
三个部分（奖励、探索、题目）都需要有各自的scaling law，才能让整体范式有scaling law

强化学习比预训练更复杂，但不是更难

吴翼拒绝用"难"来形容：预训练是暴力美学（但也有训练失败、训练挂掉的技术难点），强化学习也是暴力美学，但它有三个模块，每个模块都要先摸清方向，然后组装在一起。"当你知道每个模块的方向是什么样的时候，组装不会是个大的问题。但是你得先知道它是什么。"遗憾的是，"大家好像普遍不愿意说自己是怎么做的"。

八、思维链：给AI一张草稿纸

技术概念

思维链 = 草稿纸

做大整数加法：不用思维链相当于心算，用思维链相当于给你一张草稿纸。有了草稿纸，你只要知道怎么列竖式、怎么做个位数加法，就可以完成任意整数的加减法。

o1的推理方式

不是简单的搜索

o1在推理时用10秒钟、几千个token，给出答案
肯定有回溯过程——想错了会重新想
不同于围棋每一步做搜索——思维链不知道在什么时候应该做搜索
100步思维链，每步都分叉搜索的话，10秒钟搜不完
需要一个很聪明的方式去选择在哪里做搜索
不是经典的蒙特卡罗树搜索，也不是A*能直接套用的

吴翼

传统的所有人工智能系统，大家都要求这个系统一下子输出正确答案。但其实不一定。你是允许他说错几次的。人来说他可以说"我不确定，我再想想"。所以OpenAI这么做其实是他给了模型一个缓冲——给了你10秒钟的缓冲——让你不确定的时候去看点别的答案。

"传统AI的致命缺陷：不允许修改"

吴翼指出一个关键问题：人类经常算着算着发现算错了，回去改改就对了。但传统AI的思维链输出模式不允许你改。你没写到最后一步时不能意识到之前一步写错了。很多时候模型其实可以改对，"但你根本没有给它改的机会"。o1的突破之一就是允许推理时去探索、回溯和修正。

九、推理能力与幻觉消除

吴翼认为推理能力的提高肯定能进一步消除模型的幻觉，原因有二。

原因一：因果推理取代相关性

幻觉的根本来源

幻觉产生是因为模型不知道因果性，只知道相关性
模型不知道自己到底知不知道这个问题的答案
例：训练数据中"巴西"经常出现在足球问题的回答中，问世界杯冠军就说巴西——这就是幻觉
强化学习通过探索和反事实推理，可能消除这种相关性过拟合

原因二：推理时允许探索和修正

多步推理中很多问题有大量中间步骤
即使给了思维链，有时机器自己做的思维链还不够
允许在推理时做搜索、探索、扩展，能更大概率触发正确答案
传统范式是"我不管你知不知道，马上给我把答案写出来"——这本身就是幻觉的一个原因

安全性也是推理问题

OpenAI提出了新的安全培训方法，利用推理能力使模型遵循安全指南。吴翼认为这很自然："这个问题你该说不知道"本身也是一种推理。当模型推理能力提升，它也应该能更好地判断什么时候说"I don't know"。

十、Self-Play的边界与误解

吴翼澄清了Self-Play（自我博弈）这个被广泛讨论但经常被误用的概念。

Self-Play适用场景

问题有对称结构——对面和你一样
围棋、游戏等是典型
你提升一点，对手也提升一点
永远在合理难度上自我提升
核心意义：自动调节到能力边界出题

Self-Play的局限

很多问题不具备对称性
数学题：出题人和做题人并不对称
"一个做题好的人并不代表他能出更好的题"
从AlphaGo（2016年）到现在这么长时间，如果简单，早该有人做到
o1推理时的10秒钟搜索"显然不是self-play"

吴翼

Self-play是一个如果能够应用会是一个非常好的范式，但是它不见得能够应用在每个场景上。OpenAI应该做了非常多的算法的创新。大模型的能力提升并不能够简单直接地套用self-play。

人类反馈不可或缺，但只需1%

吴翼不认同"AI完全靠自我迭代进化"的观点。人类也不可能通过纯粹的自我反思来实现认知迭代——"要从群众中来到群众中去，要吃点亏你才能进步"。OpenAI的post-training肯定有人类反馈存在，只是形式不同。关键是：让人类提供1%的反馈，剩下99%让AI自己进化。"但是我觉得1%是非常重要的。"

十一、通用模型vs垂类模型

o1在数学和编程方面表现出色，但吴翼不认为这意味着未来会走向特定领域的垂类模型。

为什么最终一定是大统一模型

理论基础：高维空间的正交性

当模型参数量非常大时，把很多垂类模型合并起来是容易的
在高维空间中，很多垂类模型其实是正交的
正交的参数很容易合并
"你不希望这个模型是一个五角形，最好是个圆"

关键前提：方法论要通用

可以反补通用能力

OpenAI用通用能力+专用领域训练
训练方法是通的
更好的垂类模型 = 更好的综合模型

不能反补通用能力

Google的Alpha Geometry
用非常定制于数学的一套方法
框架不可能反补大模型基础能力
路线选择导致的天然局限

十二、算力成本与推理预算

推理能力提高会导致算力成本大幅增加吗？

吴翼的回答是"会"。

成本增加的逻辑

传统预训练：给一道题，马上输出答案
强化学习推理：允许模型说"不对，我改改"——探索本身增加了每个数据点的算力需求
推理时从"直接输出"变成允许修改10秒20秒
"但这也是个好事"

AlphaGo的启示：Trade-off是可能的

不同推理预算的效果

AlphaGo比赛时：每步有固定搜索时间，最强
DeepMind实验：不允许推理时搜索，直接出答案——也有职业棋手水平，只是没那么高
类推到大模型：可以设置推理预算——搜3秒、5秒、10秒，价格不一样
强化学习产生的数据可以反补基础模型，让基础模型自身推理能力提升

o1 preview的遗憾：还不能设推理预算

当前o1 preview不能设置推理budget（搜索时长）。吴翼认为这本身就很难做——围棋你大概知道搜多少时间能搜多少步，但大模型的每一步推理长度不确定。"英伟达又能卖一波卡"是他对o1行业影响最直接的判断。

十三、垂类创业的机会与陷阱

对于"强化学习新范式是否为垂类模型创业打开窗口"这个问题，吴翼的判断是可以弯道超车，但不能绕道超车。

弯道超车 vs 绕道超车

弯道超车（可能）

同样算力，用更好的RL框架
数据比你少，但算力+方法论优势
可以做到和大厂一样好甚至更好

绕道超车（不可能）

基座模型太差就不行
RL是乘法的第二个因子
第一项（预训练）太低则无效

时间尺度判断

垂类模型机会的时间窗口

时间尺度	垂类模型机会	原因
1-2年内	有限	还是靠领域知识+专有数据比通用模型好一点；RL技术本身还没降到普及
4-5年后	大量涌现	技术普及、算力和数据成本变低；类似GPT-3级别模型在2024年已不困难
Coding领域	最先突破	强推理+大商业价值，很多资源会砸在这里

吴翼

给大家的建议：反正留在牌桌上。因为新的范式到普世肯定是需要时间的，没有这么快。

编赛科技的实践

团队算法人员只有五六个人，但通过强化学习可以达到洗数据+SFT团队（十个人）类似的效果
曾为金山WPS做copilot，需要适配金山电子表格功能，用垂类数据+训练确实比通用模型好
2C和2B产品都在探索，做了很多娱乐类和工具类的探索

十四、OpenAI内部：闭着眼睛挖矿

吴翼基于2019-2020年在OpenAI的亲历，还原了这家公司在ChatGPT之前的真实状态。

组织结构

分散探索，无协同

AGI需要有决策 → 做强化学习
应该有交互 → 做多智能体（吴翼所在团队，做了Hide and Seek）
应该有视觉 → 做视觉
应该有语言 → 做语言
还有安全性 → Foresight Safety
"基本上会是top-down的一个但是又比较分散的一个组织"
"没有协同。每个组分开做。"

关键时间节点

2019年

整个公司收敛到大模型这条路线。GPT-3在内部已经可以看到，"你就会感到这个模型跟之前是有很大的质的差别"。内部画Scaling Law曲线，发现没有到顶。

2021年

Robotics Team被reorg，OpenAI不再做机器人，这些人去做API团队。从此大量精力投入API维护。这也是OpenAI人数增长的大拐点——之前100人以下，之后人数激增。

<100

2021年前OpenAI员工数

几千万

单篇博客可能的花费（美元）

GPT-3的诞生：组织中的涌现

吴翼

GPT-3也不是大家all in去做的，也是有一些人从做了GPT-2，然后大家发现这可以再花点人去做，然后发现GPT-3真的可以。是属于它的其中的一个团队做的，可能一开始都是几个人做的，后来慢慢变成一个团队去做。这也是一种涌现——在组织中的涌现。

十五、OpenAI的组织文化与技术审美

三家公司的对比

公司	风格	特点
字节跳动 AI Lab	业务导向	大部分公司的Lab都是这样，成熟模式
Facebook AI Research	纯学术	像微软亚洲研究院，纯发paper，好的researcher做前沿论文
OpenAI	非常奇葩	有点像产品驱动但又没有产品；集中力量办大事的科研

OpenAI的"博客KPI"

用博客关注度考核研究

RL团队做了DOTA——花了一两年，发了两篇博客
机器人团队做了拧魔方——发了三四篇博客
多智能体团队做了Hide and Seek（吴翼参与）——做了一年多，发了一篇博客
"博客可能价值几千万美金"
不是为数据，本质是branding——就像AlphaGo挑战围棋

技术审美：Top-down的Scaling Law信仰

吴翼

它的很多技术审美是top-down的。笃定Scaling Law，每个项目都是Scaling Law。但是定了这个审美之后你怎么做随便你。

并非先知：同时代的失败信仰

Vicarious：笃信符号推理，"我就是要去做纯逻辑推理"——最后被DeepMind收购
Semantic Machines：Berkeley/Stanford教授创办，专门做对话机器人，ChatGPT之前最好的Chatbot——最后被微软收购
这些公司也存在，也有信仰，只是最后最成功的发现是Ilya的那条路
"大家不能后验地来看。因为OpenAI其实同时期都有很多别的信仰的公司。"

OpenAI的工作体验

在ChatGPT之前，OpenAI基本上是个研究lab。没人管上不上班（尤其疫情期间）。"你一看就有卡，你就跑实验了。"工作是自驱的：有这么好的平台、比较自由、GPU随时可用——"一个真的喜欢这个工作的人，他是会想工作的，因为工作是挺快乐的。"

十六、回国创业：不后悔的选择

吴翼在2018年就决定回国，甚至拒绝了美国的offer。

吴翼

如果我留在OpenAI，我可能现在就在做Strawberry。我可以骄傲地在X上说："我们终于可以announce我们做了一年两年的工作。"但是我回来之后，我们可能花了一两年的时间重新搭了一套大规模强化系统，然后再去做这样的尝试。资源会有限，能跟你做有效讨论的人也比较少。这是客观的。

Jim Fan的那句话

吴翼曾问英伟达的Jim Fan考不考虑回来。Jim的回答是："他说他喜欢NVIDIA这个环境，是因为他在美国可以做state of the art research。"吴翼坦承："他说到这我就没什么话讲了。因为确实你想做最一流的工作，你可能必须在美国做。"

两种选择的本质

留在美国

做最前沿的研究（state of the art）
最好的资源、最好的同行
但"Google Brain这样的组织哪里都能看到"

回到中国

做从零到一的自己的事情
对中国人来说稀有度更高，机会更多
商业上比预期难很多——"没有想到这么难"
"一个人想做自己的事情，肯定是在他的祖国做"

十七、关键数据汇总

判断	具体内容
o1 preview的定位	"GPT-3时刻"——能力提升了一档，但产品化突破还需等完整版本
o1推理链长度	几千个token，比大家想象的还要长
强化学习三要素	Reward Model + 搜索/探索 + Prompt，三者同等重要、必须同时做对
PPO vs DQN	PPO效果最好但需要10-100倍算力；DQN适合有限资源
预训练与RL的关系	乘法关系，不是加法——RL是第二个因子
RL的Scaling Law	"很有希望，但还没有人真正走通"
人类反馈占比	人类提供1%的反馈，剩下99%让AI自己进化
垂类模型突破时间	1-2年有限改善；4-5年大量涌现
最先突破的垂类领域	Coding——强推理+大商业价值
能否弯道超车	可以弯道超车（更好的RL框架），不能绕道超车（基座模型不可或缺）
OpenAI 2021年前人数	不到100人
OpenAI早期考核方式	博客关注量（价值几千万美元的博客）
OpenAI技术审美	Top-down的Scaling Law信仰，在此框架下自由探索
GPT-3出现	组织中的涌现——几个人做GPT-2，发现可行后扩展为团队做GPT-3
吴翼在OpenAI的项目	多智能体团队，做Hide and Seek，一年多产出一篇博客
编赛科技算法团队	五六个人，通过RL可达到十人洗数据团队类似效果
同时代失败的AGI信仰	Vicarious（符号推理→被DeepMind收购）、Semantic Machines（对话系统→被微软收购）
吴翼的NeurIPS成就	2016年Best Paper（Value Iteration Network）
Q*名字的猜测	Q（DQN强化学习）+ （A 搜索算法）= 强化学习+搜索
Strawberry名字由来	"How many R's in strawberry" 这个梗——大模型老说错

启示与延伸思考

1. o1的本质：不是路线转弯，而是发现了第二座金矿

吴翼最核心的论断是：o1代表的不是AGI路线的转弯，而是阶段性演进。预训练（第一座金矿）可能正在接近天花板，但后训练+强化学习（第二座金矿）的矿脉"看起来还很深，没有看到底"。两者是乘法关系而非加法——第二个因子放大第一个因子的效果。这意味着即使预训练的边际收益递减，整体的Scaling Law仍有巨大空间。

2. 强化学习的门槛在于"三件事必须同时做对"

奖励模型、搜索/探索、题目——三个要素缺一不可，且每个的难度都不低（奖励模型的难度接近训练模型本身）。这解释了为什么RL在过去多年没有被大规模使用：不是因为大家不知道它好，而是因为只做对一个部分没有任何效果。这也意味着RL的壁垒很高——只有同时具备算法认知、充足算力和高质量数据的团队才能突破。

3. PPO vs DQN揭示了一个残酷的资源鸿沟

效果最好的算法（PPO）需要最多的算力，"当且仅当你有足够多的算力时PPO才会有用"。这造成了一个学术界与工业界的分裂：学术界因资源限制只能用Offline RL（DQN/DPO），工业界追求极致效果用PPO。OpenAI的所有重要项目——DOTA、ChatGPT对齐、o1——都用的是PPO。这意味着RL赛道天然有利于大公司。

4. "允许AI改错"是一个被低估的范式转换

传统AI要求模型一次性输出正确答案，不允许修改。但人类的推理过程充满了"算着算着发现错了，回去改改"的过程。o1给了模型10-20秒的"缓冲时间"去探索、回溯、修正。吴翼认为"很多时候模型可以改对，但你根本没给它改的机会"——这是幻觉的重要来源之一。这个认知转变可能比任何具体算法都更加根本。

5. Self-Play被严重过誉了

Self-Play只适用于具有对称结构的问题（围棋、游戏），而大多数现实问题不具备这种对称性。"一个做题好的人并不代表他能出更好的题。"从2016年AlphaGo至今近十年，如果Self-Play能简单应用到大模型，早该有人做到了。o1的推理过程"显然不是self-play"，而是某种非常聪明的搜索方式——具体是什么，外界不知道。

6. 垂类创业的真实机会窗口在4-5年后

吴翼给出了一个冷静的时间判断：1-2年内垂类模型只能靠"领域知识+专有数据"比通用模型好一点，不会有质变。4-5年后随着RL技术普及和成本下降，才会出现大量质变级别的垂类模型。短期内最有价值的垂类方向是Coding——因为它既有强推理属性又有大商业价值。他给创业者的建议简洁而实际："留在牌桌上。"

7. OpenAI的成功是"闭着眼睛挖矿"的涌现，不是精密规划

2019-2020年的OpenAI并没有精密的协同——"每个组分开做，最后只是很随机的，大模型这个东西商业上成立了。"GPT-3本身也是组织中的涌现：几个人做GPT-2，发现可行，扩展为团队做GPT-3。吴翼特别强调不能后验地看待这个过程：同时代有Vicarious（符号推理）、Semantic Machines（对话系统）等公司，各有各的信仰，只是碰巧Ilya的信仰是对的。

解读o1：吹响了开挖第二座金矿的号角

目录