深度研究 — #88 和吴翼技术解读<a href="https://openai.com" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">OpenAI</a> Operator：推理从抽象世界走向物理世界的开端

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

Operator：意料之中与意料之外
AGI路线图中的坐标定位
O1/O3的后训练进展与泛化
Operator的三大核心技术要点
CUA：闭环控制系统的本质
OpenAI的L1-L5分级体系
WebAgent：从2016年的失败到2025年的成功
Agent之年的技术成熟度
智能提升 vs 产品迭代的九十度关系
数据飞轮的AI时代变异
多Agent交互与未来生态
国内团队复刻Operator的路径
Agent的商业价值：花钱买时间
从抽象推理到物理世界的信号
学术界的定位与非共识机会
关键数据与判断汇总

一、Operator：意料之中与意料之外

2025年1月24日凌晨，OpenAI发布了首个智能体产品Operator，打响了全球智能体竞赛的第一枪。前OpenAI研究员、清华大学交叉信息研究院助理教授吴翼给出了"意料之中，但真正看到时还是挺震撼"的评价。

吴翼

你知道OpenAI今年一定会去做多模态的智能体，一定会去做这种我们叫GUI agent或者图形界面的智能体。但他真的放出来的时候，你去仔细看他的这些行为，其实还是觉得真的很厉害。

震撼点：类人行为的涌现

AI会主动把弹出的广告关掉——一个极其细节但极其人性化的操作
AI在计算退款时，先在浏览器上尝试计算，失败几次后主动打开计算器去按
点击网页失败后，会主动后退重试——回溯发生在动作层面而非思维链
这些行为"好像人也会这么去做"，且通过强化学习实现了规模化和通用化

类人行为的技术根源

吴翼指出，这些拟人行为并非单纯模仿，而是基座模型 + 人类演示数据 + 强化学习三者协同的产物。OpenAI准备了相当一部分人类操作的演示数据来指引模型的行为模式，再通过强化学习让模型"涌现"出自我探索、自我修正的能力。关键在于：数据量不需要像预训练那么大，但数据本身和任务的质量至关重要。

二、AGI路线图中的坐标定位

吴翼将Operator定位为一种"通用型的变化"，与O1/O3代表的"聚焦深度推理"形成互补。

O1/O3路线（纵轴：深度）

聚焦问题上思考更深
中间没有环境交互
没有多模态输入
思维链很长，有大量回溯
开环系统：指令 -> 思考 -> 答案
擅长科学计算、数学、Coding

Operator路线（横轴：广度）

通用能力方向拓展
有环境交互，形成闭环控制
原生多模态（视觉+语言）
思维链相对短，回溯发生在动作上
闭环系统：观测 -> 动作 -> 新观测 -> 新动作
擅长各种网页/软件操作

核心判断

Operator是"多模态世界里的O1"

吴翼倾向于认为Operator不是O3那么极致的模型，而是"类似于O2，一个多模态闭环的O1，一个agent O1"。它的思维链不如O3长，纯逻辑推理不如O3强，但它在广度上往宽里走了。这意味着它还有很大的提升空间——更好的思维链、更好的多模态理解、更好的泛化能力都会带来质的飞跃。

AI能力坐标系：深度 vs 广度

为什么是独立产品入口

两个原因

模型层面：Operator明显是和O3不一样的基座模型——不同的多模态数据、不同的agent潜力激发方式、不同的强化学习训练。两个模型的性质不同。
产品层面：用户已经习惯了ChatGPT的交互方式，一个完全不同的用法更适合作为独立产品。这也是一种过渡性的产品形态——未来两个强模型"肯定是可以融合的"。

三、O1/O3的后训练进展与泛化

距离上期节目（EP.75解读O1）过去四个月，吴翼对后训练路线的进展给出了更新评估。

Scaling Law：符合预期甚至超预期

吴翼

首先Scaling Law这件事情，我觉得它是符合我的预期的，甚至我会觉得因为各种原因，OpenAI还没有把它最好的东西拿出来。跟一些朋友聊，应该比较肯定的是OpenAI内部还有更好的模型。

泛化性：Operator是明显的例子

O1的泛化 vs Operator的泛化

O1/O3的泛化"没有做的特别好"——但吴翼认为这是OpenAI"水下的东西"，内部已经有一些效果
Operator天然需要泛化——因为它要点各种各样的网页，从第一天开始就必须有泛化能力，否则无法操作
O1/O3可以一开始先做得窄，再慢慢解决泛化；Operator则被任务本身强制要求泛化
多模态输入（有了"眼睛"）天然带来更好的泛化能力

O1→O3→O4

智力水平持续刷高

30+

Operator在OSWorld的初始分数

70-80

预测年底该榜单目标

四、Operator的三大核心技术要点

吴翼为Operator的技术架构画了三个重点，与O1的技术要点一脉相承：

技术三要素

基座模型 + 高质量数据 + 强化学习系统

三件事情加起来，得到一个Operator级别的模型。每一件都不可或缺，且在agent场景下各有特殊挑战。

要素	要求	Agent场景的特殊挑战
好的基座模型	原生多模态（视觉+语言+语音），号称基于GPT-4o系列	多模态基座模型的质量直接决定上限；DeepSeek等report也证明了基座模型的关键性
高质量数据与任务	人类操作演示数据，关闭广告、后退重试等拟人行为的种子数据	数据量不需要预训练级别，但质量极其重要；行为模式与基座模型差异大，需要专门准备
强化学习训练系统	大规模、高效率、支持agent的RL系统	需要交互环境：模型吐几百个token后要在屏幕上点一下，需要电脑模拟器在等着被点；训练系统复杂度远超O1/O3（O1只需模型往外吐token）

吴翼

原来如果你是O1、O3做数学题的话，中间是没有交互的，你自己只要让个模型往外吐token就可以了。但是现在它实际上吐了几百个token之后，还要去屏幕上点一下，那你就需要有一个电脑在那等着这个AI去点，然后给它做模拟，做完了模拟仿真之后再让AI吐。

Reward Model的复杂性

O1/O3的奖励信号相对清晰——数学题对就是对、错就是错。但Operator需要一个更复杂的reward model：什么算"成功点击了网页"？什么算"完成了任务"？这种复杂的奖励设计反而让模型从第一天就需要泛化能力，成为一种被迫的优势。

五、CUA：闭环控制系统的本质

OpenAI将Operator背后的模型命名为CUA（Computer Using Agent）。吴翼指出，这个概念最早由Anthropic在Claude Sonnet中提出。

传统大模型（开环系统）

给一个指令 -> 直接输出
中间不要任何反馈
Context是固定的
单步动作
本质是Open Loop System

CUA模型（闭环系统）

指令 -> 输出token -> 主动调用交互 -> 接收反馈 -> 再思考
模型会expect下一个反馈
Context不断发生变化
连续多轮交互
本质是Close Loop System

概念不新，但实现方式革命性

两代Agent的本质区别

第一代（workflow agent）：用agent framework或prompting工程，把一个不为此任务专门训练的开环基座模型，"让它看起来可以做这样的任务"
第二代（CUA/Operator）：专门为agent任务做训练——经过好的基座模型+强化学习定制化训练，效果远好于第一代，"也会更智能"

吴翼

用一个通用的、不为这件事情定制的模型去做一些简单的prompt SFT，和你真的把一个模型通过完整的强化学习训练把它打磨出来，这个差别会非常非常大。

动作空间的简洁性

Operator的动作本质上很简单——键盘和鼠标，就是点击和输入。它的输出格式是结构化的：先thinking（想一段），再action（点或type）。这与O1/O3的特殊token标记思维链是同一逻辑。动作空间有限，格式容易定义，真正的难点在于"在给定格式下通过强化学习做任务探索"。

六、OpenAI的L1-L5分级体系

OpenAI曾发布通往AGI的五级分级体系。吴翼对每一级进行了技术解读，并指出了级间的关键跃迁。

级别	名称	核心能力	技术本质
L1	聊天机器人	Reactive反应	你说一句，我说一句
L2	推理者	深度思考	你说一句，我想十秒再说一句（有思维过程）
L3	智能体	环境交互	人+机器+外部世界，闭环交互
L4	创新者	超越指令	不是对错，而是好坏——超出已有知识体系
L5	组织	自发协作	多个智能体形成自发组织

L1-L5：人类参与度递减，自主性递增

关键跃迁分析

L1→L2→L3：渐进式，Recipe可见

L1可能是运行链（Chain of Thought）
L2→L3是有了强化学习的Recipe后，加上多模态和环境交互
"好像看得到"——技术路径相对清晰

L3→L4：特别大的改变

L1-L3本质都是instruction following/execution——给指令，完成任务，可以verify
L4要求创新——只能给方向性指导，不是对错而是好坏，需要"超越原来知识体系的好"
类比：博士生写论文——导师不能说对错，只能说方向
"可能不止两三年就能做成"

L4 vs L5：不确定谁先到

L5可能以低级形态先出现——每个人都有几个operator在帮忙干活时，会被动形成组织
真正的L5需要自发组织，那就需要创造力——"那真的就归机掌握地球了"
吴翼认为"很有可能是五会以一种比较低级的形态先出现"

七、WebAgent：从2016年的失败到2025年的成功

吴翼分享了一个鲜为人知的OpenAI内部历史——OpenAI成立后干的第一个大项目就是WebAgent，而且失败了。

2016年 — OpenAI的第一个大项目

目标：用强化学习训练一个通用的视觉智能体在网页上操作。团队搭建了让AI能点击互联网的训练环境，投入了大量工程人力。

失败原因 — 缺失的Recipe

只有强化学习，没有基座模型；没有人去标注数据；甚至没有Transformer。用了一个大的LSTM（叫comnet）去点网页，纯靠强化学习——失败。

后果 — 裁员20-30人

因为搭训练环境需要大量工程人员，项目失败后只能裁掉。"当时还网上还有人讨伐OpenAI说裁人。"

2025年1月 — 十年后做成

从2016年到2025年，九年磨一剑。当年的missing recipe就是基座模型——"如果没有好的基座模型，光靠强化学习是不行的。但是光靠好的基座模型也不太行，还要加强化学习。两块加起来。"

Day 1的初心

OpenAI在L1-L5分级中，L3（Agent）被排在中间位置。但从历史看，OpenAI在Day 1想做的就是L3。Agent是最早的理想，L1（聊天机器人）反而是后来GPT时代才明确的路径。16年那个强化学习最鼎盛的时代，大家想的是"强化学习能做什么"，于是做了WebAgent。L1-L5分级是"post-GPT那个时代的分级"，最早没想这么清楚。

八、Agent之年的技术成熟度

吴翼明确同意"2025年是agent之年"的判断，给出了清晰的技术成熟度分析。

为什么技术到了

逻辑链：单模态 → 多模态的自然延伸

GPT-4o：基座模型越来越好，到了能激发潜力的状态
O1/O3（2024年）：证明了"好的基座模型 + 强化学习 = 巨大潜力"
自然推理：纯文本模型 + RL = O1/O3，那多模态模型 + RL = ？
最直接的使用方式：多模态模型最自然的用户场景就是Agent/GUI Agent
国内团队在2024年追赶上了强化学习——大家都有了RL的技术基建

吴翼

原来我们是纯文本的模型，纯文本的模型加上强化学习，我们看到了O1、看到了O3。那自然往后一步一步想的是，那我多模态的模型呢？多模态的模型自然它最直接的用户的使用方式就是这种agent。

看到突破 vs 商业化变革

2025年能看到的

多模态推理的能力突破
从开环到闭环的质变
大量定制化agent模型
分数被大幅度提高
技术拐点已到

还需要时间的

商业化变革——"还需要一点时间"
可靠性——大部分人愿意让agent做80%工作
Agent生态系统——"先得有一个大部分人愿意花80%时间让agent做活"
多agent交互——短时间不会出现

"太共识"的挑战

吴翼指出2025年"坏的事情"是：拐点太共识了。大家都知道要做多模态、做reasoning、做agent，"所以它太共识了，太共识的时候你希望有一个东西大家突然没有想到长出来，我觉得是挺难的"。共识意味着巨头的主战场——"大家都开着坦克往前跑"。学术界和小公司应该"走乡间小道"，想想26年做什么。

九、智能提升 vs 产品迭代的九十度关系

吴翼提出了一个极具洞察力的判断：智能提升和产品迭代是九十度的关系，而非互相驱动。

ChatBot不能提升智能

吴翼

我非常同意广密说的那个话，就是chatbot这个东西并不能帮助你提升智能。原因特别简单，我们闲聊有啥智能？我们这种对话的形式大部分它by default就不会出现深思熟虑的过程。

智能提升的正确路径

吴翼的核心观点：智能应稍微提前于产品

不是通过产品形态来提升智能——"如果希望通过产品来做智能的提升，我觉得是不对的"
而是先有好的智能，然后产品跟上——"你有更好的智能之后，你就会产生新的产品"
OpenAI内部"很多时候去做智能提升的训练是不用用户数据的"
用户提供的核心价值不是数据，是钱——让OpenAI以此为杠杆获得更多资源投入研究

OpenAI的内部组织架构印证

三层分离

核心研究部门（人挺少的）：往前走，做最好的预训练和RL——"不太需要考虑产品的问题"
Post-training团队：更偏产品的训练、对齐
产品团队：做交付

研究团队专注"怎么让模型做最难的问题"，真正的用户数据不在他们那里。这是一种"挺割裂但有效"的状态。

Operator的例外

吴翼认为Operator在"用户数据价值"方面优于ChatBot：因为用Operator的人通常"带着目的"——算税、定复杂行程——这些是"带着复杂认知的任务指令"和"是否完成的评判信号"，非常适合强化学习训练。"强化学习找到一个难的题，它需要的数据量很少。"

十、数据飞轮的AI时代变异

吴翼基于自身在推荐系统的工作经验，对"AI时代的数据飞轮"给出了重要修正。

AI大模型的数据飞轮（半自动闭环）

数据是护城河，但不是飞轮
大部分用户数据是噪音
需要聪明的研究员花大量时间找出有用部分
不能撒手——需要人不停介入清洗数据

吴翼

AI说，我有护城河，我有很多很多的数据。但是可能这个数据中间大部分都是噪音。你需要很聪明的研究员和团队花很多时间去找出这个数据里面真正有用的部分。所以它不是一个自动飞轮。

"半自动闭环"的本质

AI产品的数据闭环依然存在——更好的数据累积可以帮你知道模型缺陷在哪里，可以和用户沟通了解需求。但这个反馈不能自动变成算法accuracy提高两个点——"你可能还是需要把这个信息过到一个researcher的脑子里，它再去操作一下。"这与推荐系统"用户越用越好"的自动飞轮有根本区别。

十一、多Agent交互与未来生态

短期：不会出现多Agent交互

吴翼的判断及理由

一个足够通用的大模型可以自己完成所有事情——O1/O3已经证明了
只要有足够长的context、足够强的推理和记忆能力，一个模型就够了
大部分人机交互界面还是为人设计的图形化界面
预计未来一两年还是单智能体状态

中期：被动触发的多Agent

两三年后可能出现的场景

当你的工作80%的query是agent帮你发出的——常用网站需要适配
对面网站上也可以放一个operator——被动触发多agent交互
可能出现"付费打开agent入口"的商业模式——"你帮我打开一个agent入口，以后我的agent就可以直接调"
GUI Agent会是中间态而非最终形态——"通用但相对来说会低效一点"

交互模式的根本变化

吴翼

现在其实AI还是一种人在适应AI的过程。有人说我觉得O1不好用，但后来发现是我们使用O1的方式错了。原来习惯ChatGPT，跟你说一句话也不说全。现在O1不行，你把指令得说全了，它想了20分钟把活干了。

吴翼提出了两个深层变化的可能：

个性化AI：Agent跟你交互次数变多后，能不能比较懂你？知道你经常买机票去哪里，用你的会员号——不需要每次说那么详细
界面重构：当每个人都习惯使用AI后，所有软件的界面会不会"留两扇门——一扇给AI，一扇给人"

十二、国内团队复刻Operator的路径

吴翼

这件事情并没有什么secret，并没有那么神秘。因为其实很多人放出来之后都是"啊就是一种，我知道你一定会放的，终于你放出来了"。

路径清晰但差距明确

国内现状

很多团队用开源多模态模型 + SFT/微调/prompting，能做出类似效果
但质量与OpenAI/Anthropic有比较大的差别
差别在于：通用模型 + 简单prompt SFT vs 定制化模型 + 完整强化学习训练
状态是"half way"——路线清楚，基建已在，很多团队应该在路上

比追ChatGPT和Sora容易

乐观因素

路线清楚：好的基座模型 + 数据 + 强化学习训练系统
基建已有：多模态模型和RL能力国内都在积累
不像追ChatGPT或Sora时那么远

风险因素

"你不知道OpenAI水下有多少东西"——当它放出来一个东西时，说明已经被打磨得不错了
OpenAI的习惯是"真的放出来大家用的，一般是这个东西已经在他们公司打磨很好了"
OSWorld才30多分"这肯定不是OpenAI的风格"——水下一定有更强的版本

创业公司的垂类机会

吴翼认为没有基座模型的创业公司也可以做agent。原因是：OpenAI的模型还无法覆盖所有长尾分布——"世界上的软件和网站那么多，它就算99%了，1%的网站依然是巨量的"。美国已有十多家垂类agent公司（客服、物流、报税等），本质上是2B服务。但要在"OpenAI的大规模强化学习魔爪还没有摁到这个领域"之前建立优势。

十三、Agent的商业价值：花钱买时间

吴翼对Agent的商业价值给出了极其清晰的定义：人参与得越少 = 扩展了人的时间 = 有价值。

商业逻辑

时间乘数效应

每个人的时间是有限的。如果有三个可靠的AI agent，人的时间"可能乘以二"——不是精确的乘三，但一些原本大脑无法多进程处理的事情（退货、买东西、报税），现在可以并行了。本质上是"雇AI员工"——比原来的人便宜，核心是真的能成为一个员工。

吴翼

比如说我要去退个货、买个东西、报个税。美国的同学可能对报税深恶痛绝——报税可能真的半天就过去了。你报税的同时不能去买东西，因为人只有一个脑子。但是有了AI之后，我真的可以同时做一些事情。

从生产力工具到自动化终极形态

AI的最终目标就是自动化的终极形态——人参与越少，离通用AI越近
前提条件：可靠性——"假设它能做到可靠，那我会有很多忠诚的助手同时帮我做事"
关于AI是否会主宰人类：吴翼的导师是Stuart Russell（AI安全领域的权威），经过训练后他认为"如果用正确的训练方式，以及正确的安全性保证，应该还是可以的"

吴翼的Russell测试

"我老跟人开玩笑说，如果我的导师一直健在的话，那说明他应该成功了。应该没有一个邪恶的AI时间穿越过来要把他杀掉。"——一种幽默但深刻的AI安全判断方式。

十四、从抽象推理到物理世界的信号

本期节目的标题——"推理从抽象世界走向物理世界的开端"——在吴翼的分析中得到了精确的技术诠释。

智能的两个维度

纯文本/抽象推理（纵轴）

O1/O3代表的方向
北斗星：图灵奖、诺贝尔奖
纯逻辑推理的极限
一直在90度方向上前进

物理世界推理（横轴）

视觉信号的推理
与物理世界的交互
找袜子、收拾行李等真实场景
Operator把指针从90度"往右扩了一点，到了80度"

智能的指针：从纯抽象到物理世界的偏转

Operator的实际位置：信号而非到达

吴翼的精确判断

Operator没有真的到物理世界——还是在软件/网页层面
网页大部分为人浏览设计，本质还是文本——"文本概念比较强"
它展现了"视觉世界里推理"的第一种可能性的开端——"没有把这个可能性真正拓出去"
纯逻辑推理不如O3，物理世界推理也没到物理世界——它是一个方向信号

OpenAI会走向物理世界吗

吴翼

从商业上物理世界的钱是难赚的。所以OpenAI一定会先从数字世界赚钱。但能不能走到物理世界这就不知道了。对于OpenAI来说，它其实没有必要自己走——它可以投资。它做大脑就好了，因为大脑确实赚钱快。

吴翼提到美国公司Physical Intelligence（PI）专门做物理世界的大模型预训练，但不确定能否走成。OpenAI当年把自己的机器人团队裁了，后来改为投资——"做大脑就好了"。

十五、学术界的定位与非共识机会

吴翼作为清华大学助理教授，对学术界在"Agent大共识"时代的定位给出了深入思考。

DeepSeek和Operator对学术界的冲击

吴翼

我们本来有一些paper，后来DeepSeek还有Operator放出来，我们想算了不投了。结论都被人说了，不投了。一大影响就是我们可以放假了。

学术界应该做什么

吴翼的建议框架

不做：OpenAI一定要做的事——"如果你现在做这件事情，一年之后大公司所有方向都做得比你好，那确实没有意义"
做：非共识的、探索性的问题——"可能现在看起来美朴，但两三年之后说不定就是对的"
引用Ian LeCun的话："如果你现在读AI的PhD，那么你不应该做大语言模型"——极端但有道理

吴翼感兴趣的方向（随口说的"开放问题"）

真正的Multi-agent问题：不是搞很多agent去解决一个点网页的任务（这个OpenAI坦克车上全给做了），而是如果每个人有一个agent，它们的交互模式应该是什么
个性化AI：人给AI提供反馈和介入的时候，应该提供什么样的信号？人可以给很多种反馈，不只是成功/失败
这些问题"都是很开放的"——学术界应该"想一点更开放的问题，说不定两三年之后就变得很重要"

坦克与摩托车的比喻

共识方向上"大家都开着坦克往前跑"，小公司和学术界"开摩托车在高架上确实比不过"。但可以"走乡间小道——人家坦克不一定往那开"。关键是提前想26年做什么，"25年提前开始做，赶在大公司前面"。

十六、关键数据与判断汇总

判断	具体内容
Operator定位	"多模态世界里的O1"，广度方向拓展，非O3极致深度
Operator基座模型	基于GPT-4o系列，不是特别大的模型，远不需要10万卡级预训练
CUA概念首创	最早由Anthropic在Claude Sonnet中提出
三大技术要素	好的多模态基座模型 + 高质量人类演示数据 + 大规模Agent强化学习系统
OSWorld分数	当前30多分，预测年底70-80分
OpenAI水下	"比较肯定OpenAI内部还有更好的模型"
国内追赶距离	"比追ChatGPT和Sora容易"——路线清楚，基建已在
多Agent交互时间	短期不会出现，2-3年后被动形成
WebAgent历史	OpenAI 2016年第一个大项目，裁员20-30人后失败
L3→L4跃迁	"特别大的改变"，可能不止两三年
数据飞轮	AI时代是"半自动闭环"，需要研究员介入清洗，非自动飞轮
用户数据价值	ChatBot用户数据价值低，Operator用户数据价值更高（带目的、带判断）
OpenAI组织	核心研究团队（人少、纯智能提升）+ Post-training团队 + 产品团队
Agent商业模式	"花钱买时间"——AI员工比人便宜，时间乘数效应
物理世界智能	Operator是信号但未到达——"手好像刚刚想伸过去但还没伸到"
OpenAI物理世界策略	"做大脑就好了"——投资而非自己做
Operator发布时间选择	"非要找中国春节之前发，不让大家过年"
2025年定性	Agent之年——技术拐点已到，商业化还需时间
2025年风险	"太共识了"——大家看的方向一样，非共识机会才是学术界的空间

启示与延伸思考

1. "闭环控制系统"是Agent的真正技术分界线

吴翼反复强调的核心区分不是"能不能调用工具"，而是开环vs闭环。传统大模型（含O1/O3）本质上是开环系统——给指令，输出答案，中间无反馈。Operator/CUA是闭环系统——模型主动expect下一个反馈，context动态变化，连续多轮交互。这意味着agent不只是"大模型加上工具调用"的工程拼装，而是需要专门训练的新范式模型。第一代workflow agent（用prompt让通用模型做agent）和第二代定制化agent之间存在本质差距。

2. 强化学习的历史性回归：从2016到2025的九年闭环

OpenAI的第一个大项目就是用强化学习做WebAgent（2016年），因为没有基座模型而失败；九年后，基座模型+强化学习的组合让这个初心终于实现。这个故事揭示了AI发展的一个深层模式：正确的方向可能提前十年就被看到，但关键的missing recipe需要整个生态的成熟。当年缺的是Transformer和大规模预训练模型；今天Agent方向缺的可能是物理世界的高质量交互环境和reward设计。

3. "智能提升不靠用户数据"是最反直觉但最重要的判断

整个互联网时代建立在"数据飞轮"的信仰上——用户越多，数据越多，产品越好，用户更多。吴翼明确说AI时代不是这样：用户数据大部分是噪音，智能提升靠的是研究员的洞察而非数据量，OpenAI做智能提升的训练"不用用户数据"。用户提供的核心价值是钱（让OpenAI有资源做研究），而非训练数据。这颠覆了"谁有用户谁就有护城河"的传统互联网逻辑。

4. Operator是"80度而非0度"——指针偏转而非到达

吴翼用指针比喻精确描述了Operator的位置：AI智能的指针原来一直90度朝向纯抽象推理（图灵奖/诺贝尔奖方向），Operator让它往物理世界方向偏转了一点（到80度），但远未到达。网页操作本质上还是文本为主的环境——真正的物理世界推理（找袜子、收拾行李）还没有到来。这意味着从Operator到真正的具身智能之间，还存在一个巨大的鸿沟。

5. Agent训练的环境工程是被低估的瓶颈

O1/O3的训练相对"简单"——模型吐token即可，不需要外部环境交互。但Agent训练需要模型吐几百个token后在屏幕上点一下，需要电脑模拟器在等着被点，做完模拟仿真后再让AI继续。这个训练系统的工程复杂度远超纯文本推理。在几千到一万卡的大规模训练中高效做这种交互仿真，是一个被行业低估的工程挑战。这也解释了为什么2016年OpenAI在这个方向上需要大量工程人员，最终项目失败时不得不裁掉他们。

6. L3→L4的鸿沟可能比L1→L3的全部跨度都大

L1到L3（聊天机器人→推理者→智能体）的技术路径"好像看得到"——强化学习recipe + 多模态 + 环境交互。但L3到L4（智能体→创新者）是"特别大的改变"：从instruction following跳到超越指令的创新，从"对错判断"跳到"好坏评价"，从verify跳到"超出已有知识体系的好"。这可能不是两三年能解决的。类比博士生写论文——导师不能说对错，只能给方向，这种开放性的评判目前没有好的技术路径。

7. "OpenAI做大脑就好了"暗示了物理AI的产业分工

吴翼判断OpenAI不太可能自己走向物理世界——"物理世界的钱是难赚的"。OpenAI裁掉了自己的机器人团队，转向投资（如对Physical Intelligence等公司）。这暗示了一种产业分工：大脑提供商（OpenAI等）做智能，物理载体公司（汽车、机器人等）做硬件和场景。这与EP.143中何小鹏的观点形成有趣对比——何小鹏认为物理AI公司必须自己掌握"大脑"，不能依赖第三方。两种路线的最终胜负可能决定AI产业的终极格局。

推理从抽象世界走向物理世界的开端

目录