深度研究 — #73 AGI范式大转移：和广密预言草莓、<a href="https://openai.com" target="_blank" rel="noopener" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">OpenAI</a> o1和self-play RL

一、Scaling Law遇到瓶颈

广密开篇即抛出核心判断：语言模型预训练这个范式可能已经到了瓶颈。他给出50%的概率认为传统Scaling Law已经失效，另外50%概率认为沿着老路还能继续走向AGI。

瓶颈的三个维度

参数

最好模型约六七百B MoE，未见2-3T突破

数据

高质量文本15-20T，难倍数增至50-100T

算力

H100单集群最大3.2万张，B系列尚未规模化

广密

纯靠加参数、加数据、加算力，这条路肯定是不容易了。

三种可能的情况

为什么模型没有在GPT-4o基础上大幅跃升

情况一（短期问题）：Scale up的幅度依然不够，H100这一代卡不够好，需要等B系列GPU出来才能真正scale up
情况二（执行问题）：训练更大的模型非常复杂，MoE架构的"高矮胖瘦"难调，2-3万亿参数的MoE本身就很难训练
情况三（最担心的）：纯靠语言的经典Scaling Law在更大参数下就开始失效，必须用新方法才能带来更大突破

10万卡集群的真实挑战

广密透露：3万卡集群基本上每两个小时break一次，10万卡集群则二三十分钟就break一次，综合利用率会大幅下降。这个挑战可能"比SpaceX发射中型火箭还要复杂"。马斯克的XAI押注10万卡集群是一种"第一性原理"的豪赌，有很大概率但也有很大风险。

二、三条突破路线

面对Scaling Law可能失效的局面，广密梳理了三条潜在突破路线：

#	路线	确定性	天花板	核心挑战
1	多模态（尤其视觉）	确定会发生，但时间问题	还不够本质	无证据证明视觉训练能涌现智能/逻辑；技术路线未统一；可能需要全新架构
2	10万卡集群（暴力scale up）	确定会发生，但时间问题	取决于Scaling Law是否继续work	充分互联难度极大；综合利用率低；可能是"全人类目前最难的项目"
3	Self-Play RL（强化学习）	范式级别	最高	Reward model能否泛化到代码和数学之外；人才极度稀缺

广密

如果我是一个AI公司的CEO，我肯定会200%的资源all in到强化学习RL这条路线。我感觉这是目前最有机会走向AGI的一条路。

核心判断

三条路线并不矛盾但资源有限

多模态、10万卡集群和强化学习三条路线可以并行，但资源有限时必须做选择。广密认为只有强化学习称得上"范式级别"的变化，其余两条"确定性会发生，但还不够本质"。

三条突破路线：确定性 vs 天花板 vs 投资优先级

三、强化学习RL核心概念科普

广密回溯到2018年，当时伊利亚受邀到MIT做客座讲课，选的主题就是强化学习和self-play。伊利亚用一句话概括了强化学习：

广密引述伊利亚

让AI用随机的一个路径去尝试一个新的任务，如果效果超预期，那就更新神经网络的权重，让AI记得多使用这个成功的路径，然后再开始下一次的尝试。

强化学习的两个核心元素

环境（Environment）

AI探索完成任务的场景
下棋：19x19的棋盘
训练狗：狗主人的家和小区
LLM：文本或对话场景
环境变化时产生reward信号

智能体（Agent）

从强化学习定义而来的概念
对环境的观测和感知
输出动作（action）
目标是获得更多奖励
大语言模型本身就是agent

广密的两个类比

类比一：深山探矿

一个人有一张藏宝图，但我有5000个特种兵带着专业探测设备。虽然资源浪费，但只要有宝贝，几乎百分百能探测出来，甚至比拿藏宝图的人更快。关键风险：如果特种兵"鉴宝能力不足"（即reward model出错），就会漏掉宝贝或捡回垃圾。

类比二：训练马拉松运动员

GPT已经通过语言和录像学成了博士，各种知识道理都懂了。现在设置目标——取得马拉松最佳成绩。AI探索各种方法（科学饮食、姿势、肌肉发力），甚至找漏洞（如吃兴奋剂——这就是hack了比赛规则，需要制定新规则——这就是AI的safety/alignment）。

奖励模型（Reward Model）的核心挑战

LLM的"小零食"是什么？

训练狗时，小零食就是明确的正面奖励。但对于LLM来说，奖励反馈到底是什么？没有清晰的界定。上亿人使用ChatGPT，给到的反馈其实"没那么有效"——用户很快进入下一个话题，点赞和点踩的噪音也很多。目前reward model最能work的领域是代码和数学，因为有明确的胜负/对错。

四、Self-Play RL：范式级变革

AI经典三大学习方式

监督学习

从标注数据学习

非监督学习

从无标注数据学习

强化学习

自主探索+连续决策（最接近人类学习）

Self-Play RL vs 传统RL vs RLHF

方法	核心目的	核心区别
传统RL	Agent自主探索	Agent（如AlphaZero）是千万参数的神经网络
RLHF	人机对齐，让AI更像人	不是获取机器智能，而是让AI不超越人；更喜欢好理解的东西而非逻辑严谨的内容
Self-Play RL	提升逻辑推理能力	Agent计算量增加3-4个数量级（从千万参数到数千亿参数模型）

关键洞察

语言是拐杖，RL是主菜

广密引用了一个"特别有趣的描述"：语言是走向AGI的一个拐杖。语言和预训练是"中间态的甜点前菜"，后面的强化学习才是主菜。更形象的比喻：语言和预训练比作人类的基因组，携带着几千年进化的基因；强化学习就是人类成长的一生，从出生起就开始接受正面和负面信号。

Anthropic Cloud 3.5：标志性产品

广密认为Cloud 3.5 Sonnet（2024年6月20日发布）是RL范式转变的标志性产品。代码和数学有显著提升，而Anthropic很早就重视强化学习——"Anthropic好像只摆了两件事：一个是下一代模型，一个是RL强化学习。"

广密

语言模型Pretrain遇到瓶颈就是最近两个月。外界可能还不一定意识到，语言的Pretrain已经到了一定Bottleneck。

五、语言模型与RL的接力关系

广密明确指出，大语言模型和强化学习是接力关系，而非替代关系。

大语言模型（Pretrain）

核心是利用现有数据
在利用现有知识上已做到极致
但探索新知识方面基本没做太多
是走向RL的必要条件
必须迈过GPT-4或Cloud 3.5水平

Self-Play RL

核心是探索新的路径
给AI一个粗颗粒度目标，自己探索路径
是Pretrain确定的未来
本质是用AI无限的算力补数据不足
能合成大量高质量数据，甚至超过人类历史

A x B 乘积关系

广密反复强调，语言模型与RL是乘积关系（A x B）。如果你的模型底座能力（A）是2分，别人是8分，你的RL（B）变化再大也乘不上去。没有一个很强的底座模型，是没办法做self-play的。这意味着Pretrain仍然是必经之路，但RL是Pretrain确定的未来。

Self-Play合成数据的飞轮

一个良性循环

Self-play合成高质量数据
合成数据用于Pretrain
激发更大的Pretrain计算需求
大语言模型的Pretrain变成强化学习系统的一环
强化学习变成更核心的系统

广密

有可能实现AGI不一定需要巨量参数的模型。明年有可能就会看到很小的一个模型，可能比今天的GPT-4o还要聪明很多。单位参数下智能水平提升还是很快的。

六、RL新范式下的Scaling Law重构

RL新范式并没有废除Scaling Law，而是重新定义了它。

核心变化

Inference Time换Training Time

RL的核心思路是用推理时间的计算量来替代训练时间的计算量，解决模型向上scale up时边际收益递减的问题。训练计算量不只与参数量上升有关，还多了一个新变量：self-play探索时的inference计算量。

合成高质量推理数据的成本

6亿美元

合成1T高质量推理数据

60亿美元

合成10T高质量推理数据

对GPU需求的影响

推理 vs 训练的硬件差异

Inference对单张卡的性能和集群规模的要求相对低一些
不一定非得用最顶尖的卡或3万/10万卡集群
分布式的集群也可以跑RL的inference
AMD、其他ASIC芯片有可能也能work
但英伟达GPU仍然性价比最高，领先地位可能还会拉大
今天做RL的资源"比较浪费"——99%跑的步骤最终都是无效的，但你还是得跑

广密

传统的Scaling Law work了，但新的Scaling Law又开始了。计算成本可能还是会大幅提升来提升模型能力，但提升的并不一定是模型参数量，而是模型的推理能力。

七、硅谷共识度与人才稀缺

广密对RL范式转移在硅谷的共识程度做了清醒判断：

广密

这个共识还集中在少量的核心的Researcher圈子中，至今尚且没有扩散出去。有可能也就几百个人。很多AI的管理层可能还没有意识到。

各公司的RL优先级

公司	RL优先级	备注
Anthropic	最高	很早就重视RL，Cloud 3.5是标志性产品；主线就是RL，不搞Sora不搞Search
OpenAI	很高	造势草莓/Q*很久；RL是OpenAI很深的传统（最早用RL打Dota游戏）
Google DeepMind	传统RL很强	新范式self-play不太确定；人才优势强，但不确定管理层是否重视
Meta/Llama	几乎没有	"应该还完全没有"
其他模型公司	还没开始	"不知道怎么做"

杨乐坤的批评

杨乐坤最近批评RL是"资源浪费"

广密的回应：爱迪生发明灯泡也浪费了大量实验资源，但你只需要成功一次就可以大量复制。"杨乐坤现在喜欢说话引起争议——有争议才有流量。这是文人的好胜心，彼此瞧不上，有不同流派。"

八、对AGI前景的乐观与悲观

悲观阶段（前两个月）

发现语言模型的Pretrain遇到瓶颈，进展不顺利。"之前觉得25、26年可能才会碰到瓶颈，没想到这么快。"

乐观阶段（想了两个月之后）

认为self-play RL work了之后，"离实现AGI和SI超级智能更清晰了"。强化学习打开后的天花板更高。

衡量RL进步的有效指标

指标一：AI能写的有效代码行数

去年：只能写20行
今天：能写几百行
明年：可能几千行
Cloud 3.5 Sonnet是显著提升的标志

指标二：数学测试集分数

GPT今天解决七八十分
期待无人工干预下得100分
不求速度，让self-play自己解
全对了就是"很大的突破"

假设模型能力停留在GPT-4o水平会怎样？

广密认为"也有一半概率能实现AGI"。如果RL能泛化就没问题；如果不能，下限也能把传统机器学习都替代掉，且coding会很强——coding如果很强，"有可能也会在很多领域加速"。

九、AI赛道一：Coding与编程民主化

广密将AI赛道画成"一个大圈套四个小圈"：大语言模型是核心，外围四个赛道是搜索、Coding、视频、机器人。他最兴奋的是Coding和视频。

Coding赛道的明星公司

Devin

AI程序员

Augment

AI编程

Magic

AI编程

Cursor

出圈的编程工具

这些公司最新估值都达到二三十亿美金，有些产品还没法用。

Cursor为什么火

广密

Cloud 3.5 Sonnet可能就是这个行业的iPhone摄像头。今天的Cursor可能就是基于这个摄像头之上的一个拍照工具。Cursor火的背后最核心的原因还是Cloud 3.5 Sonnet代码能力变强了——以前不work的事儿，今天work了。

编程民主化：从专业工具到Task Engine

终极愿景

Task Engine——新一代Google

广密提出了一个重要概念：Task Engine（任务引擎）。Google是Search Engine（搜索引擎），处理信息；Task Engine则是完成任务。"完成任务才是这一轮技术革命下最核心的主题。"未来用户用自然语言描述任意需求（比如"让超市每周一八点给我家门口送水果和食材"），后端实时编程来满足——这是对长尾需求的革命性释放。

专业群体 vs 大众消费级

只做专业开发者群体：天花板可能就是GitHub（10B级别）
大众消费级市场：类比Adobe Photoshop（几千万专业用户） vs 抖音/剪映/Canva（上亿级活跃用户）
最有想象力的故事在大众消费级市场
Cursor有可能是2024年的Perplexity——模型能力匹配产品最match的阶段

十、AI赛道二：视频生成与理解

广密对视频赛道的判断：极其诱人但风险极大。

视频生成的进步

Sora出来后的半年，视频生成进步效果非常大。"半年前一个人走路的动作是很慢的，今天是很丝滑的。"Sora给行业指明了DIT路线。

广密

大家可能远远低估了创意和内容这个赛道。人人可能都是电影级别的导演。以前一部电影可能几千万美金上亿美金的拍摄成本，未来可能很多爆款电影就几万美金的成本。

视频赛道的格局

特别不稳定

不像语言模型——大哥老二座次比较清楚
视频生成是"各领风骚100天"，每家都有自己的bet
技术架构没有统一
可能像内容行业——不是赢家通吃，而是分散的
决胜窗口可能持续三四年
Luma的流量是Runway和Pika的七八倍

视频理解：Meta Ray-Ban的启示

视频不只在生成，理解很关键

假如全球有一亿人每天戴着Meta Ray-Ban眼镜，"它能从我们日常习惯里面总结出更多的人类的习惯、商业的习惯、我们没有发现的规律——它就是新的牛顿。"而且这可能是机器人需要的非常关键的第一视角数据。

十一、AI赛道三：通用机器人

广密对通用机器人的判断远比市场冷静：本质上还是一个基础科学问题，不是商业问题。

硅谷机器人公司的梯队

梯队	公司	特点
第一梯队	Pi（Google Robotics出身）、The Bot（Cruise创始人Kell创立）	核心研究圈公认最头部；人才绝对最强
融资突出	Scale AI、Figure AI	Figure融资能力强，CEO讲故事能力特别强，但"竞争力定位比较尴尬"

广密

Figure这种定位——AI能力不是最强的，硬件能力又不如中国公司强。硬件肯定还没有Tesla强。我总感觉竞争力定位比较尴尬。这个公司有点被高估。

通用机器人的核心挑战

基础科学尚未突破

还没有在通用机器人领域看到通用和泛化能力
A设备采集的数据B设备不能用——没有泛化
采数据成本很高——从几十到几百美金不等，每个场景要采几百个小时
场景和产品定义没有看到好的——"你真的愿意买一个带回自己家的、真的有用的？"
到底是2-3年突破还是10年突破不好说，"今天肯定是靠着十年这个时间维度"

中国 vs 硅谷的机器人路线

硅谷路线

投"机器人大脑"——想做iOS或安卓
但可能不存在一个通用的机器人大脑
大脑可能就是GPT或通用大模型
除Tesla外制造能力都不太行

中国路线

做整机——OV小米模式
先定义好硬件产品或场景
供应链优势极强——至少是"机器人的富士康"
解决具体场景的具体问题，不一定用最强AI

Tesla的逻辑可能最make sense

广密认为从终局看，可能不会是一个AI模型适配所有硬件。机器人可能必须端到端优化（从模型到硬件到数据）。要找到一个好的大场景去大规模采集数据，针对单一场景端到端优化，而且AI能力先在这一款上体现。Tesla有出行这个刚需场景，就像手机有通话这个刚需场景。

十二、中国LLM公司的现状与基础研究

对中国LLM公司的评价

广密

大家在模型上做的都差不多，技术辨识度依然还没有完全拉开。背后还是因为做了太少的基础研究。很少有人摆脱前沿的研究，大多数都是在follow硅谷的进展。

国内LLM公司的现状

想做AGI的可能不多，大家都想做Killer App
但今天还没看到Killer App长什么样的影子
主要局限在chat、search、character几个产品形态
今天还是AGI的故事在撑估值
预计70-80%的公司会放弃Pretrain，直接用开源做Post-train
年内真正达到GPT-4水平的可能有2-3家：字节、DeepSeek、阶跃

为什么基础研究做不好

经济基础决定研究上建筑

"基础研究是一个社会在资本富足后的奢侈品"
贝尔实验室存在因为AT&T很赚钱；DeepMind存在因为Google有印钞机
没有强大经济基础就没法支持科学家去冒险
中国是农耕文明——"耕好自己的一亩三分地"；欧美是海洋文明——勇于冒险和探索
"千万不要拿穷人的钱去做科研冒险——亏了钱就会有人拉横幅"
在美国亏了一亿美金可能被大公司收购了，三年后再来；在中国亏一亿人民币，"创始人好长时间翻不了身"

中国应该加大投入LLM

广密认为投入"还是太少了"。移动运营商4G和5G的投入都是七八千亿人民币量级，公路高铁投入也比较大。"对AI方向你再怎么投入都不为过。"他甚至严肃警告："想想为什么会有鸦片战争或海湾战争——这是不对等的东西。"

十三、硅谷主要玩家点评

OpenAI：浪费了技术领先红利

广密的评价

GPT-4刚出来时领先优势巨大，但没有转化为更强的产品/商业飞轮
AR约40亿美金（年底可能七八十亿），数字上成功但"按理应该更好"
核心问题：没有找到对的人做出更好的天才产品
ChatGPT没有很强的数据飞轮（不像推荐系统/广告系统）
除ChatGPT外其他产品"都不算太成功"——Sora、SearchGPT、Plugin、Dali、GPTs
"有点给行业做公益的感觉"——产品没做好就发了，启发了行业

OpenAI的人才变动

人物	动态	影响评估
Greg Brockman	长期休假，在外面与人聊天	技术影响不大，但他是"最OpenAI的人"；情感极深
John Schulman	宣布加入Anthropic	影响不大——工作已交给另一个人；但对Anthropic帮助更大——"两个公司的信息拉齐了"
伊利亚	创立SSI（超级智能公司）	可能更早看到了实现超级智能的更快路径；核心下注就是RL

广密

伊利亚可能更早看到了实现不止AGI、叫SI超级智能的一个更快路径。他很自信，似乎看到了实现超级智能的路径，不然也不会轻易开一家公司。

关于草莓、Q*和o1的关系

广密的梳理

草莓：更像是一个项目的代号
RL：是方法
Q*：可能是最早的一个源起的paper（基于DeepMind的一篇paper，应该是伊利亚最早提出来的）
三者本质上都指向强化学习RL

十四、AI的6000亿美元之问

红杉合伙人David Cahn发表文章指出AI每年需要填补6000亿美元的收入缺口。广密的回应：

广密

Revenue和Use Case肯定是低于预期的，但这也没办法。每一次科技变革都是经历先一年投入，再Infra建设，再应用爆发。

历史规律的佐证

铁路时代

先有铁路建设，再有后来的经济活动。

移动互联网

先有芯片、PC、iPhone，再有移动互联网爆发。

云计算

先有数据中心，才有企业上云。2010年Amazon只有苹果1/3市值（苹果1500亿），现在Amazon 2万亿而苹果2000亿——十倍。

AI产业的AGIX指数权重分布

AGIX指数构成

40%：硬件公司（尤其半导体产业）
40%：Infra公司
20%：应用公司
随着AI建设发展，后面两项权重比例肯定要增加

十五、非共识与市场预测

2024年Q3的非共识

非共识一：开源模型和小模型在高价值任务上不work

同一用户问同一问题，不同模型答案差异很大。在复杂任务上用开源或小模型"很多问题解答不了"，最后还得回到GPT-4o或Cloud 3.5。

非共识二：很多硅谷AI公司本质是Research Lab

不是商业公司。就像贝尔实验室由AT&T支持——巨头以投资形式给到Funding，Lab的研究成果再给巨头做商业化。而且这些巨额亏损不用并表。"有可能这就是一个常态。"

AI是"重构"而非"颠覆"

广密

AI提升了生产力，但并没有改变生产关系。它只是改变了生产环节，但分发和消费环节都还在成熟的老公司这里。

超预期的公司

Anthropic

从落后18个月到模型追平
甚至有微弱领先优势

Perplexity

ASO出圈的搜索产品
模型能力匹配产品最match

如果AI泡沫破灭，谁是下一个Amazon

广密的两个硬件公司答案

Apple：AI能力不是最强的，但未来的Killer App还是长在手机上。Apple是"无形的受益者"
Tesla：真正意义上从卖车公司变成AI公司。整个交通行业变化更大，而且它也是一个机器人公司

移动互联网 vs AI的叙事对比

移动互联网 vs AI：明线、暗线与关键能力

	移动互联网	AI时代
明线	全球多了40-50亿移动用户	Scaling Law（虽在发生范式变化，背后核心是Compute）
暗线	用户行为数据做推荐（没做推荐的公司都没做大）	Self-Play强化学习（不做RL的公司可能下一波跑不出来）
关键Feature/能力	大屏幕（TikTok/抖音）、摄像头、GPS（Uber/滴滴）	Coding、多模态、数学、Agent
最重要数据来源	新产生的数据（非旧应用积累）	RL过程中AI产生的数据 + 人指导的数据

十六、关键数据汇总

判断	具体内容
Scaling Law失效概率	50%概率传统Scaling Law已失效
主流模型参数	六七百B MoE（单台H100 server放得下）
高质量文本数据	15-20T可获取，难倍数增至50-100T
H100集群极限	3.2万张充分互联，全球三五家能做到
3万卡集群稳定性	约每2小时break一次
10万卡集群稳定性	约每20-30分钟break一次
Self-Play RL vs 传统RL	Agent计算量增加3-4个数量级
合成1T推理数据成本	约6亿美元
合成10T推理数据成本	约60亿美元
RL步骤有效率	99%最终无效（但必须跑）
AI代码行数进步	去年20行 → 今天几百行 → 明年可能几千行
RL范式共识人数	硅谷最核心researcher约几百人
Coding独角兽估值	Devin、Augment、Magic等均二三十亿美金
Luma vs 竞品流量	Luma是Runway和Pika的七八倍
Character.ai收购价	超20亿美金（核心是Noam Shazeer）
OpenAI ARR	约40亿美金，年底可能70-80亿
中国达到GPT-4水平	年内2-3家（字节、DeepSeek、阶跃）
放弃Pretrain的公司比例	预计70-80%
机器人大爆发时间	5-10年范畴
AGIX指数权重	硬件40%、Infra 40%、应用20%
RL最领先的公司	Anthropic和OpenAI
CEO应All in RL的资源	"200%的资源"

启示与延伸思考

1. "语言是拐杖，RL是主菜"——这可能是2024年最重要的AI范式判断

广密将语言预训练比作"人类基因组"、将强化学习比作"人类成长的一生"。这个类比揭示了一个深刻的不对称：基因组是有限的压缩信息，而一生的探索是无限的。如果这个判断成立，意味着当前所有围绕"谁的预训练数据更好"的竞争都只是序章，真正的主战场是RL——而在这个战场上，全球只有"几百人"知道怎么做。

2. A x B乘积关系意味着"追赶者的窗口"极其短暂

语言模型底座(A)和RL能力(B)是乘积关系。如果你的A是2分、别人是8分，你的B再强也乘不上去。这意味着中国公司面临双重赛跑：既要在短期内将底座追到GPT-4水平，又要同时开始RL布局。广密预计70-80%的中国公司会放弃Pretrain——这些公司在RL时代将彻底失去参赛资格。

3. 99%的RL步骤都是"浪费"——但这才是探索的本质

广密用"5000个特种兵探矿"的比喻揭示了RL的核心经济学：资源浪费是特征而非bug。这解释了为什么杨乐坤批评RL是"资源浪费"——从效率角度看确实如此，但从探索角度看，爱迪生发明灯泡也浪费了大量实验。关键区别在于：你只需要成功一次就可以大量复制。这也解释了为什么只有Anthropic和OpenAI这样有足够资源的公司才能真正做RL。

4. Cursor是2024年的Perplexity——模型能力匹配产品的甜蜜点

Cursor的爆火本质上是Cloud 3.5 Sonnet代码能力从"不work"变成"work"的产物。但广密指出了一个关键局限：专业开发者群体的天花板只是GitHub级别（约10B），真正的想象空间在"编程民主化"——Task Engine（任务引擎）。这个概念可能比大多数人意识到的要深远得多：它不是"让人人都能写代码"，而是"让代码变成不可见的基础设施"。

5. 通用机器人的timing判断：硅谷和中国都在下错误的注

广密指出了一个尴尬的悖论：硅谷投"机器人大脑"（做iOS/安卓），但可能根本不存在一个通用的机器人大脑——大脑可能就是GPT。中国投"整机"，但技术timing可能还在5-10年的research lab阶段。Figure AI被高估、人才密度不够、竞争力定位尴尬。最终可能还是Tesla的端到端路线最make sense——先找到刚需场景（出行），再大规模采集数据。

6. Self-Play RL可能是AI时代的"推荐算法"——不做就出局

广密将RL类比为移动互联网时代的推荐算法："没有做推荐的公司都没做大。"如果RL是AI时代的暗线，那么"今天不做强化学习的公司，下一波浪潮里面都跑不出来"。这是一个极其大胆的判断——它意味着RL不是可选项，而是生存条件。

7. "基础研究是资本富足后的奢侈品"——中国AI的结构性困境

广密点出了一个很少有人直说的真相：中国基础研究做不好不是因为缺人才或缺意愿，而是因为经济基础不允许冒险。在美国亏一亿美金可能被收购、三年后东山再起；在中国亏一亿人民币"好长时间翻不了身"。这个不对称的容错率差异，才是中美AI差距的深层结构性原因。

延伸阅读

EP.64 和广密聊AGI大基建时代：电+芯片=产出智能 — 前一期大模型季报
EP.75 和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角 — o1发布后的技术解读
EP.76 王小川返场谈o1与强化学习 — 从快思考走向慢思考的路
EP.86 大模型季报年终特辑：和广密预言LLM产品超越Google之路 — 下一期季报
EP.89 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告 — RL范式下的技术细节
EP.59 和杨植麟聊大模型创业这一年 — Sora与AGI创业的前期语境

AGI范式大转移：预言草莓、OpenAI o1与self-play RL

目录