深度研究 — #89 逐句讲解<a href="https://www.deepseek.com" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">DeepSeek</a>-R1、<a href="https://kimi.moonshot.cn" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">Kimi K1</a>.5、<a href="https://openai.com" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">OpenAI</a> o1技术报告

技术背景：预训练的天花板
OpenAI o1：谜题的提出
DeepSeek R1-Zero：纯RL的优美
GRPO算法：丢掉价值函数
奖励函数：Rule-based的胜利
Aha Moment：模型的自我觉醒
DeepSeek R1：从专家到通才
Kimi K1.5：异曲同工的工程美学
知识蒸馏：大模型教小模型
失败的尝试：PRM与MCTS
成本分析：后训练的经济学
三篇报告全景对比
开源文化与技术传播
数据标注：AI的教练
未来方向：Agent与自博弈
启示与延伸思考

一、技术背景：预训练的天花板

本期节目邀请了加州大学伯克利分校人工智能实验室博士生潘嘉怡，她的研究方向集中在用强化学习做语言模型的后训练，也是全网第一个对R1-Zero进行小规模复现的研究者（TinyZero项目）。节目以逐段逐句的方式讲解DeepSeek R1、Kimi K1.5和OpenAI o1三篇关键技术报告。

预训练遭遇的瓶颈

2020年6月 GPT-3发布

大规模预训练范式确立。

2023年3月 GPT-4发布

约两年半后发布，预训练成本估计在5000万美金左右。

2025年2月仍无GPT-5

又过去近两年，GPT-5仍未发布。DeepSeek V3等模型的基础能力并未显著超过GPT-4。

核心问题

预训练Scaling Law的困境

按照OpenAI的命名规律，每一代模型需要约100倍的有效算力。GPT-5可能需要2亿美金以上的训练成本。Ilya Sutskever也曾表示预训练可能马上就要到头了。核心问题是：除了预训练算力之外，有没有其他可以拓展的维度？

$5.3M

DeepSeek V3 预训练成本

$0.01M

V3 后训练成本（不到0.2%）

~$50M

GPT-4 预训练成本（估计）

后训练算力的巨大空间

DeepSeek V3的后训练成本仅为预训练的0.2%，这意味着在后训练方向上投入更多算力有极大的潜在收益。整个后训练的Scaling Law仍处于极早期，增长空间极为陡峭。

二、OpenAI o1：谜题的提出

o1是OpenAI发布的第一代推理模型，其核心贡献是证明了：用强化学习的方式，可以让后训练和推理时的算力获得可拓展的提升，同时让性能呈线性近似提升。

o1 Blog Post的关键信息

OpenAI精心设置的"谜题"

方法：Reinforcement Learning（强化学习）
两个拓展维度：训练时算力（后训练而非预训练）+ 测试时算力（更长的思维链）
核心结果：在AIME（美国数学邀请赛）上，从~30%一路升到近80%，与算力的对数呈线性关系
关键表述："The model learns to recognize and correct its mistakes"——模型自己学会了发现并改正错误
明确声明：这些能力是模型自己学到的，不是人教的

快思考（传统LLM）

直接给出答案
类似于ChatGPT等聊天机器人
一开始就输出回复
不经过深度推理过程

慢思考（推理模型）

先输出思维链，再回答
像人内心的思绪一步步解题
会自我检查、回溯、尝试不同方案
通过更多token消耗获得更好性能

潘嘉怡

o1其实给大家出了一个非常有意思的谜语，整个业界的大家晚上都开始想揭晓这个谜语的答案。DeepSeek是第一个找出答案的，同时给出的答案也非常的漂亮。

o1到o3的快速迭代

o1发布约三四个月后就发布了o3，在ARK-AGI benchmark上从20-30%直接提高到70-80%，在Frontier Math上从~1%提高到~25%。o3-mini的价格降到o1-mini的三分之一——很可能是被DeepSeek逼出来的。

三、DeepSeek R1-Zero：纯RL的优美

R1-Zero的核心理念来自论文标题中的关键词"Incentivizing"——不要教模型怎么做，而是鼓励它。这个词呼应了OpenAI研究员Hongyu在MIT的演讲标题："Don't Teach, Incentivize"。

核心突破

R1-Zero的方法

从DeepSeek V3 Base模型出发（未经任何后训练），直接运行GRPO强化学习算法。不需要SFT（监督微调），不需要冷启动数据，模型自己涌现出了复杂的推理能力，包括自我纠错、搜索和反思。

潘嘉怡

你不要教模型具体该怎么做，而是告诉他什么好什么不好，让他自己摸索出来。当整个问题足够复杂，人其实没有办法一步步教会他怎么做。类比就是：给一个人一条鱼，不如教他打鱼；教他打鱼，不如先让他知道鱼有多香，然后让他饿着肚子——他自己就会有足够的奖励，自己激励自己学会怎么打鱼，而且可能打得比你更好。

R1-Zero的两张核心图

Fig.2：性能随训练步数攀升

AIME精度从最初的~15%，经过约8000步强化学习后达到~70%，接近o1水平。使用consensus@16（多次采样取众数）后可进一步提升。曲线是一条漂亮的近似线性增长。

Fig.3：思维链长度自发增长

每个回复的平均token数从最初的~100个增长到~10,000个，提高了近20倍。曲线同样是一条漂亮的直线——模型在强化学习中自己发现了："如果我在推理时做更多思考、生成更多token、用更多算力，我的性能就能提升。"这就是推理时拓展（test-time scaling）的来源。

R1-Zero 训练过程：性能与思维链长度的共同增长

"Zero"的命名渊源

来自AlphaGo Zero——不借助任何人类先验知识，从零开始学习。R1-Zero虽然经过了互联网预训练（不完全"零"），但它没有像R1那样经过思维模式的冷启动，而是直接通过强化学习涌现出推理能力。这在理论上意味着：依赖更少的人类先验，上限可能更高。

四、GRPO算法：丢掉价值函数

GRPO是DeepSeek在约一年前的DeepSeek-Math论文中首次提出的算法，是PPO（Proximal Policy Optimization）的一个简化变体。R1和K1.5都不约而同地采用了类似的"无价值函数"路线。

为什么要丢掉价值函数

PPO（传统方法）

训练两个模型：策略模型 + 价值模型
价值模型学习每一步的好坏
理论上能提供更精细的信号
需要双倍算力，训练更复杂

GRPO（DeepSeek方法）

只训练策略模型，丢掉价值模型
对一组采样做相对排序（归一化）
向好的学习，舍弃差的
算力节省，训练更稳定

价值函数失效的根本原因

在长思维链推理模型中，价值函数面临一个本质困难：模型学会了自我纠错。例如，模型输出"1+1=3，不对，1+1其实等于2，答案是2"——在这种情况下，中间的"=3"是错误还是有价值的探索？因为后面能纠错，所以它可能只是一次"不够优的尝试"。当模型具备无限纠错能力时，精确的价值函数几乎不可能学习。

算法细节

GRPO的三个核心组件

Advantage归一化：对每batch（如1000次尝试）中的结果做相对排序，均值为0、标准差为1，分出好坏
Off-policy数据复用：通过重要性重采样技巧，允许使用"稍微过时"的数据，提高数据利用率
KL散度约束：限制训练模型不要偏离参考模型太远，防止训练崩溃

潘嘉怡

跟做理论强化学习的同学聊天后，主要感慨是：这样的算法在强化学习领域算是极其简单和直接的，并没有很深的技巧。用非常简单直接的方法，解决了一些一定要解决的问题，得到一个非常简单明了的训练损失函数。

K1.5的异曲同工

Kimi K1.5虽然用了细节不同的损失函数，但核心思路完全一致：当价值函数估计不准时，就直接舍弃它，只做策略梯度训练。R1和K1.5从两个独立的方向收敛到了同一个结论——这强烈暗示这是一种发现而非发明。

五、奖励函数：Rule-based的胜利

强化学习需要奖励函数告诉模型"做得好不好"。R1-Zero的奖励函数设计极为简洁，只有两部分。

1.0

Accuracy Reward（答对奖励）

0.1

Format Reward（格式奖励）

为什么不用神经网络奖励模型

三种奖励方案的对比

Rule-based Reward（R1采用）：基于规则验证，如数学题答案对错、代码能否通过测试。无reward hacking风险，但适用范围有限
Outcome Reward Model（传统RLHF采用）：神经网络对整个回复打分。存在reward hacking风险——模型可能学会"放很多emoji"来骗奖励
Process Reward Model（Let's Verify Step by Step）：对每一步打分。标注成本极高，且在长思维链中因自纠错行为导致步骤对错模糊

潘嘉怡

如果你的reward model训练没有调好，有可能奖励模型会觉得回复中有很多emoji就是好事。然后你用这个奖励函数训练出来的模型，就会输出非常非常多的emoji，人看起来就会非常的一言难尽。这就是reward hacking——奖励破解的具体体现。

模板设计：极简主义

R1-Zero的提示模板同样极简：告诉模型先把推理过程放在<think>标签中，最后把答案放在<answer>标签中。没有教它怎么推理，没有教它搜索或纠错。一切推理能力都是在训练中涌现的。

六、Aha Moment：模型的自我觉醒

这是整篇论文最核心的高潮部分——DeepSeek发现，在模型训练的某个时刻，R1-Zero自己涌现出了自我纠错能力。

论文高潮

Aha Moment的具体表现

模型在解题过程中一步步推导，突然自己输出了："Wait, wait, there's an aha moment. I can try here."（等一下，这里有一个aha时刻，我可以看一看。）然后它重新检验了之前的式子，发现有问题，最后解决了问题。

为什么Aha Moment如此重要

这种自纠错能力完全不是研究员写入模型的，而是模型在强化学习中自发涌现。这意味着：(1) 技术路线是对的；(2) 从科学角度增长了对该路线可拓展性的信心；(3) 当我们再投入几个数量级的算力后，很可能出现更加复杂、更加漂亮的推理能力。这与围棋中AlphaGo的"神之一手"本质相同——superhuman的能力只能通过强化学习涌现，监督学习永远无法达到。

潘嘉怡

强化学习是我们现在唯一已知的可以达到superhuman performance的方法。包括下围棋也好、打游戏也好，都是通过告诉模型哪个好哪个不好，模型自己最终达到了超越人类的能力。这些是人类开发者没有想过的、预料之外的行为模式。这也就是强化学习的一种美吧。

关于模型的"意识"

当被问到"模型有没有意识"时，嘉怡回应：Geoffrey Hinton认为现代模型已经有意识——"如果你只看输入输出，它跟人一样。你给它一句话，它能回复，回复得甚至比我还好。你里面换成模型，输入输出都一样，你就能说它没有意识吗？"这虽然是一个不太好定义的问题，但大家开始认真探讨它，本身就说明模型能力已经有了卓绝的突破。

七、DeepSeek R1：从专家到通才

R1-Zero虽然科学上极美，但存在实际问题：输出可读性差、语言混杂、只擅长理工科推理。R1是在此基础上的工程化落地版本。

R1的四步训练流水线

Step 1：冷启动SFT

用少量精心挑选的长思维链数据微调V3 Base，给模型一个推理模式的初始化——展示"你可以搜索、可以纠错、可以反思"。

Step 2：面向推理的大规模RL

在数学、代码、科学、逻辑推理等领域运行GRPO强化学习。对语言混杂现象增加惩罚。产出一个推理专家模型。

Step 3：拒绝采样 + 蒸馏融合

从推理专家采样60万推理数据（筛除错误、混杂语言、格式不佳的），从V3采样20万通用数据。共80万高质量数据微调V3 Base，得到一个"通才"模型。

Step 4：全场景RL

对推理任务用rule-based reward，对非推理任务用reward model，同时做最后一轮强化学习。产出最终的R1商业模型。

DeepSeek R1 四步训练流水线

R1-Zero vs R1：哪个更重要？

R1-Zero（科学意义）

技术上更"干净"——纯RL涌现
更少依赖人类先验知识
上限可能更高
但性能不如R1、通用性差

R1（工程意义）

商业可用的production模型
性能追平OpenAI o1
通用性强、用户体验好
工程上更成熟的落地方案

潘嘉怡

同时发布两个模型——一个偏技术向，一个偏工程向——在技术报告发布上非常不常见。他们的研究员可能也觉得R1-Zero这个趋势非常有意思、技术突破非常好玩，所以愿意花很大篇幅先讲R1-Zero。

八、Kimi K1.5：异曲同工的工程美学

Kimi K1.5与DeepSeek R1几乎前后脚发布，两篇报告的主要思路异曲同工，但K1.5提供了更多的工程细节。

DeepSeek R1 报告风格

算法精妙、写法干净漂亮
像一篇优美的算法论文
有R1-Zero这个"爆款"发现
隐藏了很多技术细节（算力用量、超参数等）
读起来震撼、令人兴奋

Kimi K1.5 报告风格

工程创新细节非常丰富
数据构造、奖励函数构造方法完整
缺少一个"爆款"发现点
对复现者来说有大量可学习的内容
读起来"没有那么的爆款及令人激动"

K1.5的独特贡献

思维链长度控制

K1.5花了相当长的篇幅讨论如何把思维链砍短——这与DeepSeek允许思维链自由增长的策略不同。K1.5的Appendix中展示了约20人团队负责贡献启动数据。

Curriculum Learning（课程学习）

K1.5展示了如果用课程学习的方式——给模型与其能力相适应的难度的题——模型能学得更快且更好。这一实验在其Fig.9中有清晰展示。

K1.5为什么没有"爆"

三个原因

缺乏开源传统：Kimi在海外没有"自来水粉丝"，DeepSeek则因长期开源文化积累了大量关注
缺乏爆款发现：没有R1-Zero的Aha Moment这样的令人震撼的科学发现
首次发报告：这是Kimi第一次发技术报告，缺乏"厚积薄发"的基础

潘嘉怡

Kimi K1.5其实是个非常漂亮的工作。如果大家看了这两篇报告的话，它们的相似度非常高，可以说异曲同工。作为Moonshot团队的成员，确实应该收到更好的关注和激励。

九、知识蒸馏：大模型教小模型

DeepSeek开源了从1.5B到70B的一系列蒸馏模型，性能表现令人震惊。

蒸馏的惊人效果

模型	参数量	AIME表现	对比
R1蒸馏-Qwen 1.5B	1.5B	比GPT-4o高10-20%	手机都能跑的模型超过前沿大模型
R1蒸馏-Qwen 32B	32B	远超R1-Zero-Qwen 32B	蒸馏 > 小模型自己做RL
R1-Zero-Qwen 32B	32B	与QwQ-32B-Preview几乎一致	不同路线收敛到相似性能

关键发现

蒸馏优于小模型直接RL

从大模型（600B+ MoE）蒸馏到小模型的效果，远超过小模型自己做强化学习。原因是：大模型能力更强，能探索到更复杂、更有益的推理模式。探索完成后交给小模型学习，比小模型自己笨拙地探索好得多。类比就是：笨学生不能只是抄老师的答案，还需要自己"对症下药"做强化学习——蒸馏+RL组合效果最佳。

蒸馏的潜在问题

幻觉风险

蒸馏后的模型可能产生更多幻觉——因为"老师说啥你就信啥"。如果老师模型既会中文和英文，但蒸馏到一个只会中文的模型，英文的那些技巧因为训练数据不够学不到，模型就会模仿一些浅层模式（如英文句子开头），产生奇怪的输出。这也是为什么蒸馏后还需要再做一轮强化学习。

十、失败的尝试：PRM与MCTS

DeepSeek在论文中坦诚分享了之前的失败尝试——这些方向曾被行业寄予厚望，但最终被简单的RL方法碾压。

过程奖励模型（PRM）的困境

为什么PRM失败了

步骤难以定义：在通用推理任务中，什么是"一步"？竖式乘法的每一行是一步吗？还是整个计算是一步？
纠错导致评估模糊：当模型会自我纠错时，中间某步"错误"可能是有价值的探索
自动化训练效果差：之前的自动化PRM训练算法效果不理想，而人工标注成本极高且无法拓展
必然导致reward hacking：只要用神经网络奖励模型，模型就会找到破解方法

被OpenAI"带偏"的行业

OpenAI在o1之前发布的最后一篇公开论文就是关于PRM的"Let's Verify Step by Step"。由于它与o1之间有约一年的时间差，且此后OpenAI不再公开任何信息，很多团队误认为PRM是o1的关键技术路线，投入了大量时间。潘嘉怡评价："他们不一定是有意的，但这个结果看起来确实是给大家带拐了一些。"PRM在"best-of-N selection"（采样多次挑最优）场景中仍然有效，但在大规模RL训练中被证明无用。

蒙特卡洛树搜索（MCTS）的困境

为什么MCTS在LLM中不work

搜索空间太大：词表可能有1万-15万个token，每一步都有巨大的分支空间，远不像围棋那样有限
"步"难以定义：与PRM同样的问题——每一步的粒度无法确定
价值估计不准：MCTS依赖每一步的价值估计来做剪枝，但在通用推理中价值函数无法精确训练
AlphaGo的成功不可复制：围棋有完美定义的步骤和环境，但通用推理场景下这些条件不成立

潘嘉怡

DeepSeek之前都有论文专门做过PRM和MCTS——一个是DeepSeek-Math Paper，一个是DeepSeek-Prover。他们能第一个漂亮地复现o1，不是巧合，他们是各种方向都试过，最后发现直接做强化学习是通的。

十一、成本分析：后训练的经济学

潘嘉怡在节目中做了一个"信封背面计算"（back of envelope calculation），估算R1的训练成本。

R1训练成本估算

参数	估算值	说明
训练步数	~10,000步	强化学习总步数
每步采样数	~1,000个回复	数量级估算
每个回复长度	~10,000 token	训练后期平均值
总生成token数	~1000亿	10K x 1K x 10K
R1 API价格	$2.2/百万token	DeepSeek公开价格
按API价格计算	~$200K	实际内部成本更低

$10万-$100万

R1 强化学习训练成本估算

$600万

V3 预训练成本

2%-17%

后训练/预训练成本比

后训练Scaling的巨大空间

目前后训练用的算力相对预训练仍是"毛毛雨"水平。按OpenAI研究员的判断，后训练的Scaling Law进展会非常快——"因为你的算力现在算力很少，你要增长十倍，在Scaling Law上往前走会很快。"嘉怡甚至预测，R1级别的性能在一两年后可能只用一个DGX就能复现。

预训练 vs 后训练：算力投入与产出不对称

十二、三篇报告全景对比

技术路线对比

维度	OpenAI o1	DeepSeek R1	Kimi K1.5
公开程度	仅Blog Post，不开源	完整技术报告+全开源	技术报告，不开源
核心方法	RL + test-time scaling（细节未公开）	GRPO + rule-based reward	类似策略梯度 + curriculum learning
价值函数	未知	不用（GRPO）	不用（显式论述为何放弃）
奖励函数	未知	Rule-based（accuracy + format）	Rule-based + reward model混合
冷启动数据	未知	少量长思维链SFT	类似
独特贡献	开创范式、设置谜题	R1-Zero纯RL涌现、蒸馏实验	思维链长度控制、课程学习
报告风格	精心设置信息量的"谜语"	算法优美、Aha Moment爆款	工程细节丰富、复现价值高
AIME性能	~80%（最早展示）	~70%（R1-Zero），R1追平o1	与R1接近

潘嘉怡

这三家公司目前的技术路线都很一样。这个路线与其说是一个公司的发明，它更像是一种发现——大家发现用强化学习在足够强的语言模型上进行训练，会涌现出长思维链，同时让模型在推理任务上性能明显提升。这像是个发现，所以大家路线都挺一致的。

"乘法"隐喻

思维模型

预训练 x 推理时算力 = 模型性能

OpenAI研究员曾比喻：模型性能大致等于预训练算力乘以推理时算力。过去我们在预训练上投入了大量算力，但推理非常便宜——继续推进预训练已经过于昂贵。有了推理时算力后，GPT-4 + 大量推理时算力，可能就能达到未来GPT-5/GPT-6才能达到的高度。正如OpenAI研究员所说："o1 is sort of GPT-6 in your hand."

十三、开源文化与技术传播

R1的爆火与DeepSeek长期坚持的开源文化密不可分。嘉怡在节目中分享了多个观察。

开源对行业的连锁反应

OpenAI开始反思

Sam Altman在AMA中表示："我们觉得之前的行为站在了历史的错误的一面，后面会想想看是否要进行开源。"研究员补充可能会开源一系列老旧的、不再用于商业的模型。

Kimi开始开源

Kimi也开始进行开源举措，后续可能会有更多技术报告的公开行为。

整个生态加速繁荣

开源减少了重复造轮子的浪费，降低了技术普及成本。网友已经开始自己部署R1模型。

开源创造文化认同

正如梁文峰所说，开源创造了一种文化和认同。DeepSeek因为长期的开源传统，在海外积累了大量"自来水粉丝"。当R1发布时，这些积累转化为了爆发式的传播力。Kimi虽然技术不弱，但因为缺乏这种长期积累，传播效果差了一个量级。

商业模式的挑战

API vs 订阅：两种路线

API模式：面临开源模型竞争、同质化严重、可替换性极强——"你只用改几个代码，给另一个公司充点钱就好了"
订阅模式（ChatGPT式）：每月付费享受全套技术能力，竞争更少、有一定护城河。OpenAI内部研究员个人倾向认为ChatGPT订阅比API赚钱多得多

十四、数据标注：AI的教练

虽然R1展示了强化学习的美，但整个技术路线仍然依赖一种新的人类劳动——数据标注。

标注需求的变化

传统SFT标注

需要上万甚至100万量级的SFT数据
标注内容：问题+完整回答
标注人员：通用标注员即可
成本中等

RL时代的标注

需要高质量的"问题+标准答案"对
题目必须足够难才对模型有训练价值
需要各方向博士生、专家级标注员
OpenAI以每小时$100-$200雇佣博士生标注

张小珺

我们可以把这个数据标注人员理解成AI的教练、AI的培训员。

数据标注三要素

足够难：模型已经会的问题没有训练价值
覆盖专业知识：数学、代码、科学等领域都需要
与用户需求挂钩：标注的方向要对应实际使用场景

三家公司（DeepSeek、Kimi、OpenAI）对数据标注的细节都"藏得非常深"——"这也说明这其实才是他们可能最重视的方面之一。"

DeepSeek的"情商"之谜

张小珺观察到DeepSeek模型的中文回复特别"浪漫"、喜欢发表情、情商很高。嘉怡猜测这与后训练中的价值对齐有关——"说不定是梁文峰在某一个数据标注要求里面加了一条，要求标注员倾向于更浪漫的回复"。听说DeepSeek找了很多北大中文系的人做标注，这可能直接影响了模型的"人格"。

十五、未来方向：Agent与自博弈

DeepSeek自述的未来方向

R2或后续模型的改进目标

Function Calling：使用外界函数调用的能力
多轮对话与工具使用：从单次推理到多轮交互
格式化输出：如JSON等结构化输出
语言混杂问题：非中英文语言仍会偶尔切换到英文
软件工程任务：从竞赛题（100行函数）拓展到SWE-Bench、MLE-Bench等真实工程任务

Agent：推理走入物理世界

下一个前沿

从推理模型到智能体

推理模型是单次：给一个问题，输出答案。智能体是多轮：给一个任务，模型与环境交互——编辑文件、运行命令、浏览网页——一步步完成复杂任务。OpenAI的deep research、computer use等产品就是这个方向。核心区别：大语言模型开始调动外部世界。

Self-Play：摆脱人类监督

多智能体自博弈

OpenAI的Noam Brown（扑克AI Libratus的创造者）在o1发布后成立了Multi-agent Research Team。嘉怡猜测他们内部有想法用self-play（自博弈）解决数据标注的瓶颈——多个智能体互相博弈，能产生不依赖人类监督的训练信号。"现在还八字没一撇，但OpenAI在赌，说不定就实现了。"

DeepSeek会beat OpenAI吗？

竞争格局分析

DeepSeek的优势：梁文峰在AI决策上可能比Dario Amodei或Sam Altman更清晰；组织效率极高，资源转化为创新的能力突出
OpenAI的护城河：(1) 算力极其充沛——几十万张H100，星际正门（Stargate）目标几百万张B100/B200，比国内有一到两个数量级差距；(2) 组织创新能力目前没有明显破绽
Meta的反面教材：尽管研究员出色，但因组织管理、官僚体系、KPI考核模式，Llama 3已非常落后且无架构创新

十六、启示与延伸思考

1. "最优美的算法最干净"——简洁性是真理的标志

R1的核心突破来自一个极其简单的设定：Base模型 + GRPO + rule-based reward。没有价值函数、没有过程奖励、没有蒙特卡洛树搜索。行业花了数月时间探索的PRM、MCTS等复杂方法，最终被简单的策略梯度碾压。嘉怡感慨："你会在想，啊，然后它就这么简单，当时怎么自己想多了？"这呼应了物理学中"Big Lesson"的理念——真正有效的方法往往是最简单的。

2. 后训练是当下收益最高的算力投入方向

预训练成本已到千万美金级别且增长缓慢，而后训练仅用预训练2%以下的成本就实现了媲美甚至超越的能力提升。这是一个典型的不对称机会：后训练的Scaling Law处于极早期，"没几个月丢十倍的算力进去"完全可行。后训练可能是大模型领域未来1-2年内回报率最高的投资方向。

3. 涌现不是魔法，但需要门槛

R1-Zero的Aha Moment——模型自主发展出搜索、纠错、反思能力——是一种涌现现象。但它有前提：Base模型的能力必须达到一定阈值。嘉怡在TinyZero复现中发现，3B模型在简单任务上能看到涌现，但7B模型在同一任务上可能就看不到。这是一个相变（phase transition）：模型能力与任务难度必须匹配。

4. "发现"而非"发明"——三条独立路径的收敛

DeepSeek、Kimi和OpenAI从三个独立方向收敛到了几乎相同的技术路线：丢掉价值函数、用简单的策略梯度、依赖rule-based reward。嘉怡的判断是"这更像是一种发现"。当多个独立研究者在同一时间发现同一个真理，这通常意味着：该发现是必然的，条件已经成熟。类似于牛顿和莱布尼茨同时发明微积分。

5. 开源是竞争力的乘数而非减数

DeepSeek的开源策略被证明是一个极为成功的竞争策略：它不仅没有削弱竞争力，反而通过文化认同和社区效应放大了影响力。OpenAI公开承认"站在了历史的错误的一面"。梁文峰的判断——"开源创造文化和认同"——在R1的传播效果中得到了完美验证。

6. 数据标注从"劳动密集型"转向"知识密集型"

RL时代的数据标注不再是简单的文本标注，而是需要博士级专家构造足够难的问题和精确的答案。OpenAI以每小时$100-$200的价格雇佣博士生。这意味着数据标注行业将经历一次结构性升级——从"数据工厂"模式转向"AI教练"模式。三家公司对此都严格保密，恰恰说明这是最核心的竞争壁垒之一。

7. 预训练 + 后训练 = "两条腿走路"

预训练并没有被淘汰——GPT-5可能今年出来，两条路线是相辅相成的。OpenAI总管研究的高管Mark Chen也表示会在预训练和后训练两方面同时推进。正确的理解是：预训练建设"知识库和推理模式的数据库"，后训练则把这些知识和模式用在具体任务上。两者不是替代关系，而是乘法关系。

8. 算力差距是中国AI最大的结构性风险

嘉怡坦率指出：OpenAI目前可能有几十万张H100，星际正门目标几百万张B100/B200。这与国内有"一到两个数量级的差距"，而且"这个东西很难很难弥补"。DeepSeek的效率创新令人钦佩，但当后训练Scaling Law继续推进，算力差距终将成为不可忽视的约束。

9. 从推理到Agent是确定性最高的下一步

R1在竞赛式短题目上已经非常强，但在软件工程等多轮、长周期、需要工具使用的任务上还有巨大空间。OpenAI已经在稳步推进o系列在多轮工具使用上的能力（deep research、computer use）。Coding Agent可能是物理世界之前最大的AI应用突破——"大概不到18个月就有巨大变化"。

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告

目录