← 返回张小珺主页
深度研究 Deep Dive

逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告

#89 "最优美的算法最干净"
2025.2 · 张小珺Jun|商业访谈录 · 嘉宾:潘嘉怡(UC Berkeley AI Lab 博士生)
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 技术背景:预训练的天花板
  2. OpenAI o1:谜题的提出
  3. DeepSeek R1-Zero:纯RL的优美
  4. GRPO算法:丢掉价值函数
  5. 奖励函数:Rule-based的胜利
  6. Aha Moment:模型的自我觉醒
  7. DeepSeek R1:从专家到通才
  8. Kimi K1.5:异曲同工的工程美学
  9. 知识蒸馏:大模型教小模型
  10. 失败的尝试:PRM与MCTS
  11. 成本分析:后训练的经济学
  12. 三篇报告全景对比
  13. 开源文化与技术传播
  14. 数据标注:AI的教练
  15. 未来方向:Agent与自博弈
  16. 启示与延伸思考

一、技术背景:预训练的天花板

本期节目邀请了加州大学伯克利分校人工智能实验室博士生潘嘉怡,她的研究方向集中在用强化学习做语言模型的后训练,也是全网第一个对R1-Zero进行小规模复现的研究者(TinyZero项目)。节目以逐段逐句的方式讲解DeepSeek R1、Kimi K1.5和OpenAI o1三篇关键技术报告。

预训练遭遇的瓶颈

2020年6月 GPT-3发布

大规模预训练范式确立。

2023年3月 GPT-4发布

约两年半后发布,预训练成本估计在5000万美金左右。

2025年2月 仍无GPT-5

又过去近两年,GPT-5仍未发布。DeepSeek V3等模型的基础能力并未显著超过GPT-4。

核心问题

预训练Scaling Law的困境

按照OpenAI的命名规律,每一代模型需要约100倍的有效算力。GPT-5可能需要2亿美金以上的训练成本。Ilya Sutskever也曾表示预训练可能马上就要到头了。核心问题是:除了预训练算力之外,有没有其他可以拓展的维度?

$5.3M
DeepSeek V3 预训练成本
$0.01M
V3 后训练成本(不到0.2%)
~$50M
GPT-4 预训练成本(估计)

后训练算力的巨大空间

DeepSeek V3的后训练成本仅为预训练的0.2%,这意味着在后训练方向上投入更多算力有极大的潜在收益。整个后训练的Scaling Law仍处于极早期,增长空间极为陡峭。

二、OpenAI o1:谜题的提出

o1是OpenAI发布的第一代推理模型,其核心贡献是证明了:用强化学习的方式,可以让后训练和推理时的算力获得可拓展的提升,同时让性能呈线性近似提升。

o1 Blog Post的关键信息

OpenAI精心设置的"谜题"

  • 方法:Reinforcement Learning(强化学习)
  • 两个拓展维度:训练时算力(后训练而非预训练)+ 测试时算力(更长的思维链)
  • 核心结果:在AIME(美国数学邀请赛)上,从~30%一路升到近80%,与算力的对数呈线性关系
  • 关键表述:"The model learns to recognize and correct its mistakes"——模型自己学会了发现并改正错误
  • 明确声明:这些能力是模型自己学到的,不是人教的

快思考(传统LLM)

  • 直接给出答案
  • 类似于ChatGPT等聊天机器人
  • 一开始就输出回复
  • 不经过深度推理过程

慢思考(推理模型)

  • 先输出思维链,再回答
  • 像人内心的思绪一步步解题
  • 会自我检查、回溯、尝试不同方案
  • 通过更多token消耗获得更好性能
潘嘉怡
o1其实给大家出了一个非常有意思的谜语,整个业界的大家晚上都开始想揭晓这个谜语的答案。DeepSeek是第一个找出答案的,同时给出的答案也非常的漂亮。

o1到o3的快速迭代

o1发布约三四个月后就发布了o3,在ARK-AGI benchmark上从20-30%直接提高到70-80%,在Frontier Math上从~1%提高到~25%。o3-mini的价格降到o1-mini的三分之一——很可能是被DeepSeek逼出来的。

三、DeepSeek R1-Zero:纯RL的优美

R1-Zero的核心理念来自论文标题中的关键词"Incentivizing"——不要教模型怎么做,而是鼓励它。这个词呼应了OpenAI研究员Hongyu在MIT的演讲标题:"Don't Teach, Incentivize"

核心突破

R1-Zero的方法

从DeepSeek V3 Base模型出发(未经任何后训练),直接运行GRPO强化学习算法。不需要SFT(监督微调),不需要冷启动数据,模型自己涌现出了复杂的推理能力,包括自我纠错、搜索和反思。

潘嘉怡
你不要教模型具体该怎么做,而是告诉他什么好什么不好,让他自己摸索出来。当整个问题足够复杂,人其实没有办法一步步教会他怎么做。类比就是:给一个人一条鱼,不如教他打鱼;教他打鱼,不如先让他知道鱼有多香,然后让他饿着肚子——他自己就会有足够的奖励,自己激励自己学会怎么打鱼,而且可能打得比你更好。

R1-Zero的两张核心图

Fig.2:性能随训练步数攀升

AIME精度从最初的~15%,经过约8000步强化学习后达到~70%,接近o1水平。使用consensus@16(多次采样取众数)后可进一步提升。曲线是一条漂亮的近似线性增长。

Fig.3:思维链长度自发增长

每个回复的平均token数从最初的~100个增长到~10,000个,提高了近20倍。曲线同样是一条漂亮的直线——模型在强化学习中自己发现了:"如果我在推理时做更多思考、生成更多token、用更多算力,我的性能就能提升。"这就是推理时拓展(test-time scaling)的来源。

R1-Zero 训练过程:性能与思维链长度的共同增长

"Zero"的命名渊源

来自AlphaGo Zero——不借助任何人类先验知识,从零开始学习。R1-Zero虽然经过了互联网预训练(不完全"零"),但它没有像R1那样经过思维模式的冷启动,而是直接通过强化学习涌现出推理能力。这在理论上意味着:依赖更少的人类先验,上限可能更高。

四、GRPO算法:丢掉价值函数

GRPO是DeepSeek在约一年前的DeepSeek-Math论文中首次提出的算法,是PPO(Proximal Policy Optimization)的一个简化变体。R1和K1.5都不约而同地采用了类似的"无价值函数"路线。

为什么要丢掉价值函数

PPO(传统方法)

  • 训练两个模型:策略模型 + 价值模型
  • 价值模型学习每一步的好坏
  • 理论上能提供更精细的信号
  • 需要双倍算力,训练更复杂

GRPO(DeepSeek方法)

  • 只训练策略模型,丢掉价值模型
  • 对一组采样做相对排序(归一化)
  • 向好的学习,舍弃差的
  • 算力节省,训练更稳定

价值函数失效的根本原因

在长思维链推理模型中,价值函数面临一个本质困难:模型学会了自我纠错。例如,模型输出"1+1=3,不对,1+1其实等于2,答案是2"——在这种情况下,中间的"=3"是错误还是有价值的探索?因为后面能纠错,所以它可能只是一次"不够优的尝试"。当模型具备无限纠错能力时,精确的价值函数几乎不可能学习。

算法细节

GRPO的三个核心组件

  • Advantage归一化:对每batch(如1000次尝试)中的结果做相对排序,均值为0、标准差为1,分出好坏
  • Off-policy数据复用:通过重要性重采样技巧,允许使用"稍微过时"的数据,提高数据利用率
  • KL散度约束:限制训练模型不要偏离参考模型太远,防止训练崩溃
潘嘉怡
跟做理论强化学习的同学聊天后,主要感慨是:这样的算法在强化学习领域算是极其简单和直接的,并没有很深的技巧。用非常简单直接的方法,解决了一些一定要解决的问题,得到一个非常简单明了的训练损失函数。

K1.5的异曲同工

Kimi K1.5虽然用了细节不同的损失函数,但核心思路完全一致:当价值函数估计不准时,就直接舍弃它,只做策略梯度训练。R1和K1.5从两个独立的方向收敛到了同一个结论——这强烈暗示这是一种发现而非发明。

五、奖励函数:Rule-based的胜利

强化学习需要奖励函数告诉模型"做得好不好"。R1-Zero的奖励函数设计极为简洁,只有两部分。

1.0
Accuracy Reward(答对奖励)
0.1
Format Reward(格式奖励)

为什么不用神经网络奖励模型

三种奖励方案的对比

  • Rule-based Reward(R1采用):基于规则验证,如数学题答案对错、代码能否通过测试。无reward hacking风险,但适用范围有限
  • Outcome Reward Model(传统RLHF采用):神经网络对整个回复打分。存在reward hacking风险——模型可能学会"放很多emoji"来骗奖励
  • Process Reward Model(Let's Verify Step by Step):对每一步打分。标注成本极高,且在长思维链中因自纠错行为导致步骤对错模糊
潘嘉怡
如果你的reward model训练没有调好,有可能奖励模型会觉得回复中有很多emoji就是好事。然后你用这个奖励函数训练出来的模型,就会输出非常非常多的emoji,人看起来就会非常的一言难尽。这就是reward hacking——奖励破解的具体体现。

模板设计:极简主义

R1-Zero的提示模板同样极简:告诉模型先把推理过程放在<think>标签中,最后把答案放在<answer>标签中。没有教它怎么推理,没有教它搜索或纠错。一切推理能力都是在训练中涌现的。

六、Aha Moment:模型的自我觉醒

这是整篇论文最核心的高潮部分——DeepSeek发现,在模型训练的某个时刻,R1-Zero自己涌现出了自我纠错能力。

论文高潮

Aha Moment的具体表现

模型在解题过程中一步步推导,突然自己输出了:"Wait, wait, there's an aha moment. I can try here."(等一下,这里有一个aha时刻,我可以看一看。)然后它重新检验了之前的式子,发现有问题,最后解决了问题。

为什么Aha Moment如此重要

这种自纠错能力完全不是研究员写入模型的,而是模型在强化学习中自发涌现。这意味着:(1) 技术路线是对的;(2) 从科学角度增长了对该路线可拓展性的信心;(3) 当我们再投入几个数量级的算力后,很可能出现更加复杂、更加漂亮的推理能力。这与围棋中AlphaGo的"神之一手"本质相同——superhuman的能力只能通过强化学习涌现,监督学习永远无法达到。

潘嘉怡
强化学习是我们现在唯一已知的可以达到superhuman performance的方法。包括下围棋也好、打游戏也好,都是通过告诉模型哪个好哪个不好,模型自己最终达到了超越人类的能力。这些是人类开发者没有想过的、预料之外的行为模式。这也就是强化学习的一种美吧。

关于模型的"意识"

当被问到"模型有没有意识"时,嘉怡回应:Geoffrey Hinton认为现代模型已经有意识——"如果你只看输入输出,它跟人一样。你给它一句话,它能回复,回复得甚至比我还好。你里面换成模型,输入输出都一样,你就能说它没有意识吗?"这虽然是一个不太好定义的问题,但大家开始认真探讨它,本身就说明模型能力已经有了卓绝的突破。

七、DeepSeek R1:从专家到通才

R1-Zero虽然科学上极美,但存在实际问题:输出可读性差、语言混杂、只擅长理工科推理。R1是在此基础上的工程化落地版本。

R1的四步训练流水线

Step 1:冷启动SFT

用少量精心挑选的长思维链数据微调V3 Base,给模型一个推理模式的初始化——展示"你可以搜索、可以纠错、可以反思"。

Step 2:面向推理的大规模RL

在数学、代码、科学、逻辑推理等领域运行GRPO强化学习。对语言混杂现象增加惩罚。产出一个推理专家模型

Step 3:拒绝采样 + 蒸馏融合

从推理专家采样60万推理数据(筛除错误、混杂语言、格式不佳的),从V3采样20万通用数据。共80万高质量数据微调V3 Base,得到一个"通才"模型。

Step 4:全场景RL

对推理任务用rule-based reward,对非推理任务用reward model,同时做最后一轮强化学习。产出最终的R1商业模型。

DeepSeek R1 四步训练流水线

R1-Zero vs R1:哪个更重要?

R1-Zero(科学意义)

  • 技术上更"干净"——纯RL涌现
  • 更少依赖人类先验知识
  • 上限可能更高
  • 但性能不如R1、通用性差

R1(工程意义)

  • 商业可用的production模型
  • 性能追平OpenAI o1
  • 通用性强、用户体验好
  • 工程上更成熟的落地方案
潘嘉怡
同时发布两个模型——一个偏技术向,一个偏工程向——在技术报告发布上非常不常见。他们的研究员可能也觉得R1-Zero这个趋势非常有意思、技术突破非常好玩,所以愿意花很大篇幅先讲R1-Zero。

八、Kimi K1.5:异曲同工的工程美学

Kimi K1.5与DeepSeek R1几乎前后脚发布,两篇报告的主要思路异曲同工,但K1.5提供了更多的工程细节。

DeepSeek R1 报告风格

  • 算法精妙、写法干净漂亮
  • 像一篇优美的算法论文
  • 有R1-Zero这个"爆款"发现
  • 隐藏了很多技术细节(算力用量、超参数等)
  • 读起来震撼、令人兴奋

Kimi K1.5 报告风格

  • 工程创新细节非常丰富
  • 数据构造、奖励函数构造方法完整
  • 缺少一个"爆款"发现点
  • 对复现者来说有大量可学习的内容
  • 读起来"没有那么的爆款及令人激动"

K1.5的独特贡献

思维链长度控制

K1.5花了相当长的篇幅讨论如何把思维链砍短——这与DeepSeek允许思维链自由增长的策略不同。K1.5的Appendix中展示了约20人团队负责贡献启动数据。

Curriculum Learning(课程学习)

K1.5展示了如果用课程学习的方式——给模型与其能力相适应的难度的题——模型能学得更快且更好。这一实验在其Fig.9中有清晰展示。

K1.5为什么没有"爆"

三个原因

  • 缺乏开源传统:Kimi在海外没有"自来水粉丝",DeepSeek则因长期开源文化积累了大量关注
  • 缺乏爆款发现:没有R1-Zero的Aha Moment这样的令人震撼的科学发现
  • 首次发报告:这是Kimi第一次发技术报告,缺乏"厚积薄发"的基础
潘嘉怡
Kimi K1.5其实是个非常漂亮的工作。如果大家看了这两篇报告的话,它们的相似度非常高,可以说异曲同工。作为Moonshot团队的成员,确实应该收到更好的关注和激励。

九、知识蒸馏:大模型教小模型

DeepSeek开源了从1.5B到70B的一系列蒸馏模型,性能表现令人震惊。

蒸馏的惊人效果

模型参数量AIME表现对比
R1蒸馏-Qwen 1.5B1.5BGPT-4o高10-20%手机都能跑的模型超过前沿大模型
R1蒸馏-Qwen 32B32B远超R1-Zero-Qwen 32B蒸馏 > 小模型自己做RL
R1-Zero-Qwen 32B32B与QwQ-32B-Preview几乎一致不同路线收敛到相似性能
关键发现

蒸馏优于小模型直接RL

从大模型(600B+ MoE)蒸馏到小模型的效果,远超过小模型自己做强化学习。原因是:大模型能力更强,能探索到更复杂、更有益的推理模式。探索完成后交给小模型学习,比小模型自己笨拙地探索好得多。类比就是:笨学生不能只是抄老师的答案,还需要自己"对症下药"做强化学习——蒸馏+RL组合效果最佳

蒸馏的潜在问题

幻觉风险

蒸馏后的模型可能产生更多幻觉——因为"老师说啥你就信啥"。如果老师模型既会中文和英文,但蒸馏到一个只会中文的模型,英文的那些技巧因为训练数据不够学不到,模型就会模仿一些浅层模式(如英文句子开头),产生奇怪的输出。这也是为什么蒸馏后还需要再做一轮强化学习。

十、失败的尝试:PRM与MCTS

DeepSeek在论文中坦诚分享了之前的失败尝试——这些方向曾被行业寄予厚望,但最终被简单的RL方法碾压。

过程奖励模型(PRM)的困境

为什么PRM失败了

  • 步骤难以定义:在通用推理任务中,什么是"一步"?竖式乘法的每一行是一步吗?还是整个计算是一步?
  • 纠错导致评估模糊:当模型会自我纠错时,中间某步"错误"可能是有价值的探索
  • 自动化训练效果差:之前的自动化PRM训练算法效果不理想,而人工标注成本极高且无法拓展
  • 必然导致reward hacking:只要用神经网络奖励模型,模型就会找到破解方法

被OpenAI"带偏"的行业

OpenAI在o1之前发布的最后一篇公开论文就是关于PRM的"Let's Verify Step by Step"。由于它与o1之间有约一年的时间差,且此后OpenAI不再公开任何信息,很多团队误认为PRM是o1的关键技术路线,投入了大量时间。潘嘉怡评价:"他们不一定是有意的,但这个结果看起来确实是给大家带拐了一些。"PRM在"best-of-N selection"(采样多次挑最优)场景中仍然有效,但在大规模RL训练中被证明无用。

蒙特卡洛树搜索(MCTS)的困境

为什么MCTS在LLM中不work

  • 搜索空间太大:词表可能有1万-15万个token,每一步都有巨大的分支空间,远不像围棋那样有限
  • "步"难以定义:与PRM同样的问题——每一步的粒度无法确定
  • 价值估计不准:MCTS依赖每一步的价值估计来做剪枝,但在通用推理中价值函数无法精确训练
  • AlphaGo的成功不可复制:围棋有完美定义的步骤和环境,但通用推理场景下这些条件不成立
潘嘉怡
DeepSeek之前都有论文专门做过PRM和MCTS——一个是DeepSeek-Math Paper,一个是DeepSeek-Prover。他们能第一个漂亮地复现o1,不是巧合,他们是各种方向都试过,最后发现直接做强化学习是通的。

十一、成本分析:后训练的经济学

潘嘉怡在节目中做了一个"信封背面计算"(back of envelope calculation),估算R1的训练成本。

R1训练成本估算

参数估算值说明
训练步数~10,000步强化学习总步数
每步采样数~1,000个回复数量级估算
每个回复长度~10,000 token训练后期平均值
总生成token数~1000亿10K x 1K x 10K
R1 API价格$2.2/百万tokenDeepSeek公开价格
按API价格计算~$200K实际内部成本更低
$10万-$100万
R1 强化学习训练成本估算
$600万
V3 预训练成本
2%-17%
后训练/预训练成本比

后训练Scaling的巨大空间

目前后训练用的算力相对预训练仍是"毛毛雨"水平。按OpenAI研究员的判断,后训练的Scaling Law进展会非常快——"因为你的算力现在算力很少,你要增长十倍,在Scaling Law上往前走会很快。"嘉怡甚至预测,R1级别的性能在一两年后可能只用一个DGX就能复现。

预训练 vs 后训练:算力投入与产出不对称

十二、三篇报告全景对比

技术路线对比

维度OpenAI o1DeepSeek R1Kimi K1.5
公开程度仅Blog Post,不开源完整技术报告+全开源技术报告,不开源
核心方法RL + test-time scaling(细节未公开)GRPO + rule-based reward类似策略梯度 + curriculum learning
价值函数未知不用(GRPO)不用(显式论述为何放弃)
奖励函数未知Rule-based(accuracy + format)Rule-based + reward model混合
冷启动数据未知少量长思维链SFT类似
独特贡献开创范式、设置谜题R1-Zero纯RL涌现、蒸馏实验思维链长度控制、课程学习
报告风格精心设置信息量的"谜语"算法优美、Aha Moment爆款工程细节丰富、复现价值高
AIME性能~80%(最早展示)~70%(R1-Zero),R1追平o1与R1接近
潘嘉怡
这三家公司目前的技术路线都很一样。这个路线与其说是一个公司的发明,它更像是一种发现——大家发现用强化学习在足够强的语言模型上进行训练,会涌现出长思维链,同时让模型在推理任务上性能明显提升。这像是个发现,所以大家路线都挺一致的。

"乘法"隐喻

思维模型

预训练 x 推理时算力 = 模型性能

OpenAI研究员曾比喻:模型性能大致等于预训练算力乘以推理时算力。过去我们在预训练上投入了大量算力,但推理非常便宜——继续推进预训练已经过于昂贵。有了推理时算力后,GPT-4 + 大量推理时算力,可能就能达到未来GPT-5/GPT-6才能达到的高度。正如OpenAI研究员所说:"o1 is sort of GPT-6 in your hand."

十三、开源文化与技术传播

R1的爆火与DeepSeek长期坚持的开源文化密不可分。嘉怡在节目中分享了多个观察。

开源对行业的连锁反应

OpenAI开始反思

Sam Altman在AMA中表示:"我们觉得之前的行为站在了历史的错误的一面,后面会想想看是否要进行开源。"研究员补充可能会开源一系列老旧的、不再用于商业的模型。

Kimi开始开源

Kimi也开始进行开源举措,后续可能会有更多技术报告的公开行为。

整个生态加速繁荣

开源减少了重复造轮子的浪费,降低了技术普及成本。网友已经开始自己部署R1模型。

开源创造文化认同

正如梁文峰所说,开源创造了一种文化和认同。DeepSeek因为长期的开源传统,在海外积累了大量"自来水粉丝"。当R1发布时,这些积累转化为了爆发式的传播力。Kimi虽然技术不弱,但因为缺乏这种长期积累,传播效果差了一个量级。

商业模式的挑战

API vs 订阅:两种路线

  • API模式:面临开源模型竞争、同质化严重、可替换性极强——"你只用改几个代码,给另一个公司充点钱就好了"
  • 订阅模式(ChatGPT式):每月付费享受全套技术能力,竞争更少、有一定护城河。OpenAI内部研究员个人倾向认为ChatGPT订阅比API赚钱多得多

十四、数据标注:AI的教练

虽然R1展示了强化学习的美,但整个技术路线仍然依赖一种新的人类劳动——数据标注

标注需求的变化

传统SFT标注

  • 需要上万甚至100万量级的SFT数据
  • 标注内容:问题+完整回答
  • 标注人员:通用标注员即可
  • 成本中等

RL时代的标注

  • 需要高质量的"问题+标准答案"对
  • 题目必须足够难才对模型有训练价值
  • 需要各方向博士生、专家级标注员
  • OpenAI以每小时$100-$200雇佣博士生标注
张小珺
我们可以把这个数据标注人员理解成AI的教练、AI的培训员。

数据标注三要素

  • 足够难:模型已经会的问题没有训练价值
  • 覆盖专业知识:数学、代码、科学等领域都需要
  • 与用户需求挂钩:标注的方向要对应实际使用场景

三家公司(DeepSeek、Kimi、OpenAI)对数据标注的细节都"藏得非常深"——"这也说明这其实才是他们可能最重视的方面之一。"

DeepSeek的"情商"之谜

张小珺观察到DeepSeek模型的中文回复特别"浪漫"、喜欢发表情、情商很高。嘉怡猜测这与后训练中的价值对齐有关——"说不定是梁文峰在某一个数据标注要求里面加了一条,要求标注员倾向于更浪漫的回复"。听说DeepSeek找了很多北大中文系的人做标注,这可能直接影响了模型的"人格"。

十五、未来方向:Agent与自博弈

DeepSeek自述的未来方向

R2或后续模型的改进目标

  • Function Calling:使用外界函数调用的能力
  • 多轮对话与工具使用:从单次推理到多轮交互
  • 格式化输出:如JSON等结构化输出
  • 语言混杂问题:非中英文语言仍会偶尔切换到英文
  • 软件工程任务:从竞赛题(100行函数)拓展到SWE-Bench、MLE-Bench等真实工程任务

Agent:推理走入物理世界

下一个前沿

从推理模型到智能体

推理模型是单次:给一个问题,输出答案。智能体是多轮:给一个任务,模型与环境交互——编辑文件、运行命令、浏览网页——一步步完成复杂任务。OpenAI的deep research、computer use等产品就是这个方向。核心区别:大语言模型开始调动外部世界

Self-Play:摆脱人类监督

多智能体自博弈

OpenAI的Noam Brown(扑克AI Libratus的创造者)在o1发布后成立了Multi-agent Research Team。嘉怡猜测他们内部有想法用self-play(自博弈)解决数据标注的瓶颈——多个智能体互相博弈,能产生不依赖人类监督的训练信号。"现在还八字没一撇,但OpenAI在赌,说不定就实现了。"

DeepSeek会beat OpenAI吗?

竞争格局分析

  • DeepSeek的优势:梁文峰在AI决策上可能比Dario Amodei或Sam Altman更清晰;组织效率极高,资源转化为创新的能力突出
  • OpenAI的护城河:(1) 算力极其充沛——几十万张H100,星际正门(Stargate)目标几百万张B100/B200,比国内有一到两个数量级差距;(2) 组织创新能力目前没有明显破绽
  • Meta的反面教材:尽管研究员出色,但因组织管理、官僚体系、KPI考核模式,Llama 3已非常落后且无架构创新

十六、启示与延伸思考

1. "最优美的算法最干净"——简洁性是真理的标志

R1的核心突破来自一个极其简单的设定:Base模型 + GRPO + rule-based reward。没有价值函数、没有过程奖励、没有蒙特卡洛树搜索。行业花了数月时间探索的PRM、MCTS等复杂方法,最终被简单的策略梯度碾压。嘉怡感慨:"你会在想,啊,然后它就这么简单,当时怎么自己想多了?"这呼应了物理学中"Big Lesson"的理念——真正有效的方法往往是最简单的。

2. 后训练是当下收益最高的算力投入方向

预训练成本已到千万美金级别且增长缓慢,而后训练仅用预训练2%以下的成本就实现了媲美甚至超越的能力提升。这是一个典型的不对称机会:后训练的Scaling Law处于极早期,"没几个月丢十倍的算力进去"完全可行。后训练可能是大模型领域未来1-2年内回报率最高的投资方向。

3. 涌现不是魔法,但需要门槛

R1-Zero的Aha Moment——模型自主发展出搜索、纠错、反思能力——是一种涌现现象。但它有前提:Base模型的能力必须达到一定阈值。嘉怡在TinyZero复现中发现,3B模型在简单任务上能看到涌现,但7B模型在同一任务上可能就看不到。这是一个相变(phase transition):模型能力与任务难度必须匹配。

4. "发现"而非"发明"——三条独立路径的收敛

DeepSeek、Kimi和OpenAI从三个独立方向收敛到了几乎相同的技术路线:丢掉价值函数、用简单的策略梯度、依赖rule-based reward。嘉怡的判断是"这更像是一种发现"。当多个独立研究者在同一时间发现同一个真理,这通常意味着:该发现是必然的,条件已经成熟。类似于牛顿和莱布尼茨同时发明微积分。

5. 开源是竞争力的乘数而非减数

DeepSeek的开源策略被证明是一个极为成功的竞争策略:它不仅没有削弱竞争力,反而通过文化认同和社区效应放大了影响力。OpenAI公开承认"站在了历史的错误的一面"。梁文峰的判断——"开源创造文化和认同"——在R1的传播效果中得到了完美验证。

6. 数据标注从"劳动密集型"转向"知识密集型"

RL时代的数据标注不再是简单的文本标注,而是需要博士级专家构造足够难的问题和精确的答案。OpenAI以每小时$100-$200的价格雇佣博士生。这意味着数据标注行业将经历一次结构性升级——从"数据工厂"模式转向"AI教练"模式。三家公司对此都严格保密,恰恰说明这是最核心的竞争壁垒之一。

7. 预训练 + 后训练 = "两条腿走路"

预训练并没有被淘汰——GPT-5可能今年出来,两条路线是相辅相成的。OpenAI总管研究的高管Mark Chen也表示会在预训练和后训练两方面同时推进。正确的理解是:预训练建设"知识库和推理模式的数据库",后训练则把这些知识和模式用在具体任务上。两者不是替代关系,而是乘法关系。

8. 算力差距是中国AI最大的结构性风险

嘉怡坦率指出:OpenAI目前可能有几十万张H100,星际正门目标几百万张B100/B200。这与国内有"一到两个数量级的差距",而且"这个东西很难很难弥补"。DeepSeek的效率创新令人钦佩,但当后训练Scaling Law继续推进,算力差距终将成为不可忽视的约束。

9. 从推理到Agent是确定性最高的下一步

R1在竞赛式短题目上已经非常强,但在软件工程等多轮、长周期、需要工具使用的任务上还有巨大空间。OpenAI已经在稳步推进o系列在多轮工具使用上的能力(deep research、computer use)。Coding Agent可能是物理世界之前最大的AI应用突破——"大概不到18个月就有巨大变化"。

延伸阅读