本期节目邀请了加州大学伯克利分校人工智能实验室博士生潘嘉怡,她的研究方向集中在用强化学习做语言模型的后训练,也是全网第一个对R1-Zero进行小规模复现的研究者(TinyZero项目)。节目以逐段逐句的方式讲解DeepSeek R1、Kimi K1.5和OpenAI o1三篇关键技术报告。
大规模预训练范式确立。
约两年半后发布,预训练成本估计在5000万美金左右。
又过去近两年,GPT-5仍未发布。DeepSeek V3等模型的基础能力并未显著超过GPT-4。
按照OpenAI的命名规律,每一代模型需要约100倍的有效算力。GPT-5可能需要2亿美金以上的训练成本。Ilya Sutskever也曾表示预训练可能马上就要到头了。核心问题是:除了预训练算力之外,有没有其他可以拓展的维度?
DeepSeek V3的后训练成本仅为预训练的0.2%,这意味着在后训练方向上投入更多算力有极大的潜在收益。整个后训练的Scaling Law仍处于极早期,增长空间极为陡峭。
o1是OpenAI发布的第一代推理模型,其核心贡献是证明了:用强化学习的方式,可以让后训练和推理时的算力获得可拓展的提升,同时让性能呈线性近似提升。
o1发布约三四个月后就发布了o3,在ARK-AGI benchmark上从20-30%直接提高到70-80%,在Frontier Math上从~1%提高到~25%。o3-mini的价格降到o1-mini的三分之一——很可能是被DeepSeek逼出来的。
R1-Zero的核心理念来自论文标题中的关键词"Incentivizing"——不要教模型怎么做,而是鼓励它。这个词呼应了OpenAI研究员Hongyu在MIT的演讲标题:"Don't Teach, Incentivize"。
从DeepSeek V3 Base模型出发(未经任何后训练),直接运行GRPO强化学习算法。不需要SFT(监督微调),不需要冷启动数据,模型自己涌现出了复杂的推理能力,包括自我纠错、搜索和反思。
AIME精度从最初的~15%,经过约8000步强化学习后达到~70%,接近o1水平。使用consensus@16(多次采样取众数)后可进一步提升。曲线是一条漂亮的近似线性增长。
每个回复的平均token数从最初的~100个增长到~10,000个,提高了近20倍。曲线同样是一条漂亮的直线——模型在强化学习中自己发现了:"如果我在推理时做更多思考、生成更多token、用更多算力,我的性能就能提升。"这就是推理时拓展(test-time scaling)的来源。
来自AlphaGo Zero——不借助任何人类先验知识,从零开始学习。R1-Zero虽然经过了互联网预训练(不完全"零"),但它没有像R1那样经过思维模式的冷启动,而是直接通过强化学习涌现出推理能力。这在理论上意味着:依赖更少的人类先验,上限可能更高。
GRPO是DeepSeek在约一年前的DeepSeek-Math论文中首次提出的算法,是PPO(Proximal Policy Optimization)的一个简化变体。R1和K1.5都不约而同地采用了类似的"无价值函数"路线。
在长思维链推理模型中,价值函数面临一个本质困难:模型学会了自我纠错。例如,模型输出"1+1=3,不对,1+1其实等于2,答案是2"——在这种情况下,中间的"=3"是错误还是有价值的探索?因为后面能纠错,所以它可能只是一次"不够优的尝试"。当模型具备无限纠错能力时,精确的价值函数几乎不可能学习。
Kimi K1.5虽然用了细节不同的损失函数,但核心思路完全一致:当价值函数估计不准时,就直接舍弃它,只做策略梯度训练。R1和K1.5从两个独立的方向收敛到了同一个结论——这强烈暗示这是一种发现而非发明。
强化学习需要奖励函数告诉模型"做得好不好"。R1-Zero的奖励函数设计极为简洁,只有两部分。
R1-Zero的提示模板同样极简:告诉模型先把推理过程放在<think>标签中,最后把答案放在<answer>标签中。没有教它怎么推理,没有教它搜索或纠错。一切推理能力都是在训练中涌现的。
这是整篇论文最核心的高潮部分——DeepSeek发现,在模型训练的某个时刻,R1-Zero自己涌现出了自我纠错能力。
模型在解题过程中一步步推导,突然自己输出了:"Wait, wait, there's an aha moment. I can try here."(等一下,这里有一个aha时刻,我可以看一看。)然后它重新检验了之前的式子,发现有问题,最后解决了问题。
这种自纠错能力完全不是研究员写入模型的,而是模型在强化学习中自发涌现。这意味着:(1) 技术路线是对的;(2) 从科学角度增长了对该路线可拓展性的信心;(3) 当我们再投入几个数量级的算力后,很可能出现更加复杂、更加漂亮的推理能力。这与围棋中AlphaGo的"神之一手"本质相同——superhuman的能力只能通过强化学习涌现,监督学习永远无法达到。
当被问到"模型有没有意识"时,嘉怡回应:Geoffrey Hinton认为现代模型已经有意识——"如果你只看输入输出,它跟人一样。你给它一句话,它能回复,回复得甚至比我还好。你里面换成模型,输入输出都一样,你就能说它没有意识吗?"这虽然是一个不太好定义的问题,但大家开始认真探讨它,本身就说明模型能力已经有了卓绝的突破。
R1-Zero虽然科学上极美,但存在实际问题:输出可读性差、语言混杂、只擅长理工科推理。R1是在此基础上的工程化落地版本。
用少量精心挑选的长思维链数据微调V3 Base,给模型一个推理模式的初始化——展示"你可以搜索、可以纠错、可以反思"。
在数学、代码、科学、逻辑推理等领域运行GRPO强化学习。对语言混杂现象增加惩罚。产出一个推理专家模型。
从推理专家采样60万推理数据(筛除错误、混杂语言、格式不佳的),从V3采样20万通用数据。共80万高质量数据微调V3 Base,得到一个"通才"模型。
对推理任务用rule-based reward,对非推理任务用reward model,同时做最后一轮强化学习。产出最终的R1商业模型。
Kimi K1.5与DeepSeek R1几乎前后脚发布,两篇报告的主要思路异曲同工,但K1.5提供了更多的工程细节。
K1.5花了相当长的篇幅讨论如何把思维链砍短——这与DeepSeek允许思维链自由增长的策略不同。K1.5的Appendix中展示了约20人团队负责贡献启动数据。
K1.5展示了如果用课程学习的方式——给模型与其能力相适应的难度的题——模型能学得更快且更好。这一实验在其Fig.9中有清晰展示。
DeepSeek开源了从1.5B到70B的一系列蒸馏模型,性能表现令人震惊。
| 模型 | 参数量 | AIME表现 | 对比 |
|---|---|---|---|
| R1蒸馏-Qwen 1.5B | 1.5B | 比GPT-4o高10-20% | 手机都能跑的模型超过前沿大模型 |
| R1蒸馏-Qwen 32B | 32B | 远超R1-Zero-Qwen 32B | 蒸馏 > 小模型自己做RL |
| R1-Zero-Qwen 32B | 32B | 与QwQ-32B-Preview几乎一致 | 不同路线收敛到相似性能 |
从大模型(600B+ MoE)蒸馏到小模型的效果,远超过小模型自己做强化学习。原因是:大模型能力更强,能探索到更复杂、更有益的推理模式。探索完成后交给小模型学习,比小模型自己笨拙地探索好得多。类比就是:笨学生不能只是抄老师的答案,还需要自己"对症下药"做强化学习——蒸馏+RL组合效果最佳。
蒸馏后的模型可能产生更多幻觉——因为"老师说啥你就信啥"。如果老师模型既会中文和英文,但蒸馏到一个只会中文的模型,英文的那些技巧因为训练数据不够学不到,模型就会模仿一些浅层模式(如英文句子开头),产生奇怪的输出。这也是为什么蒸馏后还需要再做一轮强化学习。
DeepSeek在论文中坦诚分享了之前的失败尝试——这些方向曾被行业寄予厚望,但最终被简单的RL方法碾压。
OpenAI在o1之前发布的最后一篇公开论文就是关于PRM的"Let's Verify Step by Step"。由于它与o1之间有约一年的时间差,且此后OpenAI不再公开任何信息,很多团队误认为PRM是o1的关键技术路线,投入了大量时间。潘嘉怡评价:"他们不一定是有意的,但这个结果看起来确实是给大家带拐了一些。"PRM在"best-of-N selection"(采样多次挑最优)场景中仍然有效,但在大规模RL训练中被证明无用。
潘嘉怡在节目中做了一个"信封背面计算"(back of envelope calculation),估算R1的训练成本。
| 参数 | 估算值 | 说明 |
|---|---|---|
| 训练步数 | ~10,000步 | 强化学习总步数 |
| 每步采样数 | ~1,000个回复 | 数量级估算 |
| 每个回复长度 | ~10,000 token | 训练后期平均值 |
| 总生成token数 | ~1000亿 | 10K x 1K x 10K |
| R1 API价格 | $2.2/百万token | DeepSeek公开价格 |
| 按API价格计算 | ~$200K | 实际内部成本更低 |
目前后训练用的算力相对预训练仍是"毛毛雨"水平。按OpenAI研究员的判断,后训练的Scaling Law进展会非常快——"因为你的算力现在算力很少,你要增长十倍,在Scaling Law上往前走会很快。"嘉怡甚至预测,R1级别的性能在一两年后可能只用一个DGX就能复现。
| 维度 | OpenAI o1 | DeepSeek R1 | Kimi K1.5 |
|---|---|---|---|
| 公开程度 | 仅Blog Post,不开源 | 完整技术报告+全开源 | 技术报告,不开源 |
| 核心方法 | RL + test-time scaling(细节未公开) | GRPO + rule-based reward | 类似策略梯度 + curriculum learning |
| 价值函数 | 未知 | 不用(GRPO) | 不用(显式论述为何放弃) |
| 奖励函数 | 未知 | Rule-based(accuracy + format) | Rule-based + reward model混合 |
| 冷启动数据 | 未知 | 少量长思维链SFT | 类似 |
| 独特贡献 | 开创范式、设置谜题 | R1-Zero纯RL涌现、蒸馏实验 | 思维链长度控制、课程学习 |
| 报告风格 | 精心设置信息量的"谜语" | 算法优美、Aha Moment爆款 | 工程细节丰富、复现价值高 |
| AIME性能 | ~80%(最早展示) | ~70%(R1-Zero),R1追平o1 | 与R1接近 |
OpenAI研究员曾比喻:模型性能大致等于预训练算力乘以推理时算力。过去我们在预训练上投入了大量算力,但推理非常便宜——继续推进预训练已经过于昂贵。有了推理时算力后,GPT-4 + 大量推理时算力,可能就能达到未来GPT-5/GPT-6才能达到的高度。正如OpenAI研究员所说:"o1 is sort of GPT-6 in your hand."
R1的爆火与DeepSeek长期坚持的开源文化密不可分。嘉怡在节目中分享了多个观察。
Sam Altman在AMA中表示:"我们觉得之前的行为站在了历史的错误的一面,后面会想想看是否要进行开源。"研究员补充可能会开源一系列老旧的、不再用于商业的模型。
Kimi也开始进行开源举措,后续可能会有更多技术报告的公开行为。
开源减少了重复造轮子的浪费,降低了技术普及成本。网友已经开始自己部署R1模型。
正如梁文峰所说,开源创造了一种文化和认同。DeepSeek因为长期的开源传统,在海外积累了大量"自来水粉丝"。当R1发布时,这些积累转化为了爆发式的传播力。Kimi虽然技术不弱,但因为缺乏这种长期积累,传播效果差了一个量级。
虽然R1展示了强化学习的美,但整个技术路线仍然依赖一种新的人类劳动——数据标注。
三家公司(DeepSeek、Kimi、OpenAI)对数据标注的细节都"藏得非常深"——"这也说明这其实才是他们可能最重视的方面之一。"
张小珺观察到DeepSeek模型的中文回复特别"浪漫"、喜欢发表情、情商很高。嘉怡猜测这与后训练中的价值对齐有关——"说不定是梁文峰在某一个数据标注要求里面加了一条,要求标注员倾向于更浪漫的回复"。听说DeepSeek找了很多北大中文系的人做标注,这可能直接影响了模型的"人格"。
推理模型是单次:给一个问题,输出答案。智能体是多轮:给一个任务,模型与环境交互——编辑文件、运行命令、浏览网页——一步步完成复杂任务。OpenAI的deep research、computer use等产品就是这个方向。核心区别:大语言模型开始调动外部世界。
OpenAI的Noam Brown(扑克AI Libratus的创造者)在o1发布后成立了Multi-agent Research Team。嘉怡猜测他们内部有想法用self-play(自博弈)解决数据标注的瓶颈——多个智能体互相博弈,能产生不依赖人类监督的训练信号。"现在还八字没一撇,但OpenAI在赌,说不定就实现了。"
R1的核心突破来自一个极其简单的设定:Base模型 + GRPO + rule-based reward。没有价值函数、没有过程奖励、没有蒙特卡洛树搜索。行业花了数月时间探索的PRM、MCTS等复杂方法,最终被简单的策略梯度碾压。嘉怡感慨:"你会在想,啊,然后它就这么简单,当时怎么自己想多了?"这呼应了物理学中"Big Lesson"的理念——真正有效的方法往往是最简单的。
预训练成本已到千万美金级别且增长缓慢,而后训练仅用预训练2%以下的成本就实现了媲美甚至超越的能力提升。这是一个典型的不对称机会:后训练的Scaling Law处于极早期,"没几个月丢十倍的算力进去"完全可行。后训练可能是大模型领域未来1-2年内回报率最高的投资方向。
R1-Zero的Aha Moment——模型自主发展出搜索、纠错、反思能力——是一种涌现现象。但它有前提:Base模型的能力必须达到一定阈值。嘉怡在TinyZero复现中发现,3B模型在简单任务上能看到涌现,但7B模型在同一任务上可能就看不到。这是一个相变(phase transition):模型能力与任务难度必须匹配。
DeepSeek、Kimi和OpenAI从三个独立方向收敛到了几乎相同的技术路线:丢掉价值函数、用简单的策略梯度、依赖rule-based reward。嘉怡的判断是"这更像是一种发现"。当多个独立研究者在同一时间发现同一个真理,这通常意味着:该发现是必然的,条件已经成熟。类似于牛顿和莱布尼茨同时发明微积分。
DeepSeek的开源策略被证明是一个极为成功的竞争策略:它不仅没有削弱竞争力,反而通过文化认同和社区效应放大了影响力。OpenAI公开承认"站在了历史的错误的一面"。梁文峰的判断——"开源创造文化和认同"——在R1的传播效果中得到了完美验证。
RL时代的数据标注不再是简单的文本标注,而是需要博士级专家构造足够难的问题和精确的答案。OpenAI以每小时$100-$200的价格雇佣博士生。这意味着数据标注行业将经历一次结构性升级——从"数据工厂"模式转向"AI教练"模式。三家公司对此都严格保密,恰恰说明这是最核心的竞争壁垒之一。
预训练并没有被淘汰——GPT-5可能今年出来,两条路线是相辅相成的。OpenAI总管研究的高管Mark Chen也表示会在预训练和后训练两方面同时推进。正确的理解是:预训练建设"知识库和推理模式的数据库",后训练则把这些知识和模式用在具体任务上。两者不是替代关系,而是乘法关系。
嘉怡坦率指出:OpenAI目前可能有几十万张H100,星际正门目标几百万张B100/B200。这与国内有"一到两个数量级的差距",而且"这个东西很难很难弥补"。DeepSeek的效率创新令人钦佩,但当后训练Scaling Law继续推进,算力差距终将成为不可忽视的约束。
R1在竞赛式短题目上已经非常强,但在软件工程等多轮、长周期、需要工具使用的任务上还有巨大空间。OpenAI已经在稳步推进o系列在多轮工具使用上的能力(deep research、computer use)。Coding Agent可能是物理世界之前最大的AI应用突破——"大概不到18个月就有巨大变化"。