← 返回张小珺主页
深度研究 Deep Dive

逐篇讲解DeepSeek关键9篇论文及创新点

#91 "勇敢者的游戏"
2025.2 · 张小珺Jun|商业访谈录 · 嘉宾:何俊贤(香港科技大学助理教授)
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 嘉宾背景与DeepSeek初印象
  2. DeepSeek的底层基因:学术风格与诚实文化
  3. 论文一:DeepSeek LLM——Llama2复现与Scaling Law
  4. 论文二:DeepSeek MoE——细粒度专家与共享专家
  5. 论文三:DeepSeek V2——MLA与"大模型界的拼多多"
  6. 论文四:DeepSeek V3——671B与极致降本
  7. 九篇论文全景图:两条技术路线
  8. 论文五/六:DeepSeek Coder——代码模型与早期推理
  9. 论文七:Math Shepherd——过程监督的自动化
  10. 论文八:DeepSeek Math——GRPO的诞生
  11. 论文九:DeepSeek R1——大道至简
  12. 奖励模型的弯路与回归
  13. 原创贡献与工程化创新
  14. 成本控制的系统性思维
  15. 关键数据汇总
  16. 启示与延伸思考

一、嘉宾背景与DeepSeek初印象

本期嘉宾何俊贤是香港科技大学计算机系助理教授,研究方向为大模型推理(reasoning),从很早就开始关注DeepSeek的系列研究。在DeepSeek R1发布后五天内,何俊贤团队发布了类R1工作的复现,实际上该工作在两个月前就已启动。

何俊贤与DeepSeek的渊源

2022年底

DeepSeek尚未成立,何俊贤通过幻方(DeepSeek母公司)了解到其拥有5000张A100,并搭建了免费开放给高校的超算系统"萤火集群"。试用后感到"非常impressive"——一个仅100多人的量化公司做出了非常成熟的超算系统。

2023年上半年

得知幻方要孵化一个"像OpenAI一样探索AGI的公司"。当时包括何俊贤在内"很多人也不是很看好"——国内百模大战已经开始,幻方作为量化公司"起步有点偏晚"。

2024年1月

DeepSeek发布第一篇论文(DeepSeek LLM),"让我觉得非常的尊重他们的工作"——质量高、完全开源、论文写得像学术界的风格。从此认定这是一家独特的公司。

何俊贤
他们好像也没有太多的那个高压的环境。就不是在一个非常高压的环境下在做大模型。他们的很多技术上的创新其实是非常勇敢的。因为大模型的投入很大,你可能投入很多很多钱进去,你去搞一个什么创新,如果最后失败了,这个代价就白花。

二、DeepSeek的底层基因:学术风格与诚实文化

何俊贤总结了DeepSeek区别于其他大模型公司的几个核心特质:

开放
不仅开源,论文技术细节公开程度极高
低调
不做铺天盖地宣传,不追流量
诚实
主动揭露刷榜行为并做对照实验
勇敢
敢于在大规模训练中尝试全新架构

刷榜事件:DeepSeek的诚实代价

何俊贤本人正是中文大模型第一个榜单C-Eval的制作者。DeepSeek在第一篇论文中做了一件当时没有任何公司愿意做的事——公开对照实验揭露刷榜行为

刷榜的量化影响

  • 原始模型C-Eval得分:47分
  • 刷榜后C-Eval得分:71分
  • 差距:24分——"这个gap是非常大的"
  • DeepSeek选择报告刷榜前的真实分数,并详细说明"如果想刷榜你应该怎么刷"
何俊贤
他们明明可以刷,明明可以把分数搞得很高很高很高,但他们不讲。他们还要报他们刷之前的效果,然后去讲他们如果刷可以刷了这么多。在那个时候是没有人写这个事情的。

对学界的验证

何俊贤团队后来在2024年上半年做了新的evaluation来检测刷榜行为,发现DeepSeek release的base model确实没有刷榜,"但相比之下,国内不少模型其实是有刷榜行为"。当时唯一另一家同样公开揭露刷榜的公司是昆仑万维的Skywork。

三、论文一:DeepSeek LLM——Llama2复现与Scaling Law深究

DeepSeek的第一篇论文(2024年1月)本质上是对Meta Llama2的复现,模型架构和训练方法与Llama2完全一致,但在两个方面展现了"高校实验室的style":

创新点一:超参数的Scaling Law

核心概念

Scaling Law(缩放定律)

通过在小模型上做实验,拟合出数学函数关系,从而预测大模型训练的最优配置和最终效果。意义:用很小的代价,在训练之前就预测出半年后大模型会是什么效果。GPT-4的论文也画过类似的图。

DeepSeek对Scaling Law的三重贡献

  • 超参数Scaling Law:以前的Scaling Law只关注模型大小和数据大小,DeepSeek第一次研究了batch size和学习率如何随算力规模变化——"这在当时是非常学术的"
  • 修正Chinchilla:发现Google DeepMind的经典Chinchilla Scaling Law估算太粗糙,没有考虑attention的计算开销,提出了更精确的算力估计公式
  • 数据质量影响:首次指出不同数据质量会影响Scaling Law的最优配置——"以前大家并没有太考虑这个问题"

创新点二:Multi-step Learning Rate Schedule

Llama2使用cosine学习率调度,需要预先指定总训练token数。DeepSeek改用multi-step线性调度——学习率先保持常数,到某个时间点突然降低——使得训练过程中可以灵活增加数据。最终发现效果与cosine一致。

模型规模与效果

  • 两个尺寸:7B和67B,对标Llama2
  • 训练2T token
  • 英文与Llama2各有千秋
  • 中文明显更强(Llama2不强调中文)

底层态度的差异

  • 其他公司:follow Llama2配置,调好数据,训出模型
  • DeepSeek:先理解背后的science,发现别人做粗糙的地方,修正后再训练
  • "把这个当成一个很严谨的science在做"

四、论文二:DeepSeek MoE——细粒度专家与共享专家

为什么做MoE(混合专家模型)

当时已有广泛传言GPT-4和GPT-3.5都是MoE模型——"所以他们才能做到那么便宜"。MoE的核心优势:模型虽然有100B参数,但每次推理只激活其中一小部分(如10B),推理成本大幅下降而模型能力不减

稠密 vs 稀疏

两种模型范式

稠密模型(Dense):不管什么输入,所有参数都参与计算。稀疏模型(MoE):将参数分成多个"专家",每次只激活其中少数——比如有128个专家,每次只选2个。总参数很大(知识存储充分),但推理成本与小模型相当。

DeepSeek MoE的两大创新

创新以前的做法DeepSeek的做法意义
专家数量8个或16个64个(后来V2升至160个)更细粒度的知识分化,避免不同专家之间"学很多重复的东西"
共享专家2个Shared Expert + 64个Routed Expert通用知识(语言理解、常识)由共享专家承载,专有知识由路由专家承载

实验结果

16B MoE vs 7B Dense

  • DeepSeek MoE 16B的激活参数仅2.8B
  • 效果与之前7B Dense模型相当
  • 关键数字:仅需40%的计算量即可达到同等性能
  • 同时训练了145B的大MoE(未训完),激活参数仅22.2B,效果接近67B Dense
何俊贤
虽然这个东西看起来其实没有那么难,但是其实要做这个尝试还是很勇敢。因为你要在很大的规模上花很大的算力去探索这种以前大家都没有这么做的东西。

这篇论文是V2的"铺路石"

何俊贤认为这篇论文更像是一个study——在小规模上验证想法,为后续大规模的V2铺路。145B的实验虽然未完成(仅训练了200B token,远少于标准的2T),但初步验证了"这条路很promising",给了团队信心去做后面的V2。

五、论文三:DeepSeek V2——MLA与"大模型界的拼多多"

DeepSeek V2(2024年5月)是一篇"非常非常重要的paper"——不仅沿用了MoE的细粒度专家设计,更提出了全新的Multi-head Latent Attention(MLA,多头潜在注意力)机制,这是DeepSeek的纯原创发明。

236B
总参数量
21B
激活参数量
93.3%
KV Cache压缩率
5.76x
生成速度提升(vs 67B)

MLA的原理:如何将KV Cache压缩到十分之一

原创发明

Multi-head Latent Attention (MLA)

传统Transformer中,每个历史token都有一个高维的Key和Value向量需要存储(KV Cache),占用大量GPU内存。MLA的核心思路:不直接存储高维K和V,而是存储一个低维的"压缩潜在向量"C。比如原来K和V各是1024维,C可能只有100维。需要时再通过矩阵乘法还原。存储空间直接缩减为原来的十分之一。

注意力机制演进:从MHA到MLA

MLA vs 之前的方案

方案原理KV Cache性能影响
MHA(多头注意力)每个头独立的K和V最大最好
GQA(分组查询注意力)多个头共享一组K和V,减少组数中等组越少效果越差
MQA(多查询注意力)所有头共享一个K和V最小性能下降明显
MLA(DeepSeek原创)低维压缩+矩阵还原相当于GQA仅2.25个组效果优于2.25组GQA

与Mixtral的对比

Mixtral 8x22B(Mistral)

  • 8个专家——"同期大家还是做8个专家"
  • 总参数约160B
  • 激活参数39B
  • 开源后发现8个专家"分化不明显"

DeepSeek V2

  • 160个专家——"突然比别人多了10倍"
  • 总参数236B(比Mixtral大90B)
  • 激活参数仅21B(比Mixtral少近一半)
  • 部署成本反而更低

"价格战"的源头

DeepSeek V2引发国内大模型价格战

  • 得益于MoE低激活参数 + MLA极小KV Cache,部署成本极低
  • API定价远低于OpenAI和国内其他厂商——"可能都不是一个数量级"
  • 关键:DeepSeek并非亏钱运营——"听说还不是亏钱在做部署,其实还是赚钱"
  • 从此被称为"大模型界的拼多多"
  • 后来有些跟价的厂商"可能有可能是亏钱在跟"
何俊贤
大家可以看到DeepSeek其实从这个开始,他们对于成本的这种经济的style就一直贯穿在他们这些paper里。

六、论文四:DeepSeek V3——671B与极致降本

DeepSeek V3(2024年12月)是R1的基座模型,也是DeepSeek在基座路线上的集大成之作。

671B
总参数(V2的近3倍)
37B
激活参数
14.8T
训练Token数
~$5.5M
训练成本

V3的关键技术演进

技术来源说明
MoE架构DeepSeek MoE (2024.1)沿用细粒度专家 + 共享专家设计,规模进一步扩大
MLADeepSeek V2 (2024.5)沿用多头潜在注意力,持续压缩KV Cache
FP8训练首次大规模成功低精度训练——"虽然不是他们发明的,但之前没有人真的在大规模训练里面做成功过"
Multi-token PredictionMeta论文提出,DeepSeek首次大规模应用一次预测多个token,提升训练效率
Auxiliary-loss-free balancingV3原创新的专家负载均衡方法,不需要辅助损失函数
蒸馏常规操作对R1的长思维链进行蒸馏回V3基座

Post-training的"反常"

DeepSeek V3的后训练做得很"浅"

  • SFT数据量偏少——"只有150万条,跟别的比不算很多"
  • RL阶段使用自创的GRPO(而非主流PPO)
  • 没有做针对刷榜的深度优化
  • "国内很多公司会刻意优化榜单数据,甚至加到基座模型里去。但DeepSeek V3据我所知这方面做的没有那么极端"

何俊贤的观察

DeepSeek V3给何俊贤的感觉是团队"可能也没有那么在乎这个产品"——"他们就是部署了一下",没做精细的后训练优化。部署成本极低所以也不太在乎用户规模。"他们可能就稍微部署了一下,然后就继续做下一个模型。"整体保持了一贯的低调research style。

七、九篇论文全景图:两条技术路线

何俊贤将DeepSeek的九篇关键论文梳理为两条平行发展的技术路线——基座路线和推理路线,最终在R1中汇聚。

DeepSeek九篇论文的两条技术路线(2024.1 - 2025.1)

基座路线(4篇)

  • DeepSeek LLM → DeepSeek MoE → V2 → V3
  • 核心主题:效率与降本
  • 原创贡献:MLA、细粒度MoE、FP8大规模训练
  • 从7B/67B Dense → 671B MoE

推理路线(5篇)

  • Coder → Coder V2 → Math Shepherd → Math → Prover → R1
  • 核心主题:强化学习与奖励信号
  • 原创贡献:GRPO、规则奖励的回归
  • 从Reward Model → Rule-based Reward

八、论文五/六:DeepSeek Coder——代码模型与早期推理

DeepSeek在海外的早期名声来自Coder

何俊贤指出,DeepSeek在国外最早建立知名度的并不是通用模型,而是代码模型。原因有三:

Coder V2的关键实验:Reward Model的"弯路"

DeepSeek Coder V2基于DeepSeek V2的MoE基座做continue pre-training。何俊贤特别强调了其中一个对照实验——关于奖励模型(Reward Model)vs 规则奖励的比较:

Coder V2的RL实验结果

  • 绿色线(SFT):不做强化学习,效果平稳
  • 蓝色线(规则奖励):用compiler/unit test判断对错——"好像不太稳定"
  • 橙色线(Reward Model):搞了一个额外的奖励模型——"发现很好"
  • 结论:当时认为Reward Model更优,规则奖励不够好

事后看来的矛盾

这个结论与后来R1完全矛盾——R1对代码只用compiler(规则),不用Reward Model,效果反而更好。何俊贤分析:当时unit test的coverage不够全,导致规则奖励"很noisy"。"实际上这个不太准是有办法解决的——比如搞更多的unit test,它可能就准了。但是他们当时没试过。"

九、论文七:Math Shepherd——过程监督的自动化

Math Shepherd是一篇"很像学术小论文"的工作,但在学界地位很高——它是公开的第一篇不依赖人类标注来构建过程监督奖励模型的工作。

背景:OpenAI的"Let's Verify Step by Step"

OpenAI的做法

  • 花大价钱请数学专业的人标注了80万条数据(PRM-800K)
  • 标注数学解题过程中每一步对不对
  • 用这些数据训练"过程监督奖励模型"(Process Reward Model, PRM)
  • 这篇论文引导了整个community走上了Reward Model的路线

DeepSeek的方案:不需要人标

核心思路:判断第N步对不对,就让模型从第N步开始继续往下写很多条不同的路径。如果很多路径最终都能得到正确答案,就认为第N步是对的;如果怎么写都得不到正确答案,就认为第N步是错的。

OpenAI PRM-800K

  • 人工标注每步对错
  • 成本极高
  • 标注数据没有开源模型

DeepSeek Math Shepherd

  • 自动构建每步标签
  • 零人工标注成本
  • 模型完全开源
  • 对照实验显示效果与人标方案相当

早期的Test-time Scaling

Math Shepherd论文中有一张"在当时看来很前沿"的图——横坐标是sample数量(k),纵坐标是准确率。当sample更多response并用PRM挑选最好的,准确率持续提升。何俊贤指出:"这就是早期的test-time scaling,后来O1和R1都会画这样的图。"

十、论文八:DeepSeek Math——GRPO的诞生

DeepSeek Math(2024年中)是何俊贤"自己很喜欢的一篇paper"——这里诞生了后来被R1带火的GRPO(Group Relative Policy Optimization)算法。

GRPO:为什么要替换PPO

原创发明

GRPO vs PPO

PPO(OpenAI的经典强化学习方法)需要四个模型同时运行:Policy Model、Reward Model、Reference Model、Value Model。每个模型都很大(比如100B),训练资源消耗巨大。GRPO的核心改进:去掉Value Model——不再用单独的模型估算advantage,而是一次sample多个response,用它们的平均奖励作为baseline。空出来的显存和算力可以用于其他计算,训练效率大幅提高。

Online RL vs Offline:一个超前的发现

DeepSeek Math的对比实验

  • Offline(离线):用当前模型生成一批数据,训练一把就结束。或者做3-5代迭代。
  • Online(在线):模型每次更新后立即生成新数据继续训练,做上百代
  • 结果:Online明显优于Offline——"这个paper很早就发现了"
  • 但这个发现没有成为主流——大部分community还在做SFT/RFT/DPO

何俊贤分析Online RL没有流行的三个原因:

  1. 训练代价大:需要的卡更多,资源更多
  2. 不稳定:搭配Reward Model时"各种参数很难work"
  3. 缺乏基础设施:开源社区没有成熟的codebase来做高效的online RL——"DeepSeek有自己的,但不开源"

Figure 7:一个让人困惑的Negative Signal

何俊贤
这个paper给了一个negative的信号——就是告诉大家RL可能没有想象中那么work。虽然k=1的时候做了RL的蓝线高很多,看起来RL很work。但当k增大(sample多个),好像模型的探索能力反而下降了。

DeepSeek自己写道:"It seems the improvement is attributed to boosting the correct response rather than enhancement of fundamental capability"——RL可能只是把已有的正确答案排到前面,并没有真正提升模型的根本能力

又一次"自泼冷水"

这再次体现了DeepSeek的诚实——"他明明报的结果有好很多,他反过来还给自己泼一盆冷水。还要写在后面。"然后紧接着探讨"如果看起来不是真的work,要怎么实现真的很work"——这直接指向了后来R1的突破方向。

十一、论文九:DeepSeek R1——大道至简

何俊贤认为R1是"今天讲的这么多paper里面最简单的一篇"——因为前面所有的积累(V3基座、GRPO算法)和弯路(Reward Model、MCTS)都已走完,最终的方案变得极其简洁。

R1的奖励函数:只有两个规则

Accuracy
最终答案对不对(数学检查答案,代码跑unit test)
Format
输出格式是否正确(先think再输出答案)

没有Reward Model,没有MCTS,没有蒸馏(对于R1-Zero),没有复杂的decoding策略。"就这两个东西,这两个都是规则的。"

R1-Zero:从基座直接做RL的突破

为什么叫"Zero"

  • 传统做法:先做SFT(监督微调)→ 再做RL(强化学习)
  • R1-Zero:跳过SFT,直接从base model做RL
  • "之前可能没有很多人这样去尝试,大家天然就觉得没必要"
  • 结果:AIME(困难数学题)从0.2-0.3一直涨到0.7-0.8
  • 思维链长度也在持续增长——模型自己学会了"想更多"
奖励信号的演进:从复杂到简洁
何俊贤
这个结果基本上就盖棺定论了——O1的一系列replication工作就盖棺定论。后来OpenAI的技术人员在Twitter上也承认,说DeepSeek可能用的技术跟他们O1用的差不多。

R1的完整版

完整的R1在R1-Zero基础上增加了:

十二、奖励模型的弯路与回归

纵观DeepSeek的推理路线,一条清晰的"弯路→回归"轨迹贯穿始终:

Math Shepherd (2024初)

跟随OpenAI PRM路线,构建过程监督奖励模型。结论:需要Reward Model

DeepSeek Coder V2 (2024)

对比实验显示Reward Model优于规则奖励(compiler/unit test)。结论:仍需Reward Model

DeepSeek Math (2024中)

GRPO诞生,但仍搭配过程监督Reward Model使用。观察到RL可能没有真正提升能力。结论:Reward Model的泛化是大问题

DeepSeek Prover (2024.8)

定理证明场景天然有可验证的反馈(Lean引擎),开始不训练Reward Model,只用01规则。

DeepSeek R1 (2025.1)

数学和代码完全使用规则奖励,抛弃Reward Model。路径"收敛到了比较简单的东西上"。

为什么规则奖励最终胜出

规则奖励的优势

  • 普适性:不管小学、初中、大学、博士的数学题,"答案对就是对"
  • 鲁棒性:不会因为训练分布而失效
  • Scale up时永远准确

Reward Model的缺陷

  • 泛化差:在小学数据上训练的模型判断大学题就不准
  • 数据越多越不稳定
  • "他总是很敏感"
何俊贤
我们之前试过很多复杂的东西,其实都不是很work。最后发现就是最简单的东西——你可能就不用奖励模型,只用rule-based reward——最后反而是最work的。也就是最后R1的方式。

十三、原创贡献与工程化创新

何俊贤将DeepSeek的创新分为两类:

纯原创算法创新(2项)

创新首次提出核心价值后续影响
MLA(多头潜在注意力)DeepSeek V2 (2024.5)KV Cache压缩93%,推理速度提升5.76倍R1发布后开始被海外广泛关注和采用
GRPODeepSeek Math (2024中)去掉Value Model,RL训练效率大幅提升R1带火后被各种开源框架实现

工程化创新与首次大规模验证(多项)

何俊贤
他们每一个阶段可能每次都只有一个小东西跟别人不一样。但是这些创新一点一点积累到后面,到我们今天看R1看V3的时候,就会发现V3有很多东西都跟别的模型不一样。

创新的连续性

DeepSeek的创新不是突发的灵感,而是累积性的diverge——从Llama2出发,每一步都做出与主流不同的选择(更多专家、MLA而非GQA、GRPO而非PPO、规则而非Reward Model),最终形成了一套完全自有的技术体系。"他自己就有一套逻辑和他们发明的东西,而且他们很坚信他们自己的东西。"

十四、成本控制的系统性思维

DeepSeek的低成本不是单点突破,而是贯穿每一篇论文、每一个设计决策的系统性追求:

论文降本手段效果
DeepSeek LLMScaling Law精确化(避免浪费算力)更精准预测大模型效果,减少试错成本
DeepSeek MoEMoE架构(激活参数远小于总参数)推理成本降至Dense模型的40%
DeepSeek V2MLA(KV Cache压缩)KV Cache减少93%,生成速度快5.76倍
DeepSeek V2Device-level平衡最大化GPU集群利用率
DeepSeek MathGRPO(去掉Value Model)RL训练少维护一个大模型
DeepSeek V3FP8训练低精度训练进一步降低算力需求
DeepSeek R1规则奖励(去掉Reward Model)又少维护一个大模型

关于DeepSeek的算力资源

  • 公开信息:约10,000张较老的A100(很早就有)
  • V3训练:约2,000张H800
  • "公开的信息其实没有很多卡"
  • V3训练成本约$5.5M——远低于同级别模型
何俊贤
他们这种创新不是为了创新而创新。这种创新更多的是他们就真的想压低成本,想让整个东西更efficient。就很勇敢地做了这些尝试。

十五、关键数据汇总

维度具体内容
DeepSeek LLM7B + 67B Dense,训练2T token,复现Llama2并修正Scaling Law
DeepSeek MoE16B MoE(激活2.8B),64个专家+2个共享专家,40%算力达到7B Dense效果
DeepSeek V2236B MoE(激活21B),160个专家+2个共享专家,KV Cache降93%,速度快5.76倍
DeepSeek V3671B MoE(激活37B),训练14.8T token,成本~$5.5M,FP8训练,Multi-token Prediction
DeepSeek Coder1.3B-33B全系列开源,continue pre-training方式,长期是最强开源代码模型
Math Shepherd首个不依赖人类标注的过程监督奖励模型,开源
DeepSeek Math7B数学模型,发明GRPO,首次发现Online RL优于Offline
DeepSeek Prover形式化定理证明,使用Lean引擎作为规则验证器,开始抛弃Reward Model
DeepSeek R1基于V3基座,GRPO + 规则奖励,R1-Zero跳过SFT直接RL,AIME从0.2涨到0.8
刷榜对照实验C-Eval刷榜前47分 vs 刷榜后71分,差距24分
幻方早期算力5,000张A100(2022年底)+ 10,000张较老A100 + ~2,000张H800
价格战DeepSeek V2引发国内大模型价格战(2024年5月),API定价远低于同行且有利润
MLA效果KV Cache相当于GQA仅2.25个组,但性能更强
GRPO的影响DeepSeek Math首创,R1带火后被各开源框架广泛实现
R1复现时间何俊贤团队在R1发布后5天内发布复现
社区趋同"最后大家收敛到的做reasoning强化学习的方式都是同一套方式"——规则奖励 + Online GRPO

十六、启示与延伸思考

1. "勇敢者的游戏":大规模训练中的创新勇气

DeepSeek最独特的地方不是某项具体技术,而是在大规模训练中敢于做没有人做过的事。当Mixtral用8个专家、全世界用GQA、所有人用PPO时,DeepSeek用160个专家、发明MLA、发明GRPO。每一次创新都意味着巨大的算力风险——"万一做出来效果不行怎么办?"这需要对背后science的深刻理解作为支撑,也需要组织文化上的容错空间。何俊贤多次用"勇敢"形容DeepSeek的选择。

2. 学术实验室的风格在工业界的胜利

DeepSeek像高校实验室多过像商业公司——详细的论文、开诚布公的对照实验、揭露刷榜行为、不追求宣传流量、不做精细的产品优化。这种"反商业直觉"的做法,反而让DeepSeek在技术层面积累了独特优势:严谨的Scaling Law研究让训练配置更精准、对science的理解让创新有理论支撑、诚实的文化让团队不会自欺欺人地追求虚假指标。

3. 弯路的价值:从Reward Model到规则奖励的收敛

DeepSeek在推理路线上走了至少两年的"弯路"——从Math Shepherd的过程监督到Coder V2的Reward Model,整个community都在追随OpenAI的PRM路线。但DeepSeek的诚实让他们写出了"RL可能没有真正work"的自我质疑,最终在R1中收敛到最简单的规则奖励。这个过程说明:弯路不是浪费——正是因为深入理解了Reward Model为什么不work(泛化问题),才能有信心在大规模训练中完全放弃它。

4. 降本增效不是口号,而是贯穿每一层的设计哲学

从Scaling Law的精确化到MoE的稀疏激活,从MLA的KV Cache压缩到GRPO去掉Value Model,从FP8训练到规则奖励去掉Reward Model——DeepSeek在每一个技术层级都在追求效率。这不是事后的成本优化,而是从第一篇论文开始就内嵌在研究DNA中的追求。最终671B参数的V3只需要$5.5M训练成本,2000张H800就能完成。

5. OpenAI的"误导"与独立思考的价值

何俊贤直言,OpenAI的"Let's Verify Step by Step"论文"引导整个community走上了Reward Model这条弯路"——而OpenAI自己最终做O1时"可能也不是这么做的"。这提示一个重要教训:权威机构发的论文不等于权威机构实际在做的事。DeepSeek从第一篇论文就challenge了Google DeepMind的Chinchilla Scaling Law,这种"尊重权威但不盲从权威"的态度是其创新能力的根源。

6. "大道至简"的收敛:R1为什么是最简单的论文

R1是九篇论文中"最简单的一篇"——因为所有复杂的工作(基座架构、训练方法、奖励信号探索)都已经在之前的论文中完成。R1只需要把V3(基座)+ GRPO(算法)+ 规则奖励(信号)组合起来,然后scale up。这个"极简"的最终方案是之前所有"复杂"探索的结晶——简洁不是一开始就有的,而是在走遍弯路之后收敛出来的

7. 累积性Diverge:从follow到独立技术体系

DeepSeek从复现Llama2起步,但每一步都做出与主流不同的微小选择——更多专家、MLA而非GQA、GRPO而非PPO。这些选择逐步累积,使DeepSeek"跟别人越来越不一样",最终形成了一套完全自有的技术栈。这种"累积性diverge"的模式值得关注:不需要一开始就革命性创新,但需要在每个决策点都有勇气做出不同的选择,并坚持自己的判断。

8. 代码模型的战略价值被低估

DeepSeek在海外的早期知名度主要来自Coder系列——因为通用模型竞品太多(Llama、Mistral),而大模型(V2/V3)普通开发者部署不动。Coder从1.3B到33B的完整尺寸梯队让所有人都能用上,成为DeepSeek最早"出圈"的产品。这启示:技术能力需要通过可用的产品载体传播,而不是论文分数。

9. 模型的"文科能力"之谜

DeepSeek R1在文本生成方面的优美表达让人印象深刻,但其论文主要聚焦在数学和代码。何俊贤给出两个猜测:(1)DeepSeek在文科数据上有比较好的积累,包括传闻中的中文系标注团队;(2)推理能力的RL训练可能有跨领域迁移效果——"让模型的各种推理变得很有逻辑,可能迁移到了其他任务上"。但"到底哪个contribute更大,我们也不清楚"。

延伸阅读