本期嘉宾何俊贤是香港科技大学计算机系助理教授,研究方向为大模型推理(reasoning),从很早就开始关注DeepSeek的系列研究。在DeepSeek R1发布后五天内,何俊贤团队发布了类R1工作的复现,实际上该工作在两个月前就已启动。
DeepSeek尚未成立,何俊贤通过幻方(DeepSeek母公司)了解到其拥有5000张A100,并搭建了免费开放给高校的超算系统"萤火集群"。试用后感到"非常impressive"——一个仅100多人的量化公司做出了非常成熟的超算系统。
得知幻方要孵化一个"像OpenAI一样探索AGI的公司"。当时包括何俊贤在内"很多人也不是很看好"——国内百模大战已经开始,幻方作为量化公司"起步有点偏晚"。
DeepSeek发布第一篇论文(DeepSeek LLM),"让我觉得非常的尊重他们的工作"——质量高、完全开源、论文写得像学术界的风格。从此认定这是一家独特的公司。
何俊贤总结了DeepSeek区别于其他大模型公司的几个核心特质:
何俊贤本人正是中文大模型第一个榜单C-Eval的制作者。DeepSeek在第一篇论文中做了一件当时没有任何公司愿意做的事——公开对照实验揭露刷榜行为:
何俊贤团队后来在2024年上半年做了新的evaluation来检测刷榜行为,发现DeepSeek release的base model确实没有刷榜,"但相比之下,国内不少模型其实是有刷榜行为"。当时唯一另一家同样公开揭露刷榜的公司是昆仑万维的Skywork。
DeepSeek的第一篇论文(2024年1月)本质上是对Meta Llama2的复现,模型架构和训练方法与Llama2完全一致,但在两个方面展现了"高校实验室的style":
通过在小模型上做实验,拟合出数学函数关系,从而预测大模型训练的最优配置和最终效果。意义:用很小的代价,在训练之前就预测出半年后大模型会是什么效果。GPT-4的论文也画过类似的图。
Llama2使用cosine学习率调度,需要预先指定总训练token数。DeepSeek改用multi-step线性调度——学习率先保持常数,到某个时间点突然降低——使得训练过程中可以灵活增加数据。最终发现效果与cosine一致。
当时已有广泛传言GPT-4和GPT-3.5都是MoE模型——"所以他们才能做到那么便宜"。MoE的核心优势:模型虽然有100B参数,但每次推理只激活其中一小部分(如10B),推理成本大幅下降而模型能力不减。
稠密模型(Dense):不管什么输入,所有参数都参与计算。稀疏模型(MoE):将参数分成多个"专家",每次只激活其中少数——比如有128个专家,每次只选2个。总参数很大(知识存储充分),但推理成本与小模型相当。
| 创新 | 以前的做法 | DeepSeek的做法 | 意义 |
|---|---|---|---|
| 专家数量 | 8个或16个 | 64个(后来V2升至160个) | 更细粒度的知识分化,避免不同专家之间"学很多重复的东西" |
| 共享专家 | 无 | 2个Shared Expert + 64个Routed Expert | 通用知识(语言理解、常识)由共享专家承载,专有知识由路由专家承载 |
何俊贤认为这篇论文更像是一个study——在小规模上验证想法,为后续大规模的V2铺路。145B的实验虽然未完成(仅训练了200B token,远少于标准的2T),但初步验证了"这条路很promising",给了团队信心去做后面的V2。
DeepSeek V2(2024年5月)是一篇"非常非常重要的paper"——不仅沿用了MoE的细粒度专家设计,更提出了全新的Multi-head Latent Attention(MLA,多头潜在注意力)机制,这是DeepSeek的纯原创发明。
传统Transformer中,每个历史token都有一个高维的Key和Value向量需要存储(KV Cache),占用大量GPU内存。MLA的核心思路:不直接存储高维K和V,而是存储一个低维的"压缩潜在向量"C。比如原来K和V各是1024维,C可能只有100维。需要时再通过矩阵乘法还原。存储空间直接缩减为原来的十分之一。
| 方案 | 原理 | KV Cache | 性能影响 |
|---|---|---|---|
| MHA(多头注意力) | 每个头独立的K和V | 最大 | 最好 |
| GQA(分组查询注意力) | 多个头共享一组K和V,减少组数 | 中等 | 组越少效果越差 |
| MQA(多查询注意力) | 所有头共享一个K和V | 最小 | 性能下降明显 |
| MLA(DeepSeek原创) | 低维压缩+矩阵还原 | 相当于GQA仅2.25个组 | 效果优于2.25组GQA |
DeepSeek V3(2024年12月)是R1的基座模型,也是DeepSeek在基座路线上的集大成之作。
| 技术 | 来源 | 说明 |
|---|---|---|
| MoE架构 | DeepSeek MoE (2024.1) | 沿用细粒度专家 + 共享专家设计,规模进一步扩大 |
| MLA | DeepSeek V2 (2024.5) | 沿用多头潜在注意力,持续压缩KV Cache |
| FP8训练 | 首次大规模成功 | 低精度训练——"虽然不是他们发明的,但之前没有人真的在大规模训练里面做成功过" |
| Multi-token Prediction | Meta论文提出,DeepSeek首次大规模应用 | 一次预测多个token,提升训练效率 |
| Auxiliary-loss-free balancing | V3原创 | 新的专家负载均衡方法,不需要辅助损失函数 |
| 蒸馏 | 常规操作 | 对R1的长思维链进行蒸馏回V3基座 |
DeepSeek V3给何俊贤的感觉是团队"可能也没有那么在乎这个产品"——"他们就是部署了一下",没做精细的后训练优化。部署成本极低所以也不太在乎用户规模。"他们可能就稍微部署了一下,然后就继续做下一个模型。"整体保持了一贯的低调research style。
何俊贤将DeepSeek的九篇关键论文梳理为两条平行发展的技术路线——基座路线和推理路线,最终在R1中汇聚。
何俊贤指出,DeepSeek在国外最早建立知名度的并不是通用模型,而是代码模型。原因有三:
DeepSeek Coder V2基于DeepSeek V2的MoE基座做continue pre-training。何俊贤特别强调了其中一个对照实验——关于奖励模型(Reward Model)vs 规则奖励的比较:
这个结论与后来R1完全矛盾——R1对代码只用compiler(规则),不用Reward Model,效果反而更好。何俊贤分析:当时unit test的coverage不够全,导致规则奖励"很noisy"。"实际上这个不太准是有办法解决的——比如搞更多的unit test,它可能就准了。但是他们当时没试过。"
Math Shepherd是一篇"很像学术小论文"的工作,但在学界地位很高——它是公开的第一篇不依赖人类标注来构建过程监督奖励模型的工作。
核心思路:判断第N步对不对,就让模型从第N步开始继续往下写很多条不同的路径。如果很多路径最终都能得到正确答案,就认为第N步是对的;如果怎么写都得不到正确答案,就认为第N步是错的。
Math Shepherd论文中有一张"在当时看来很前沿"的图——横坐标是sample数量(k),纵坐标是准确率。当sample更多response并用PRM挑选最好的,准确率持续提升。何俊贤指出:"这就是早期的test-time scaling,后来O1和R1都会画这样的图。"
DeepSeek Math(2024年中)是何俊贤"自己很喜欢的一篇paper"——这里诞生了后来被R1带火的GRPO(Group Relative Policy Optimization)算法。
PPO(OpenAI的经典强化学习方法)需要四个模型同时运行:Policy Model、Reward Model、Reference Model、Value Model。每个模型都很大(比如100B),训练资源消耗巨大。GRPO的核心改进:去掉Value Model——不再用单独的模型估算advantage,而是一次sample多个response,用它们的平均奖励作为baseline。空出来的显存和算力可以用于其他计算,训练效率大幅提高。
何俊贤分析Online RL没有流行的三个原因:
DeepSeek自己写道:"It seems the improvement is attributed to boosting the correct response rather than enhancement of fundamental capability"——RL可能只是把已有的正确答案排到前面,并没有真正提升模型的根本能力。
这再次体现了DeepSeek的诚实——"他明明报的结果有好很多,他反过来还给自己泼一盆冷水。还要写在后面。"然后紧接着探讨"如果看起来不是真的work,要怎么实现真的很work"——这直接指向了后来R1的突破方向。
何俊贤认为R1是"今天讲的这么多paper里面最简单的一篇"——因为前面所有的积累(V3基座、GRPO算法)和弯路(Reward Model、MCTS)都已走完,最终的方案变得极其简洁。
没有Reward Model,没有MCTS,没有蒸馏(对于R1-Zero),没有复杂的decoding策略。"就这两个东西,这两个都是规则的。"
完整的R1在R1-Zero基础上增加了:
纵观DeepSeek的推理路线,一条清晰的"弯路→回归"轨迹贯穿始终:
跟随OpenAI PRM路线,构建过程监督奖励模型。结论:需要Reward Model
对比实验显示Reward Model优于规则奖励(compiler/unit test)。结论:仍需Reward Model
GRPO诞生,但仍搭配过程监督Reward Model使用。观察到RL可能没有真正提升能力。结论:Reward Model的泛化是大问题
定理证明场景天然有可验证的反馈(Lean引擎),开始不训练Reward Model,只用01规则。
数学和代码完全使用规则奖励,抛弃Reward Model。路径"收敛到了比较简单的东西上"。
何俊贤将DeepSeek的创新分为两类:
| 创新 | 首次提出 | 核心价值 | 后续影响 |
|---|---|---|---|
| MLA(多头潜在注意力) | DeepSeek V2 (2024.5) | KV Cache压缩93%,推理速度提升5.76倍 | R1发布后开始被海外广泛关注和采用 |
| GRPO | DeepSeek Math (2024中) | 去掉Value Model,RL训练效率大幅提升 | R1带火后被各种开源框架实现 |
DeepSeek的创新不是突发的灵感,而是累积性的diverge——从Llama2出发,每一步都做出与主流不同的选择(更多专家、MLA而非GQA、GRPO而非PPO、规则而非Reward Model),最终形成了一套完全自有的技术体系。"他自己就有一套逻辑和他们发明的东西,而且他们很坚信他们自己的东西。"
DeepSeek的低成本不是单点突破,而是贯穿每一篇论文、每一个设计决策的系统性追求:
| 论文 | 降本手段 | 效果 |
|---|---|---|
| DeepSeek LLM | Scaling Law精确化(避免浪费算力) | 更精准预测大模型效果,减少试错成本 |
| DeepSeek MoE | MoE架构(激活参数远小于总参数) | 推理成本降至Dense模型的40% |
| DeepSeek V2 | MLA(KV Cache压缩) | KV Cache减少93%,生成速度快5.76倍 |
| DeepSeek V2 | Device-level平衡 | 最大化GPU集群利用率 |
| DeepSeek Math | GRPO(去掉Value Model) | RL训练少维护一个大模型 |
| DeepSeek V3 | FP8训练 | 低精度训练进一步降低算力需求 |
| DeepSeek R1 | 规则奖励(去掉Reward Model) | 又少维护一个大模型 |
| 维度 | 具体内容 |
|---|---|
| DeepSeek LLM | 7B + 67B Dense,训练2T token,复现Llama2并修正Scaling Law |
| DeepSeek MoE | 16B MoE(激活2.8B),64个专家+2个共享专家,40%算力达到7B Dense效果 |
| DeepSeek V2 | 236B MoE(激活21B),160个专家+2个共享专家,KV Cache降93%,速度快5.76倍 |
| DeepSeek V3 | 671B MoE(激活37B),训练14.8T token,成本~$5.5M,FP8训练,Multi-token Prediction |
| DeepSeek Coder | 1.3B-33B全系列开源,continue pre-training方式,长期是最强开源代码模型 |
| Math Shepherd | 首个不依赖人类标注的过程监督奖励模型,开源 |
| DeepSeek Math | 7B数学模型,发明GRPO,首次发现Online RL优于Offline |
| DeepSeek Prover | 形式化定理证明,使用Lean引擎作为规则验证器,开始抛弃Reward Model |
| DeepSeek R1 | 基于V3基座,GRPO + 规则奖励,R1-Zero跳过SFT直接RL,AIME从0.2涨到0.8 |
| 刷榜对照实验 | C-Eval刷榜前47分 vs 刷榜后71分,差距24分 |
| 幻方早期算力 | 5,000张A100(2022年底)+ 10,000张较老A100 + ~2,000张H800 |
| 价格战 | DeepSeek V2引发国内大模型价格战(2024年5月),API定价远低于同行且有利润 |
| MLA效果 | KV Cache相当于GQA仅2.25个组,但性能更强 |
| GRPO的影响 | DeepSeek Math首创,R1带火后被各开源框架广泛实现 |
| R1复现时间 | 何俊贤团队在R1发布后5天内发布复现 |
| 社区趋同 | "最后大家收敛到的做reasoning强化学习的方式都是同一套方式"——规则奖励 + Online GRPO |
DeepSeek最独特的地方不是某项具体技术,而是在大规模训练中敢于做没有人做过的事。当Mixtral用8个专家、全世界用GQA、所有人用PPO时,DeepSeek用160个专家、发明MLA、发明GRPO。每一次创新都意味着巨大的算力风险——"万一做出来效果不行怎么办?"这需要对背后science的深刻理解作为支撑,也需要组织文化上的容错空间。何俊贤多次用"勇敢"形容DeepSeek的选择。
DeepSeek像高校实验室多过像商业公司——详细的论文、开诚布公的对照实验、揭露刷榜行为、不追求宣传流量、不做精细的产品优化。这种"反商业直觉"的做法,反而让DeepSeek在技术层面积累了独特优势:严谨的Scaling Law研究让训练配置更精准、对science的理解让创新有理论支撑、诚实的文化让团队不会自欺欺人地追求虚假指标。
DeepSeek在推理路线上走了至少两年的"弯路"——从Math Shepherd的过程监督到Coder V2的Reward Model,整个community都在追随OpenAI的PRM路线。但DeepSeek的诚实让他们写出了"RL可能没有真正work"的自我质疑,最终在R1中收敛到最简单的规则奖励。这个过程说明:弯路不是浪费——正是因为深入理解了Reward Model为什么不work(泛化问题),才能有信心在大规模训练中完全放弃它。
从Scaling Law的精确化到MoE的稀疏激活,从MLA的KV Cache压缩到GRPO去掉Value Model,从FP8训练到规则奖励去掉Reward Model——DeepSeek在每一个技术层级都在追求效率。这不是事后的成本优化,而是从第一篇论文开始就内嵌在研究DNA中的追求。最终671B参数的V3只需要$5.5M训练成本,2000张H800就能完成。
何俊贤直言,OpenAI的"Let's Verify Step by Step"论文"引导整个community走上了Reward Model这条弯路"——而OpenAI自己最终做O1时"可能也不是这么做的"。这提示一个重要教训:权威机构发的论文不等于权威机构实际在做的事。DeepSeek从第一篇论文就challenge了Google DeepMind的Chinchilla Scaling Law,这种"尊重权威但不盲从权威"的态度是其创新能力的根源。
R1是九篇论文中"最简单的一篇"——因为所有复杂的工作(基座架构、训练方法、奖励信号探索)都已经在之前的论文中完成。R1只需要把V3(基座)+ GRPO(算法)+ 规则奖励(信号)组合起来,然后scale up。这个"极简"的最终方案是之前所有"复杂"探索的结晶——简洁不是一开始就有的,而是在走遍弯路之后收敛出来的。
DeepSeek从复现Llama2起步,但每一步都做出与主流不同的微小选择——更多专家、MLA而非GQA、GRPO而非PPO。这些选择逐步累积,使DeepSeek"跟别人越来越不一样",最终形成了一套完全自有的技术栈。这种"累积性diverge"的模式值得关注:不需要一开始就革命性创新,但需要在每个决策点都有勇气做出不同的选择,并坚持自己的判断。
DeepSeek在海外的早期知名度主要来自Coder系列——因为通用模型竞品太多(Llama、Mistral),而大模型(V2/V3)普通开发者部署不动。Coder从1.3B到33B的完整尺寸梯队让所有人都能用上,成为DeepSeek最早"出圈"的产品。这启示:技术能力需要通过可用的产品载体传播,而不是论文分数。
DeepSeek R1在文本生成方面的优美表达让人印象深刻,但其论文主要聚焦在数学和代码。何俊贤给出两个猜测:(1)DeepSeek在文科数据上有比较好的积累,包括传闻中的中文系标注团队;(2)推理能力的RL训练可能有跨领域迁移效果——"让模型的各种推理变得很有逻辑,可能迁移到了其他任务上"。但"到底哪个contribute更大,我们也不清楚"。