← 返回张小珺主页
一、嘉宾与选题背景
本期节目延续论文系列,邀请MIT计算机科学与人工智能实验室(CSAIL)博士二年级学生杨松林主讲。杨松林的导师是宋瀚,研究方向为硬件高效的序列建模,主要集中在高效注意力方面,尤其是线性注意力(Linear Attention)。
节目定位与形式
- 杨松林主讲论文,张小珺作为非技术背景的"观众"提问
- 目标:帮助更多人了解最前沿的AI研究,"做你的赛博组会"
- 三篇论文均集中在改进注意力机制以处理长文本任务
- DeepSeek与Kimi同一天发布论文,被戏称为"中门对狙"
三篇论文概览
| 公司 | 论文 | 技术路线 | 署名亮点 |
| DeepSeek | Native Sparse Attention (NSA) | 动态稀疏注意力 | 梁文锋 |
| Kimi | MoBA (Mixture of Block Attention) | 动态稀疏注意力 | 杨植麟、苏剑宁 |
| MiniMax | MiniMax-01 | 线性注意力 + Softmax混合架构 | - |
杨松林
我确实被那个Native Sparse Attention甚至比Full Attention要好这一点吸引住了。可能我之后也会做一些Dynamic Sparse Attention方面的研究。
二、注意力机制基础:为什么Attention如此重要
注意力机制是当前几乎所有大语言模型的核心架构组件。杨松林从历史脉络和技术原理两个层面进行了梳理。
~2015年
注意力机制最早出现在LSTM上,对hidden state做attention,建模序列中位置间的交互。
2017年
Google发表"Attention is All You Need",用Transformer架构完全取代LSTM。核心优势:训练并行度极高,在GPU上非常高效,scalability极强。
2017年至今
从GPT到当前所有大语言模型,均基于Transformer架构。千问、Llama等主流模型都使用Full Attention。
核心概念
Self-Attention的工作原理
对于每两个token,计算一个注意力分数(Attention Score)。每个token有三个向量:Query(查询)、Key(键)、Value(值)。
- 每个token用其Query与之前所有位置的Key做点积,得到缩放后的attention score
- 通过Softmax操作进行归一化
- 用归一化后的分数对各位置的Value向量做线性组合,得到输出
- 自回归建模中有Causal Mask,防止token attend到未来位置
杨松林
更简单理解Attention的话,就是每两个token之间,我们要建模一个它们的交互。它就是一个pairwise的建模过程,可以建模序列里面每两个位置的交互程度。
Full Attention的核心瓶颈
~16x
Tensor Core vs ALU速度差(A100)
随着推理时长思维链(Long Chain-of-Thought)和长文本处理需求的增长,这些瓶颈成为亟需解决的问题。
三、为什么此时发布:Test-time Scaling的需求
杨松林分析了三家公司在2025年初集中发布注意力机制论文的深层原因。
- 去年Ilya Sutskever在NeurIPS的keynote中表示,training time的scaling可能到头了
- 靠"堆数据"这条路可能走不通,需要更底层的架构创新
- Test-time Scaling成为新方向:将更多计算花在推理阶段
各公司的具体动机
DeepSeek
- R1证明了长思维链(Long Chain-of-Thought)能解锁推理能力
- 长思维链 = 大量decoding = 需要更高效的decoding架构
- NSA十有八成为DeepSeek V4做铺垫
Kimi
- Kimi 1.5也包含Test-time Scaling的内容
- 长文本处理是Kimi的主打卖点,需要降低Prefilling开销
- 平方复杂度在长文档场景下"吃不消"
杨松林指出,OpenAI也发博表示其reasoning模型的思路与DeepSeek和Kimi很像。三家公司不约而同走向了通过高效注意力机制支撑Test-time Scaling的方向。但OpenAI是"Close AI",具体使用什么架构无从得知。GPT-3的技术报告中提到使用了Sparse Attention,但可能是静态的(如Big Bird那种),后续版本的技术细节越来越少。
四、三篇论文的共性与差异总览
杨松林将三篇论文分为两个技术分支进行定位。
动态稀疏注意力(DeepSeek & Kimi)
- 稀疏性由Query动态决定,不是事先预定
- 对比静态稀疏(如Big Bird),灵活度更高
- 核心思想来自Quest(ICLR 2024,MIT韩松组):每个Query动态选择要attend的KV Block
- 保留全部KV Cache,不丢弃任何信息
- 共性大于差异,都可视为Quest的follow-up
混合架构(MiniMax)
- 线性注意力 + Softmax注意力的混合
- 大部分层用线性注意力,少量层用Softmax
- 线性注意力可写成RNN形式,推理时常数空间/时间复杂度
- 完全不同于动态稀疏的思路
- 总体推理复杂度为线性
关键区分
动态 vs 静态稀疏注意力
静态稀疏注意力(如Google的Big Bird):稀疏模式事先给定,如跳跃式、固定窗口等pattern。动态稀疏注意力:稀疏性由每个token的Query动态决定,不同token可能attend到完全不同的Key-Value block。这是DeepSeek和Kimi共同的核心思想。
五、DeepSeek NSA:架构设计的三个分支
Native Sparse Attention(NSA)名字中的"Native"意味着:在硬件上能够进行原生训练的稀疏注意力。这是第一个将动态稀疏注意力用于大规模预训练的模型。
三分支架构
分支一:压缩注意力(Compressed Attention)
- 将Key和Value分成若干连续Block
- 每个Block通过压缩操作得到一个代表性表示
- Query与所有Block的压缩表示做Attention
- 粗粒度的全局信息捕获
- 关键作用:梯度可以通过此分支反传,为Block Selection提供训练信号
分支二:选择注意力(Selected Attention)
- 基于压缩注意力的score,选出Top-N个最重要的Block
- 对选中Block内的所有token做细粒度Attention
- Block size = 64,选择Top-16个Block
- 核心继承自Quest框架
分支三:滑动窗口注意力(Sliding Window Attention)
- 利用语言建模的inductive bias:邻近token往往更重要
- 这一现象被称为Attention Sink(在Streaming LLM中提出)
- 直接attend最近邻窗口内的token
三个分支各自产出一个output,通过门控机制(Gating)自适应调节各分支的贡献权重。门控由模型自己学习,每个Query位置根据自身表示决定各分支的配比。
杨松林
很多人看到这个图就觉得这份工作没什么创新,每一个module都是已有的。Sliding Window Attention用的非常多,Block Selection在Quest里面已经有了,Compression也不少见。那这一篇不就是一个缝合怪吗?但我觉得这一篇的significance不在于这些小模组,它更重要的是把Dynamic Sparse Attention做了一些改进,能让它在训练和推理时都更高效。
六、NSA的硬件亲和设计与GQA优化
NSA的核心创新不在于算法概念,而在于如何让算法在现代GPU硬件上高效运行。这需要理解GPU的内存层级和计算单元特性。
硬件背景
GPU内存层级
SRAM(共享内存):容量小但带宽极大,类似CPU的Cache。HBM(全局显存):如A100的80GB显存,带宽显著低于SRAM。Flash Attention的核心思想就是尽可能将计算保留在SRAM中,减少SRAM与HBM之间的通信。
GQA下的关键洞察
杨松林详细解释了NSA如何利用Group Query Attention (GQA)的特性实现加速。
Multi-Head / Multi-Query / Group Query Attention的区别
- MHA:每个Head有独立的K、V、Q,KV Cache最大
- MQA:所有Head共享同一份K和V,KV Cache最小但performance可能退化
- GQA:折中方案,每组(Group)内的Head共享K和V。如Llama用4个Query Group
NSA的核心优化:强制同组Head选择相同的KV Block
在GQA下,如果同组的不同Head去attend不同的KV Block,需要分别读取不同的KV Cache子集,增加读取开销。NSA的做法是:
- 对同组所有Head的attention score求和,得到统一的selection score
- 基于统一score做Top-K选择,确保同组Head选择相同的KV Block
- 这样在decoding时只需读取一份共享的KV Cache,大幅减少内存读取
"凑矩阵乘法"的暴力美学
Flash Attention通过Query Block维度凑矩阵乘法来利用Tensor Core。NSA不能这样做(因为不同token需要不同的KV Block),所以改用Head维度凑矩阵乘法:
- 同组Head共享KV Block选择 → 可以将Head数量作为batch维度
- 为满足Tensor Core的最小尺寸要求(Triton中H需至少16),大幅增加Head数量
- DQ维度192,总head数达到约12,000,远超常规的hidden dimension 2560
- 这种"向上投影"在常规设计中不会这么做,但DeepSeek不在乎:只要训练和推理都高效就行
杨松林
他就是在硬件的限制下面,能在刀尖舔血一样,同时还能坚守大原则。这几乎就是一个完美的Query-aware Sparse Attention的玩法。基本上没有什么浪费,又能利用到该利用的硬件计算资源。
这种"搞很多很多attention head + 大幅向上投影"的做法,与DeepSeek V3中MLA的思路一脉相承。DeepSeek的考虑是:反正从头训练,只要最终inference time和training time都硬件高效就行。MOE框架下参数量不是问题,所以这种up projection完全合理。
七、NSA的惊艳结果:全线压制Full Attention
杨松林认为这是整期节目中"最亮眼的地方":NSA不仅更快,而且在几乎所有benchmark上都优于Full Attention。
训练Loss曲线
NSA与Full Attention的训练Loss对比,NSA全程略低于Full Attention,始终在其下方。
下游评估结果
速度提升
Triton-based公平比较(NSA Triton vs Flash Attention Triton)
- 在较短序列上就已经比Full Attention快
- 序列长度越长,加速比越大
- 在64K序列上达到近10倍加速
- Decoding阶段由于GQA优化,相比Quest和MoBA也有天然优势
NSA vs Full Attention 加速比随序列长度变化
杨松林
这个全线压制可能是今天整个我们讲的最亮眼的地方。因为它就是真的既要还要——又要performance,又要速度。太厉害了。不愧是DeepSeek,非常惊艳的效果。
R1风格推理的验证
使用DeepSeek自身的SFT recipe进行后训练,NSA的R1 version在推理任务上甚至优于Full Attention的R1 version,证明Dynamic Sparse Attention在reasoning领域同样有巨大潜力。
八、从头训练 vs 推理阶段稀疏化
杨松林通过NSA的Ablation Study揭示了一个关键洞察:Train from Scratch是唯一能超越Full Attention的出路。
核心发现
推理阶段稀疏化的天花板
在已训练好的Full Attention模型上,做推理阶段的稀疏化(如Quest),本质上是对Full Attention学到的attention分布的逼近(approximation)。逼近过程必然有损失,存在无法逾越的performance上限。
- Exact Top-K(直接计算attention score矩阵后取Top-K):所有Top-K方法的理论上限,但仍低于Full Attention
- Quest:以Block为单位选择,牺牲灵活度换取效率,比Exact Top-K更差
- NSA(Train from Scratch):唯一超越Full Attention的方案
为什么从头训练的Sparse Attention能更好?
两个直觉解释
- 不丢KV Cache:与H2O等丢弃KV Cache的方法不同,NSA保留所有KV Cache,只是选择性地attend。近一年的研究表明,丢弃KV Cache对performance影响很大——"你指不定这个KV Cache在之后的Query又会被用到"
- 去除冗余:Full Attention实际上非常冗余,训好的attention map中存在大量不必要的注意力分配。Sparse Attention从训练阶段就去除冗余,帮助模型更加集中注意力,不被无关token distract
Block Selection机制的Ablation
| 选择机制 | 效果 | 说明 |
| Compress Attention分支(NSA方案) | 最优 | 梯度可反传,end-to-end训练 |
| Quest风格的Heuristic Score | 较差 | 选Block的机制太heuristic,选到的Block不够好 |
| 辅助Loss的Selection | 较差 | 额外的loss信号不如直接参与output计算 |
这证明了NSA的Compress Attention分支的关键作用:它不仅提供粗粒度信息,更重要的是为Block Selection提供可反向传播的梯度信号。
九、Kimi MoBA:极简主义的设计哲学
Kimi的MoBA(Mixture of Block Attention)同样基于Quest框架,但体现了与DeepSeek截然不同的设计美学。
MoBA的简化设计
相比NSA的三个分支,MoBA做了大刀阔斧的简化:
- 砍掉Compress Attention分支
- 砍掉Sliding Window Attention分支
- 只保留中间的Selected Attention分支
- Block的重要性表示不用MLP投影,而用Mean Pooling(完全无额外参数)
- 每个Head可以自由选择不同的KV Block(不做强制共享)
NSA参数设置
- Block Size: 64
- Top-K: 16
- 三个分支 + 门控
- Head间强制共享KV Block选择
MoBA参数设置
- Block Size: 512
- Top-K: 3
- 单一分支,无额外参数
- Head间自由选择(不共享)
杨松林
Kimi的团队说他们相信SGD的力量——不需要额外的Loss,SGD就能够选到很好的Top-K Block。但我觉得这可能跟DeepSeek的Ablation Study是有出入的。
Kimi的技术实力与开源贡献
Kimi的开源动作
- MoBA已开源
- 基于Muon的新型优化器方案已开源
- 开源了Code Base和Weight
- 团队包括苏剑宁等知名研究者,研发实力在线
- 在知乎Blog上公开了完整的research心路历程,写了多个episode记录各阶段遇到的难题
十、MoBA的代价:Block Size与梯度稀疏
杨松林指出,MoBA的极简设计虽然优雅,但也付出了具体的代价。
代价一:Block Size无法太小
实现层面的瓶颈
- MoBA不能像NSA那样写出高效的单一Kernel
- 对每个KV Block,需要把所有选中它的Query Token提取出来,用连续张量存储,再调用Flash Attention Kernel
- 这个indexing和re-indexing的过程有overhead,当Block Size较小时会成为瓶颈
- 因此MoBA的Block Size被设为512(NSA是64),粒度粗了8倍
- 只选Top-3个Block,容错率远低于NSA的Top-16
代价二:SFT阶段的梯度稀疏问题
这是砍掉Compress Attention分支的直接后果:
- SFT时有很长的prompt(prefilling),这些token不参与Loss计算
- 只有后面少量token的Loss参与梯度计算
- 加上Sparse Attention,如果后面的token没有覆盖到某些Block,那些Block完全没有梯度信息
- 导致SFT的performance不佳(sub-optimal performance)
解决方案:Hybrid Approach
Kimi将最后三层切换为Full Attention,利用全局稠密梯度信号补偿稀疏注意力层的梯度缺失。这个切换之所以可行,正是因为MoBA没有引入任何额外参数——所有参数与Full Attention相同,可以自由切换。
极简设计的双面性
MoBA不引入参数的极简设计既是局限(梯度稀疏)也是优势(可自由切换)。在预训练阶段,Kimi也利用了这个特性:90%的token用Sparse Attention训练,剩余10%切换到Full Attention。Ablation Study表明这种Hybrid训练法确实能提升performance。而NSA由于有Compress Attention分支的梯度反传,天然不存在梯度稀疏问题。
加速比对比
MoBA在128K长度时才开始有明显优势,而NSA在16K-18K就已经有肉眼可见的加速。这同样是硬件亲和程度差异的体现。
十一、MiniMax-01:线性注意力与Hybrid架构
MiniMax采用了与前两家完全不同的技术路线——线性注意力(Linear Attention)与Softmax Attention的混合架构。杨松林表示这是他的"主场范围"。
MiniMax-01的架构设计
7:1的混合比例
- 每7层线性注意力后接1层Softmax Attention
- 总共80层,即这个模块重复10遍
- 线性注意力部分使用Lightning Attention
- Attention层占比约12.5%,符合10%-20%的最优区间
里程碑
第一个Scale Up到GPT-4o级别的Hybrid架构
MiniMax-01是第一个将Hybrid架构(线性注意力 + Softmax Attention)scale up到GPT-4o performance级别的模型。虽然之前学术界(如NVIDIA的Hymba、微软的Samba等)已经在小规模上验证了Hybrid架构的有效性,但MiniMax第一个在工业级规模上证明了它的可行性。
为什么不选Sparse Attention
杨松林
Sparse Attention的技术路线其实没有那么高风险。因为它还是把所有KV Cache都保留了,大家看到这个方法保留了KV Cache,心里就有个底了——大海捞针肯定能做,各种长文本看起来也没什么问题,那就可以大胆上了。而线性注意力在长文本上面确实还有非常多的质疑。Hybrid架构算是线性注意力对这种质疑的一种妥协。
十二、线性注意力的核心原理与Chunk-wise算法
杨松林从自己的研究领域出发,深入讲解了线性注意力的原理。
从Softmax到Linear
线性注意力最简单的理解:把Softmax操作去掉。这带来了一个关键数学性质——可以利用线性操作的结合律改变计算顺序:
RNN形式的线性注意力
- 调换K和V的计算顺序后,出现一个D x D的累加矩阵(Hidden State)
- 每个时刻将当前K和V的外积(outer product)加到这个矩阵中
- 这就是一个线性递推(Linear Recurrence)过程
- Hidden State是一个矩阵——Matrix-valued Hidden State,远大于传统RNN的向量Hidden State
- 这个State Expansion是线性注意力优于传统RNN的关键
传统RNN(如LSTM)
- Hidden State:一维向量
- 容量约D维
- 记忆能力有限
线性注意力
- Hidden State:D x D矩阵
- 容量D2维
- State Expansion带来更强记忆
Chunk-wise算法:解决训练效率问题
线性注意力的三种形式各有问题:并行形式是平方复杂度,循环形式无法并行且没有矩阵乘法。Chunk-wise算法是两者的折中:
- 将序列分成若干Chunk,每个Chunk只算一个最终Hidden State
- 历史Context的贡献用循环模式(复用Hidden State,可写成矩阵乘法)
- 本地Chunk内的贡献用并行模式
- 整体复杂度亚平方,不随序列长度平方增长
- 数学上是精确变换,不是近似
加Decay的进化
纯线性注意力的performance太差,关键改进是加入Decay(遗忘率),类似LSTM的Gating机制。现代线性注意力变种包括:
| 模型 | 特点 |
| RetNet | 固定Decay率,出自MSR |
| Lightning Attention | MiniMax-01使用的模型 |
| GLA (Gated Linear Attention) | Data-dependent Decay |
| Mamba 2 | 可写成线性注意力+Data-dependent Decay形式 |
| xLSTM | LSTM原作者的现代可并行版本 |
Mamba 2本质是线性注意力
杨松林特别指出,Mamba 2完全可以说是一个线性注意力模型,只是有data-dependent的Decay。其State Space Duality和Semi-separable矩阵分解的角度看起来数学复杂,但从线性注意力角度理解其实更加直观。两者的Chunk-wise算法也是等价的。
十三、Hybrid架构的验证与工程优化
RNN与Attention的互补性
RNN(线性注意力)的优势
- 固定大小Hidden State → 强制模型学习压缩
- 与"压缩即智能"概念相关联
- 推理时常数空间复杂度
- 可充当Position Encoding(自带位置信息),避免RoPE的外推问题
- 类比:人的大脑——固定脑容量
Softmax Attention的优势
- 保存所有KV Cache,不丢失信息
- 非常擅长检索类任务(Retrieval)
- 类比:翻书——随时可以回查任何历史信息
- Needle-in-a-Haystack等任务的天然优势
Hybrid架构的核心思想:两者互补。大部分层用RNN进行高效的压缩和处理,少量层用Attention做精确检索。
学术界的先期验证
Jamba(2024年初)
Mamba + Attention的Hybrid架构,较早验证了混合架构的有效性。
Hymba(NVIDIA,2024年)
Mamba作者参与,在3B-9B规模上验证Hybrid架构。Ablation Study得出Attention层占10%-20%为最优。
Samba(微软)
Mamba + Sliding Window Attention的Hybrid架构。
MiniMax-01(2025年初)
第一个将Hybrid架构scale up到GPT-4o级别的工业模型。使用Lightning Attention。
MiniMax的工程优化
扎实的Infra能力
- MOE中常见的专家并行
- Pipeline流水线并行
- 分布式的Chunk-wise线性注意力的Sequence Parallelism扩展
- 由Lightning Attention团队提供工程优化
- "这些工程优化的detail还是挺多的,也可以看出来他们工程优化非常扎实"
Hybrid架构 vs Full Attention 推理延迟对比示意
杨松林
如果一个算法它硬件不高效,它其实是很难scale up到这么大一个尺寸的。然后如果scale up不了到这么大尺寸,是很难引起别人的关注的。因为现在大家都是Bitter Lesson的信徒——如果一个东西不scale,它不是scalable的,那么大家对它的兴趣可能就会大减。
十四、三家公司的设计哲学与风险取舍
杨松林在节目中对三家公司的技术哲学做了精辟的总结和对比。
| 维度 | DeepSeek NSA | Kimi MoBA | MiniMax-01 |
| 设计哲学 | 硬件暴力美学 | 极简优雅算法 | 工程化折中 |
| 额外参数 | 有(MLP投影、门控) | 无(Mean Pooling) | Lightning Attention参数 |
| 分支数 | 3个分支 + 门控 | 1个分支 | 线性+Softmax混合 |
| KV Cache | 全部保留 | 全部保留 | 线性层用Hidden State |
| 梯度传播 | Compress分支保证稠密梯度 | 需要Hybrid切换解决稀疏 | 无特殊问题 |
| Block Size | 64(细粒度) | 512(粗粒度) | N/A |
| 比Full Attention好 | 全线压制 | 各有千秋 | Scaling行为更优 |
| 风格类比 | DeepSeek V3 MLA的延续 | 信任SGD,大道至简 | 学术共识的工业化 |
谁承担了最大的Risk?
杨松林的判断
- Sparse Attention(DeepSeek & Kimi):风险较小。保留全部KV Cache,大海捞针肯定能做,长文本也没问题,"心里有底"
- MiniMax:表面上看Hybrid架构在学术界已被反复验证(Jamba、Hymba、Samba等),risk不大。但从另一个角度看,线性注意力在长文本上的质疑仍然很多,Scale up到GPT-4o级别是最大胆的赌注
- 杨松林的结论:"可能还是MiniMax吧"
借鉴与互补
杨松林
我觉得可能他们是有两种设计哲学吧。DeepSeek更加硬件暴力美学一点,这一点也可以从他们之前的MLA看出来。Kimi这边感觉可能更加极简一点,他们就是想做一个把不必要的地方都砍掉的设计。
十五、架构创新的未来方向
杨松林的排名
3rd
MiniMax-01 — Scale Up不意外
杨松林坦言:"因为我是做线性注意力的,所以我对Hybrid Model能Scale Up毫不意外,只能无奈MiniMax排最后了。"
未来可能的架构创新方向
杨松林列举的方向
- Position Encoding革新:RoPE是否可以动两刀?换成Context-wise Projection Encoding?或直接用RNN做Position Encoding(部分Hybrid架构已在使用)
- 注意力机制:基本上只有Sparse和Linear两条路
- 长卷积(Long Convolution):如Hyena等模型使用,后来关注度下降,但可能卷土重来——"就像线性注意力和Sparse Attention卷土重来一样"
- 研究的周期性:一个东西陷入低谷后可能又会卷土重来,就像神经网络研究本身经历过几次低谷
硬件亲和的通用原则
超越具体硬件的永恒法则
杨松林反复强调,虽然有人认为算法不应该overfit硬件,但有些原则是跨硬件通用的:(1)写成矩阵乘法——矩阵乘法在任何类GPU硬件上都天生快;(2)连续数据读取——block by block的连续读取在所有硬件上都高效。"短期之内甚至长期之内,这些principle也不会有任何改变。"设计算法时提前考虑这些约束,往往被算法从业者忽略,但这正是DeepSeek成功的关键。
开源与发论文的竞争新维度
杨松林
天下苦闭源公司久矣。开源发Paper能给公司带来更大的技术影响力,可能也会给公司的股价带来一些支持。阿里就因为千问系列模型开源做得非常好,最近涨得很疯。对于追赶者来说,开源肯定是最好的方式——就像
Meta的Llama一样。
DeepSeek对中国留学生的影响
杨松林表示,DeepSeek春节以来的火爆明显改变了在美中国留学生对国内大模型的看法。以前国内"落后太多",大家都愿意去硅谷的公司学习。但现在国内追赶甚至已经超越,国内对海外留学生的吸引力增加了很多。
十六、关键技术参数汇总
| 参数/特征 | DeepSeek NSA | Kimi MoBA | MiniMax-01 |
| 注意力类型 | 动态稀疏 | 动态稀疏 | 线性 + Softmax混合 |
| KV Block Size | 64 | 512 | N/A |
| Top-K选择 | 16 | 3 | N/A |
| 头间KV Block共享 | 强制共享(同Group) | 不共享(自由选择) | N/A |
| 额外参数 | 有(MLP、门控) | 无 | 有(Lightning Attention参数) |
| 分支数 | 3(Compress + Selected + Sliding Window) | 1(Selected) | 2层类型交替 |
| 比Full Attention快(起始序列长度) | ~16K | ~128K | ~8K |
| 64K序列加速比 | ~10x | 显著(具体未给出) | 显著 |
| 比Full Attention好 | 全线压制(Loss + Benchmark) | 各有千秋 | Scaling Behavior更优 |
| Needle in Haystack | 64K全绿 | 100万级测试全绿 | Hybrid层保证检索能力 |
| SFT梯度问题 | 无(Compress分支解决) | 有(需切换最后3层为Full Attention) | 无 |
| 实际产品落地 | 预期用于V4 | 已用于Kimi产品 | 已用于MiniMax产品 |
| DQ维度 | 192 | - | - |
| 总层数 | - | - | 80(7:1比例) |
| Hidden Dim | 2560 | - | - |
| Kernel实现 | Triton | Flash Attention调用 | 定制IO优化 |
| Attention层占比 | 100%(全Sparse) | 100%(全Sparse) | ~12.5%(7:1) |
| 主要参考工作 | Quest (ICLR 2024) | Quest (ICLR 2024) | Lightning Attention, RetNet |
十七、启示与延伸思考
1. 从头训练Sparse Attention可以超越Full Attention——这是一个范式转移信号
NSA证明了一个违反直觉的结论:稀疏注意力不仅不比Full Attention差,甚至在Loss曲线和下游任务上全线压制。这意味着Full Attention本身是高度冗余的,去除冗余反而能帮助模型更好地集中注意力。这可能标志着"Attention is All You Need"时代的终结——未来的模型架构很可能不再使用Full Attention,而是从预训练阶段就采用某种形式的Sparse或Linear Attention。
2. "硬件暴力美学"vs"算法优雅"是两条合法的技术路线
DeepSeek的NSA看起来像"缝合怪"(三个分支、门控、强制共享、大量Head),但每一个设计都层层相扣、直指硬件效率极限。Kimi的MoBA看起来优雅极简(无额外参数、单一分支),但在Block Size和梯度稀疏上付出了代价。两种哲学都有其合理性,关键在于:"只要够快、performance够好,那我觉得它就是美的。"
3. "凑矩阵乘法"是当代算法设计的第一原则
三篇论文中反复出现的主题:如何将算法操作写成矩阵乘法以利用Tensor Core加速。NSA用Head维度凑,Chunk-wise算法用Chunk维度凑,甚至Flash FFT也是把FFT改写成矩阵乘法。杨松林认为这一原则是跨硬件通用的,短期和长期都不会改变。这对算法研究者的启示是:在设计算法之前就需要考虑硬件约束,而不是设计完再想办法加速。
4. 线性注意力不再是"理论上快、实际上慢"
杨松林纠正了一个常见误解:线性注意力的performance曾经很差,但从两年前开始进展非常快。加入Decay(遗忘率)是关键突破,Mamba 2本质上就是线性注意力的一个变种。MiniMax-01证明了Hybrid架构在GPT-4o级别也是有效的。大家需要update自己对线性注意力的Prior Knowledge。
5. 架构创新的"周期性回归"与DeepSeek的稀缺性
研究往往是周期性的:线性注意力、稀疏注意力、长卷积——都经历过低谷后卷土重来。但DeepSeek"非常坚持自己做架构创新"在行业中极为稀缺。大多数公司排斥架构创新,认为"堆Data就行了"。但MLA的成功和NSA的结果证明,架构创新是风险与机遇并存的——当Training Scaling Law见顶后,架构可能成为下一个主战场。
6. 开源是追赶者的最优策略
杨松林总结:"天下苦闭源公司久矣"。开源带来技术影响力和资本市场信心(如阿里因千问开源股价大涨)。对追赶者来说,闭源没有技术领先优势反而带来不利因素。DeepSeek和Kimi的开源动作(NSA开源、MoBA开源、Muon优化器开源)不仅促进了学术进步,也是企业竞争的战略选择。
7. Test-time Scaling重塑了架构设计的优先级
当推理阶段的计算预算大幅增长(长思维链、多轮推理),Decoding效率从"nice to have"变成了硬约束。这解释了为什么三家公司不约而同在同一时间窗口发布注意力机制论文。可以预见,未来的大模型竞争将从"谁的数据多"转向"谁的架构在推理时更高效"——这是一个从资源竞争转向工程与算法创新竞争的拐点。
8. Hybrid架构可能是通往AGI的"安全"路径
纯线性注意力/RNN在检索能力上有天然缺陷(固定大小Hidden State无法记住所有历史信息),纯Softmax Attention在长序列上有平方复杂度瓶颈。Hybrid架构的"人脑+书本"比喻(RNN像有限脑容量的大脑,Attention像可随时翻阅的书本)暗示:未来最优的序列模型可能天然就是混合的,而不是纯粹依赖某一种机制。MiniMax-01和后续的学术验证正在加速这一趋势。
延伸阅读
- EP.89 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——"最优美的算法最干净"
- EP.91 逐篇讲解DeepSeek关键9篇论文及创新点——"勇敢者的游戏"
- EP.119 Kimi Linear、MiniMax M2?和杨松琳考古算法变种史,并预演未来架构改进方案
- EP.117 开源一段论文探索之旅:模型范式、Infra和数据、语言、多模态的完整变迁史
- EP.97 25年Q1大模型季报:和广密聊当下最大非共识、AGI的主线与主峰
- Attention is All You Need (Vaswani et al., 2017)
- Flash Attention / Flash Attention 2 (Dao et al.)
- Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference (ICLR 2024)