深度研究 — #119 Kimi Linear、Minimax M2？和杨松琳考古算法变种史，并预演未来架构改进方案

嘉宾背景与Linear Attention研究脉络
为什么要动Attention：长思维链的成本瓶颈
Softmax Attention vs Linear Attention：核心原理
Kimi Linear论文解读：KDA模块的设计
DeepSeek Sparse Attention vs Kimi Linear：两条路线
Minimax的反复：从M1混合到M2回退Full Attention
3:1混合比例：正在形成的行业共识
Linear Attention的考古演进史
Delta Rule：被埋没又重现光芒的关键机制
MOE之后的下一个突破：雕Attention
Transformer的天花板与Context Window的极限
硬件亲和：算法设计的第一性原理
中国算法创新 vs 硅谷：生态位差异
Linear Attention与Sparse Attention的融合猜想
研究方法论：考古、并行算法与Research Philosophy
关键数据与技术参数汇总
启示与延伸思考

一、嘉宾背景与Linear Attention研究脉络

嘉宾杨松琳，MIT CSAIL在读PhD，主要研究方向为序列模型的高效注意力机制，尤其是Linear Attention。他是开源库Flash Linear Attention的核心作者，被社区称为"Linear Attention之母"。

研究主线递进

受Stanford Hazy Research（Chris Re实验室）博客启发，进入序列建模领域
从微软亚洲研究院的RetNet出发，提升硬件效率
发现硬件优化算法可扩展到多种类似架构
从门控机制（Gating）到Delta Rule，逐步提升Linear Attention的performance
将两者合并为统一的更新规则，同时保证硬件高效训练

杨松琳

可能是在这个领域做了很多工作吧，然后尤其是还有一个开源库叫做Flash Linear Attention，这个库的话感觉这个领域的人里面很多就是会用这个库，然后包括业界也有很多就是用这个库来进行一些Linear Attention的一些探索的。

参与的关键工作

Gated Linear Attention (GLA)：加入门控机制的线性注意力
Gated DeltaNet (GDN)：将Mamba2的Gating与Delta Rule结合
Kimi Linear：论文作者之一，设计了Chunk并行算法
Flash Linear Attention开源库：用Triton实现各种线性注意力变种的高效Kernel

学术角色的独特定位

杨松琳的研究处于算法理论与硬件实现的交叉点：他既关心machine learning层面的make sense（如Delta Rule的数学优美性），又关心算法能否高效并行化（如设计Chunk并行算法来让DeltaNet在GPU上快速运行）。这种"双重视角"使他成为连接学界与工业界的关键人物。

二、为什么要动Attention：长思维链的成本瓶颈

2025年初，DeepSeek R1和Kimi 1.5发布后，长思维链（Chain of Thought）成为主流范式。RL训练产生的思维链长度可达数万个Token，在Decoding阶段给传统Softmax Attention带来了巨大的计算成本压力。

O(L²)

Full Attention的Decode复杂度

O(L)

Linear Attention的Decode复杂度

数万

思维链Token长度

Kimi启动混合注意力探索的直接原因

两大成本瓶颈

KV Cache存储：每一层都要存储大量的Key-Value Cache，在长文本下内存占用巨大
Decoding时间复杂度：每一步Decode是线性时间复杂度，Decode L个Token总复杂度为平方级

杨松琳

Kimi就觉得，如果我们用每一层都是平方注意力的架构的话，在Decoding的时候就太贵了。因为首先每一层要存一个大量的KV Cache，然后每一步是线性的时间复杂度，Decode L个Token的时间复杂度也是一个平方的。

Agentic AI加速了需求

长思维链的需求不仅来自Reasoning模型，Agentic AI的兴起进一步放大了这一需求。Agent需要处理大量workflow、多轮对话和长context，这使得高效Decoding从"nice-to-have"变成了"must-have"。混合注意力的经济性优势在这一背景下变得至关重要。

三、Softmax Attention vs Linear Attention：核心原理

杨松琳对Transformer中注意力机制的核心计算流程做了系统讲解。

核心机制

Softmax Attention的计算流程

三个矩阵Q（Query）、K（Key）、V（Value）：

Q和K做矩阵相乘，得到L x L的注意力矩阵（L为序列长度）
对矩阵做Masking（下三角掩码，用于自回归语言建模）
加Softmax归一化，得到注意力分数矩阵
用注意力分数矩阵和V矩阵相乘，得到Output

由于存在L x L的矩阵，复杂度为O(L²)。

替代方案

Linear Attention的核心思想

去掉Softmax算子后，通过等式变换将计算写成RNN的推理形式：

每一步的计算代价为O(1)
处理长度L的序列总复杂度为O(L)
与序列长度成线性关系

Softmax Attention

平方复杂度 O(L²)
完全并行训练
强大的全局信息检索能力
KV Cache随序列线性增长
长文本Decode极其昂贵

Linear Attention

线性复杂度 O(L)
可写成RNN推理形式
固定大小的Hidden State
KV Cache为恒定大小
长文本Decode高效

在Transformer架构中的位置

杨松琳将Transformer的基础架构拆解为两个反复叠加的模块：注意力机制和前馈网络（FFN）。近年的架构创新分布在两条线上：

FFN侧：从传统MLP演化为MoE（混合专家模型），已成共识
Attention侧：从Softmax Attention演化为Linear Attention或Sparse Attention，正在探索中

Transformer架构的两条创新主线

四、Kimi Linear论文解读：KDA模块的设计

Kimi Linear论文中，线性注意力模块选定的是KDA（Kimi Delta Attention），这个名字有意对标DeepSeek的DSA（DeepSeek Sparse Attention）。

杨松琳

这个名字感觉也挺有梗的，他们应该是想对标DeepSeek Sparse Attention，然后就特意取了一个Kimi开头的一个名字，非常的对仗。

KDA的技术演进：从GLA到GDN到KDA

Gated Linear Attention (GLA)

杨松琳的早期工作。引入细粒度衰减率（Fine-grained Decay）：每个Attention Head下的每个维度拥有独立的衰减率。

Gated DeltaNet (GDN)

受效率限制，使用了Mamba2式的粗粒度衰减率（Scalar Decay）：一个Head下所有维度共享同一个衰减率。同时引入Delta Rule的更新机制。

KDA（Kimi Delta Attention）

张宇（Kimi研究员）将GDN中粗粒度的衰减率替换为细粒度的衰减率，实质是将GLA和GDN两项工作的优点合二为一。

细粒度衰减率的直觉解释

粗粒度：一个Attention Head下所有维度共享同一个遗忘/衰减速率
细粒度：每个维度拥有独立的衰减率，各自按不同频率更新记忆
细粒度能更好地利用RNN有限的Hidden State，提高Performance

Kimi的Scaling Ladder验证流程

Kimi内部有一套Scaling Ladder机制：在小规模下表现好的方案，逐级晋升到更大规模继续与Full Attention对比。

张宇首先试了大量混合线性注意力的方案
发现混合Gated DeltaNet比其他变种更好
进一步将粗粒度Decay换成细粒度Decay后，在multi-hop reasoning、coding和math任务上提升显著
最终形成KDA方案，通过了Scaling Ladder的各级验证

杨松琳的具体贡献

杨松琳

张宇想完那个Fine-grained Decay嘛，然后我就帮他想了一个Chunk并行的那个算法。感觉这个应该可能就是我对这个工作的唯一的贡献了吧。

杨松琳受一篇名为COMBO的工作启发，推导出一个适用于KDA的并行算法，将求幂运算减少一次，提升了scalability。

五、DeepSeek Sparse Attention vs Kimi Linear：两条路线

这两种方案都旨在解决长文本Decoding下的效率问题，但技术路线截然不同。

维度	Kimi Linear（混合线性注意力）	DeepSeek Sparse Attention
核心策略	大部分层用Linear Attention，少数层保留Full Attention	每一层都用Sparse Attention，通过选择性激活Token
KV Cache	大幅减少：大部分层为RNN式恒定State	不减少：每层仍需存储全部Key Cache
Decode加速	线性层O(1)单步，整体高效	通过Top-K选择减少每Token生成花费
Batch Size	KV Cache减少后可加大Batch Size	KV Cache不减，Batch Size受限
Token选择	不需要选Token，RNN自动压缩	需要Indexer从Checkpoint蒸馏来选Top-K Token
训练方式	从头Pre-train	需蒸馏Teacher Model的Token选择策略
长文本瓶颈	全局注意力层的效率仍是瓶颈	KV Cache管理仍是瓶颈

为何无法Apple-to-Apple对比

杨松琳坦言，两种方案目前没有公平的直接对比。Kimi Linear论文提供了与Full Attention的对比，但没有与Sparse Attention的对比。原因是："不同地方训出来，训练架构、Data Recipe、优化方案完全不一样，就没有一个Apple to Apple的比较。"资源有限的现实决定了每家公司只能优先验证一条路线。

杨松琳

像这两个Attention，它们其实想解决的问题是一个问题，就是在长文本Decoding下面如何解决效率问题。然后像Kimi走的是混合线性的路线，像DeepSeek走的是稀疏注意力的路线。

六、Minimax的反复：从M1混合到M2回退Full Attention

Minimax的技术路线选择经历了一次引人注目的U型转弯。

M1版本（2025年初）

采用混合注意力架构，使用Lightning Attention作为线性注意力模块，混合比例为7:1（7层线性注意力配1层全局注意力）。这是当时最大规模的混合注意力实践。

发现问题

在Multi-hop Reasoning（多跳推理）任务上发现严重掉点。原因有二：最初评测Pipeline不够详尽，未覆盖多跳推理；Lightning Attention本身是"两年前的技术"，表达能力不足。

M2版本（近期发布）

全面回退到Full Attention，既不用混合注意力，也不用Sparse Attention。

杨松琳

Lightning Attention给人的感觉就像是两年前的一个工作，那个技术还停留在两年前。然后像这两年线性注意力还是有很多发展的，这些发展我觉得都是work的。

Minimax回退的深层教训

杨松琳的分析指向三个问题：(1) 评测Pipeline不完善——只看MMLU等短文本Benchmark，遗漏了多跳推理这一关键能力；(2) 线性注意力模块选型落后——Lightning Attention缺少近两年的门控和Delta Rule等关键改进；(3) 混合比例过于激进——7:1的比例使全局注意力层数不足，长文本保证不够。当被问到是否参与了Minimax的工作时，杨松琳直言："没有。如果我参与了，他们应该不会用这个方案。"

七、3:1混合比例：正在形成的行业共识

在混合注意力架构中，线性注意力层与全局注意力层的比例是一个关键的设计参数。

模型/公司	混合比例	线性注意力模块	效果
Minimax M1	7:1	Lightning Attention	多跳推理严重掉点
字节研究	多种比例实验	多种模块	结论：3:1最优，Gated DeltaNet最好
千问3 Next	3:1	Gated DeltaNet	长文本和Ruler任务不掉点
Kimi Linear	3:1	KDA (Kimi Delta Attention)	性能超越Full Attention

杨松琳

我觉得3:1现在也快变成一个共识了。像之前字节也发了paper来研究这个Hybrid架构需要百分之多少的Softmax Attention，他们结论也是3:1最好。然后千问3 Next也是3:1，然后换Gated DeltaNet的方案。

行业共识

"3:1 + Gated DeltaNet"方案

不同厂商独立探索后收敛到相似的方案：

75%的层使用线性注意力（基于Gated DeltaNet或其变种KDA）
25%的层保留全局Softmax Attention
全局注意力层保证长文本和多跳推理的下限
线性注意力层提供高效的Decoding和KV Cache压缩

RoPE vs NoPE的选择

位置编码在混合架构中的争议

Kimi Linear：选择NoPE（无位置编码），全局注意力层完全不用RoPE
千问3 Next：选择Partial RoPE——25%用RoPE，75%用NoPE
趋势：大家都在砍RoPE，只是砍多少的问题
RoPE在混合架构中可能阻碍长度外推

八、Linear Attention的考古演进史

杨松琳将Linear Attention的发展历程称为一部"考古史"，其核心脉络是围绕Context Wall（上下文墙）的周期性突破。

2020年：Linear Attention诞生

最早的Linear Attention发明。在短文本下也不work，使用Kernel Method去近似Softmax Attention，方向错误。

2020-2022年：第一次Context Wall

BERT时代训练只做512长度，8192就算长文本。平方复杂度的Attention矩阵需要在Global Memory中实体化，造成巨大的Memory读写开销和OOM问题。Linear Attention因此受到关注。

2022年：Flash Attention打破第一堵墙

Flash Attention通过硬件感知的分块计算避免实体化L x L矩阵，使Softmax Attention可以高效处理更长序列。Linear Attention研究热度下降。

2023年：RetNet与遗忘机制

微软亚研的RetNet加入输入无关的Decay（如衰减率0.99），发现Linear Attention scale上去后在语言建模上可以取得不错效果。

2023-2024年：输入相关的Decay

从RetNet的固定Decay发展为数据驱动的动态Decay，包括Gated Linear Attention和Mamba2。模型可以自主学习何时遗忘、何时记忆。

2024-2025年：第二次Context Wall

长思维链和Agentic AI带来新的长文本Decoding需求。Linear Attention（尤其是混合形态）重新登上舞台。KDA、DSA等方案纷纷涌现。

Linear Attention演进时间线与Context Wall周期

螺旋上升的技术周期

杨松琳指出，每当Softmax Attention的效率成为瓶颈时，Linear Attention就会重新受到关注。但每次回归时，技术已经进步了一代：从Kernel Method近似到RNN式遗忘机制，从输入无关到输入相关的Decay，从粗粒度到细粒度的门控。"像历史就会螺旋上升嘛，一套技术方案肯定是要经过很多验证才能最后定下来。"

九、Delta Rule：被埋没又重现光芒的关键机制

Delta Rule是Linear Attention领域的第二个关键改进，起源于2021年的一篇被埋没的论文。

核心机制

Delta Rule vs Hebbian Rule

传统Linear Attention使用Hebbian Rule：将Key和Value的外积加到Hidden State上（只能"记东西"）。Delta Rule引入了减法操作：

用当前Key去查询Memory，取出旧的Value（Old Value）
将旧Value与输入的新Value做线性组合（通过可学习的系数Beta控制）
从Memory中删除旧的Key-Value对（减法操作）
将新的Key-Value对写入Memory（加法操作）

减法操作使得模型可以有针对性地删除过时信息，远比全局Decay的"集体遗忘"更精准。

Delta Rule的命运沉浮

从2021年到2024年

2021年：DeltaNet原始论文发表，是LSTM之父的工作，但没有Hardware Efficiency保证
2021-2023年：几乎无人follow up，"根本没有人take it seriously"
2024年：杨松琳在做完GLA后意识到DeltaNet的价值，设计了并行算法让它可以scale up
2025年：DeltaNet的思想被Kimi Linear（KDA）和多个工作采用，重现光芒

杨松琳

很多历史的算法其实很先进的，但是可能当时的同行没有意识到这个工作的价值，然后那个工作就被埋没了。也有可能就是那个工作的配套，比方说那些代码开源代码做的太难了，然后其他人想follow也没法follow。

"考古"方法论的价值

杨松琳读博前花了整整半年调研所有相关论文，包括读到2016年的古老工作。他发现：细粒度的Decay至少在2022年就有一篇工作提出，甚至可以考古到2016年，但2023年的Mamba2反而用了更粗粒度的Decay。技术并不总是线性进步的——有时好的想法会因为配套不足而被遗忘，需要后来者重新发掘。

十、MoE之后的下一个突破：雕Attention

杨松琳将近几年的架构创新归纳为一个统一的优化目标：给定相同的FLOPs，如何取得更低的Loss。

MoE：雕FFN

将传统MLP替换为混合专家模块
相同FLOPs下可使用更大参数量
FFN的计算是大规模训练的主导部分
2023年GPT-4传闻使用MoE，现已成行业共识
Fine-grained MoE成为标配

Linear/Sparse Attention：雕Attention

将部分Softmax Attention替换为高效变种
相同FLOPs下可处理更长Context Window
Attention是长文本场景的主要瓶颈
正在探索中，尚未形成共识
混合3:1方案初步收敛

杨松琳

Transformer就两个模块嘛，一个FFN现在基本上已经雕成了Fine-grained MoE的形状嘛，然后Attention我觉得大家也是可以来雕一下的，就是why not。

大脑类比

Attention与FFN对应的认知功能

Attention = Working Memory（工作记忆）：在新场景中动态处理即时信息
FFN = 海马体（长期存储）：像关联网络一样存储World Knowledge
MoE扩大了"海马体"的容量；高效Attention将扩大"工作记忆"的容量

"雕花"不是贬义词

杨松琳回应了"架构研究是雕花"的质疑。他指出DeepSeek MoE"雕出来之后大家都成为共识了"。当数据充足时不需要雕架构，但当数据撞墙、算力有限时，算法效率就成为关键。数据、算力、算法是驱动AI的三驾马车，缺一不可。OpenAI CTO也表示"在这个节点上算法研究的重要性可能会被重新抬高"。

十一、Transformer的天花板与Context Window的极限

当被问到Transformer架构的天花板时，杨松琳指向了两个关键瓶颈。

瓶颈一：全局注意力是Context Window继续Scale Up的主要障碍

为什么全局注意力"早晚要被干掉"

全局注意力的平方复杂度限制了Context Window的进一步扩展
如果能解决这个问题，RAG技术将不再需要——直接做In-context RAG
"先看看能不能把全局注意力干掉吧，这是阻止Context Window继续scale up的一个主要瓶颈"

瓶颈二：Continual Learning

从Pre-training到持续学习

当前Transformer架构无法做Continual Learning
未来方向：让AI自己学习，甚至跳过Pre-training直接从RL开始
"大家不都想把Pre-training变成直接从RL开始，让模型直接从0开始学？"

纯Linear Attention的根本缺陷

杨松琳

现在共识就是纯Linear Attention是不work的。它在长文本下面有一些比较fundamental的缺陷。因为它的RNN状态数目是恒定的，随着context长度增加，它早晚会存不下，早晚会损失很多精度。

这就是为什么混合方案成为主流：用全局注意力层保住长文本能力的下限，用线性注意力层提升效率。

十二、硬件亲和：算法设计的第一性原理

杨松琳反复强调，在当今时代，算法设计必须与硬件协同。他认为这是一个不可妥协的第一性原理。

核心观点

Transformer是"天选架构"的原因

Transformer之所以战胜LSTM，不仅因为性能更好，更因为硬件亲和性：

FFN本质是大矩阵乘法，天然适合GPU加速
Attention虽然是平方复杂度（比RNN的线性复杂度更高），但可以通过矩阵乘法并行计算
LSTM虽然理论复杂度更低，但无法并行，硬件利用率极差
"大家宁愿去用理论复杂度更高的Transformer，也不会来用理论复杂度更低的LSTM"

硬件演进与算法的协同进化

GPU硬件正在朝矩阵乘法越来越快的方向演进

Tensor Core：专门加速矩阵运算
TMA：优化数据搬运
Blackwell架构：专门针对矩阵乘的独立Memory
Flash Attention 4的趣事：矩阵乘太快了，导致Softmax中的Exponential运算反而成为瓶颈，不得不用近似方法处理Exp

杨松琳

有些人说，那我设计一个算法它足够好，那硬件公司来帮我优化呀。那怎么可能呢？你这算法你是金子做的还是银子做的，能让硬件公司来天天帮你优化呀？那是不可能的。

DeepSeek：硬件-算法协同设计的标杆

杨松琳高度评价DeepSeek在硬件亲和方面的投入：

DeepSeek Sparse Attention的Indexer使用FP8精度计算Attention Score
不需要Softmax，只需算Logit做Top-K，可以去掉昂贵的Exponential操作
"基本上就是一大堆矩阵乘"，所以Indexer极快
Infra团队在算法迭代中话语权较高

算法设计的三维权衡空间

十三、中国算法创新 vs 硅谷：生态位差异

杨松琳给出了一个出人意料的判断：在架构创新方面，中国比硅谷更强。

杨松琳

我觉得国内算法创新肯定是更强的。主要是in terms of架构的话，那肯定是国内更强的。

中国：架构创新更强

算力相对有限，对效率的要求更高
更有动力尝试高效的Linear Attention等变种
DeepSeek MoE成为全球共识
Kimi Linear、千问3 Next引领混合注意力
"三驾马车你总得有一辆跑得快一点"

硅谷：优化器投入更大

算力充沛，可以"堆算力"来弥补架构不足
"脑子长得怎么样无所谓，先把算力堆上去"
对Optimizer的投入明显更大
OpenAI使用混合全局+Sliding Window方案（GPT-3报告已披露）
很多探索不公开

OpenAI的已知方案

GPT-3 Technical Report中披露的架构

使用全局注意力 + Sliding Window Attention的混合方案
开源模型也采用了滑动窗口方案
一直延续这一路线，更多细节不公开

算力约束反而催生创新

这一观察揭示了一个有趣的创新经济学规律：资源约束（中国的算力限制）反而迫使研究者在算法层面做更深的探索，形成了"穷则思变"式的创新优势。而资源充沛的硅谷公司则倾向于用更多算力来"暴力解决"效率问题。Kimi是"最早吃Muon优化器螃蟹的"，说明中国公司也在逐步吸收硅谷在优化器方面的积累。

十四、Linear Attention与Sparse Attention的融合猜想

杨松琳在知乎发文提出了一个未来架构的融合猜想：将混合注意力中的全局注意力层替换为Sparse Attention。

融合架构

理想的三层混合架构

当前混合注意力的瓶颈在于全局注意力层的效率；当前Sparse Attention的瓶颈在于KV Cache管理。融合方案：

大部分层：Linear Attention（KV Cache恒定，Decode高效）
少数层：Sparse Attention取代Full Attention（保留Retrieval能力，降低全局注意力的复杂度）
Linear Attention负责省KV Cache，Sparse Attention负责精准检索

杨松琳

线性Attention和Sparse Attention其实没有什么竞争关系。线性Attention的竞争对手可能更多是Sliding Window Attention。我觉得理论上只要Sparse Attention能选得准的话，是完全可以取代Full Attention层的。

当前融合的瓶颈

Sparse Attention"选不准"的问题

从头训练时，稀疏梯度不稳定，学不会选择正确的Block
DeepSeek的解法：用训好的Full Attention Teacher Model蒸馏Token选择策略
学界已有一些混合Sparse+Linear的初步探索，但工业界尚无人同时结合两者

非此即彼只是阶段性的

DeepSeek选了Sparse Attention，Kimi选了Linear Attention——但这不是终局。杨松琳认为未来必然走向融合："现在也不是非此即彼的关系，大家会探索一条新的路，把两者结合。"Linear Attention的真正竞争对手是Sliding Window Attention，而非Sparse Attention。

十五、研究方法论：考古、并行算法与Research Philosophy

杨松琳分享了他的研究方法论，这在快速迭代的AI领域中显得尤为独特。

"考古"哲学

杨松琳

我觉得我还是挺喜欢看最早的那些paper，我觉得那些paper写的都挺好的。我管这个叫做考古。因为我就喜欢考那些古代的paper。像现在一年前的paper叫老paper，那五年前的paper可以叫做古代的paper了。

杨松琳的Research Philosophy

全面阅读："这个领域的文章我基本都读过一遍"
历史考古：读到2016年甚至更早的论文，发掘被埋没的好工作
双重筛选标准：Machine Learning上make sense + 可并行化（Hardware Friendly）
开源配套：把代码做得好用，确保技术能流传下去
知道做什么比技术挑战更难："当你很清楚你要做什么的时候，你其实不会遇到什么挫折"

研究的连贯逻辑链

杨松琳坦言PhD期间工作"都还挺顺的"，他将此归因于入学前的充分调研和清晰的逻辑链：

发现DeltaNet是一个好模型，但缺乏Hardware Efficiency → 设计并行算法让它scale up
发现DeltaNet在一些task上打不过Mamba2 → "打不过就加入"，加入Mamba2的Gating → 得到Gated DeltaNet
发现细粒度Decay当时因效率问题无法使用 → 等算法和Kernel优化成熟后重新引入 → 被KDA采用

对年轻研究者的建议

杨松琳

现在的话，找个公司去实习。因为做架构必须要算力，没有算力就没法做架构。

十六、关键数据与技术参数汇总

O(L)

Linear Attention复杂度

O(L²)

Softmax Attention复杂度

3:1

混合注意力最优比例共识

2020

Linear Attention诞生年份

2021

DeltaNet原始论文年份

7:1

Minimax M1的激进比例（已回退）

各公司Attention策略一览

公司/模型	Attention策略	线性注意力模块	混合比例	位置编码
Kimi Linear	混合Linear	KDA	3:1	NoPE
千问3 Next	混合Linear	Gated DeltaNet	3:1	Partial RoPE (25%)
DeepSeek	Sparse	DSA	全Sparse	-
Minimax M1	混合Linear	Lightning Attention	7:1	-
Minimax M2	Full Attention	无	-	-
OpenAI GPT	混合Sliding Window	Sliding Window	未公开	-

Linear Attention两大核心改进

改进	机制	代表工作	效果
输入相关的Decay	衰减率由输入动态决定（遇到重要Token则不遗忘，遇到无用Token则快速遗忘）	GLA, Mamba2	比输入无关Decay（RetNet）灵活得多
Delta Rule	引入减法操作：先从Memory中取出旧Value，再有针对性地删除并写入新Value	DeltaNet, GDN, KDA, RWKV-7	比Hebbian Rule（只加不减）的Memory利用率更高

各公司Attention策略定位图

十七、启示与延伸思考

1. "架构之战"是AI的下一个主战场

Transformer的两大模块中，FFN已经被MoE彻底改造并形成共识。Attention侧正在经历同样的变革过程。杨松琳的判断是：这不是"雕花"，而是继MoE之后最重要的架构突破方向。3:1混合注意力方案的多方收敛表明，这一领域正在从探索期进入共识形成期。

2. Context Wall是周期性的，每次打破都重新定义AI能力的边界

从BERT时代的512到GPT时代的8K，从8K到128K，每一堵"上下文墙"的打破都伴随着重大的技术范式转换（Flash Attention打破第一堵墙，混合注意力正在攻克第二堵墙）。如果全局注意力真的被"干掉"，RAG技术可能变得不再必要——这对整个AI应用生态的影响将是根本性的。

3. 评测Pipeline决定了技术选型的成败

Minimax M1的教训深刻：因为评测只覆盖MMLU等短文本Benchmark，没有测多跳推理，导致选了一个"两年前的方案"并大规模上线。评测的全面性比算法本身的精妙更重要。Kimi的Scaling Ladder机制——逐级验证、逐级放大——提供了一个更稳健的方法论。

4. 技术考古是一种被严重低估的研究方法

DeltaNet从2021年被发表到2024年被重新发掘，中间沉寂了整整3年。杨松琳的"考古"方法论——系统性阅读领域内所有论文，包括被遗忘的旧工作——使他能够在正确的时间把正确的技术重新引入。在AI领域，"古代论文"（5年前）可能蕴含着下一代架构的关键组件。

5. 硬件亲和不是"锦上添花"，而是生死线

杨松琳的核心研究哲学：一个算法无论在Machine Learning层面多么make sense，如果不能高效并行化，就"没有实际价值，纯自娱自乐"。DeltaNet的命运就是最好的例证——直到有了并行算法，它才从"好论文"变成"可用技术"。算法必须满足硬件的通用原则（Memory Hierarchy、矩阵乘法优先），而不是期待硬件来适配算法。

6. 资源约束催生的创新可能比资源充沛更深刻

中国在算力上的劣势反而激发了在算法架构上的创新优势。DeepSeek的MoE、Kimi的Linear Attention、千问的混合架构——这些突破性工作都诞生于"算力不够"的约束下。这与经济学中"资源诅咒"的反面一致：约束迫使你在更本质的层面寻找解决方案。

7. 开源生态是技术方案能否推广的关键变量

杨松琳多次提到infra配套是Linear Attention推广的主要瓶颈。半年前他在Minimax圆桌上指出"infra配套没有跟上"，令主持人俊贤老师感到意外。Flash Linear Attention库、推理引擎（如SGLang）对混合模型的支持、Triton/CUDA Kernel的优化——这些"不性感"的基础设施建设，实际上决定了一项技术能否从论文走向生产。千问3 Next和Minimax M1的开源推动了整个推理引擎生态对混合模型的支持，形成了正向循环。

8. "打不过就加入"的组合式创新

杨松琳的研究路径体现了一种务实的组合式创新：GDN打不过Mamba2就加入Mamba2的Gating，KDA则是将GLA和GDN的优点合二为一。这种"A+B=C"的研究风格看似简单，但背后需要对每个组件的深刻理解和对组合可行性的精准判断。在快速迭代的AI领域，组合式创新可能比从零开始更有效率。

考古算法变种史，预演未来架构改进方案

目录

一、嘉宾背景与Linear Attention研究脉络

研究主线递进

参与的关键工作

学术角色的独特定位

二、为什么要动Attention：长思维链的成本瓶颈

Kimi启动混合注意力探索的直接原因

两大成本瓶颈

Agentic AI加速了需求

三、Softmax Attention vs Linear Attention：核心原理

Softmax Attention的计算流程

Linear Attention的核心思想

Softmax Attention

Linear Attention

在Transformer架构中的位置

四、Kimi Linear论文解读：KDA模块的设计

KDA的技术演进：从GLA到GDN到KDA

Gated Linear Attention (GLA)

Gated DeltaNet (GDN)

KDA（Kimi Delta Attention）

细粒度衰减率的直觉解释

Kimi的Scaling Ladder验证流程

杨松琳的具体贡献

五、DeepSeek Sparse Attention vs Kimi Linear：两条路线

为何无法Apple-to-Apple对比

六、Minimax的反复：从M1混合到M2回退Full Attention

M1版本（2025年初）

发现问题

M2版本（近期发布）

Minimax回退的深层教训

七、3:1混合比例：正在形成的行业共识

"3:1 + Gated DeltaNet"方案

RoPE vs NoPE的选择

位置编码在混合架构中的争议

八、Linear Attention的考古演进史

2020年：Linear Attention诞生

2020-2022年：第一次Context Wall

2022年：Flash Attention打破第一堵墙

2023年：RetNet与遗忘机制

2023-2024年：输入相关的Decay

2024-2025年：第二次Context Wall

螺旋上升的技术周期

九、Delta Rule：被埋没又重现光芒的关键机制

Delta Rule vs Hebbian Rule

Delta Rule的命运沉浮

从2021年到2024年

"考古"方法论的价值

十、MoE之后的下一个突破：雕Attention

MoE：雕FFN

Linear/Sparse Attention：雕Attention

大脑类比

Attention与FFN对应的认知功能

"雕花"不是贬义词

十一、Transformer的天花板与Context Window的极限

瓶颈一：全局注意力是Context Window继续Scale Up的主要障碍

为什么全局注意力"早晚要被干掉"

瓶颈二：Continual Learning

从Pre-training到持续学习

纯Linear Attention的根本缺陷

十二、硬件亲和：算法设计的第一性原理

Transformer是"天选架构"的原因

硬件演进与算法的协同进化

GPU硬件正在朝矩阵乘法越来越快的方向演进

DeepSeek：硬件-算法协同设计的标杆

十三、中国算法创新 vs 硅谷：生态位差异

中国：架构创新更强

硅谷：优化器投入更大

OpenAI的已知方案

GPT-3 Technical Report中披露的架构

算力约束反而催生创新

十四、Linear Attention与Sparse Attention的融合猜想

理想的三层混合架构

当前融合的瓶颈

Sparse Attention"选不准"的问题

非此即彼只是阶段性的

十五、研究方法论：考古、并行算法与Research Philosophy

"考古"哲学

杨松琳的Research Philosophy

研究的连贯逻辑链