← 返回目录
一、嘉宾背景与Linear Attention研究脉络
嘉宾杨松琳,MIT CSAIL在读PhD,主要研究方向为序列模型的高效注意力机制,尤其是Linear Attention。他是开源库Flash Linear Attention的核心作者,被社区称为"Linear Attention之母"。
研究主线递进
- 受Stanford Hazy Research(Chris Re实验室)博客启发,进入序列建模领域
- 从微软亚洲研究院的RetNet出发,提升硬件效率
- 发现硬件优化算法可扩展到多种类似架构
- 从门控机制(Gating)到Delta Rule,逐步提升Linear Attention的performance
- 将两者合并为统一的更新规则,同时保证硬件高效训练
杨松琳
可能是在这个领域做了很多工作吧,然后尤其是还有一个开源库叫做Flash Linear Attention,这个库的话感觉这个领域的人里面很多就是会用这个库,然后包括业界也有很多就是用这个库来进行一些Linear Attention的一些探索的。
参与的关键工作
- Gated Linear Attention (GLA):加入门控机制的线性注意力
- Gated DeltaNet (GDN):将Mamba2的Gating与Delta Rule结合
- Kimi Linear:论文作者之一,设计了Chunk并行算法
- Flash Linear Attention开源库:用Triton实现各种线性注意力变种的高效Kernel
学术角色的独特定位
杨松琳的研究处于算法理论与硬件实现的交叉点:他既关心machine learning层面的make sense(如Delta Rule的数学优美性),又关心算法能否高效并行化(如设计Chunk并行算法来让DeltaNet在GPU上快速运行)。这种"双重视角"使他成为连接学界与工业界的关键人物。
二、为什么要动Attention:长思维链的成本瓶颈
2025年初,DeepSeek R1和Kimi 1.5发布后,长思维链(Chain of Thought)成为主流范式。RL训练产生的思维链长度可达数万个Token,在Decoding阶段给传统Softmax Attention带来了巨大的计算成本压力。
O(L2)
Full Attention的Decode复杂度
O(L)
Linear Attention的Decode复杂度
Kimi启动混合注意力探索的直接原因
两大成本瓶颈
- KV Cache存储:每一层都要存储大量的Key-Value Cache,在长文本下内存占用巨大
- Decoding时间复杂度:每一步Decode是线性时间复杂度,Decode L个Token总复杂度为平方级
杨松琳
Kimi就觉得,如果我们用每一层都是平方注意力的架构的话,在Decoding的时候就太贵了。因为首先每一层要存一个大量的KV Cache,然后每一步是线性的时间复杂度,Decode L个Token的时间复杂度也是一个平方的。
Agentic AI加速了需求
长思维链的需求不仅来自Reasoning模型,Agentic AI的兴起进一步放大了这一需求。Agent需要处理大量workflow、多轮对话和长context,这使得高效Decoding从"nice-to-have"变成了"must-have"。混合注意力的经济性优势在这一背景下变得至关重要。
三、Softmax Attention vs Linear Attention:核心原理
杨松琳对Transformer中注意力机制的核心计算流程做了系统讲解。
核心机制
Softmax Attention的计算流程
三个矩阵Q(Query)、K(Key)、V(Value):
- Q和K做矩阵相乘,得到L x L的注意力矩阵(L为序列长度)
- 对矩阵做Masking(下三角掩码,用于自回归语言建模)
- 加Softmax归一化,得到注意力分数矩阵
- 用注意力分数矩阵和V矩阵相乘,得到Output
由于存在L x L的矩阵,复杂度为O(L2)。
替代方案
Linear Attention的核心思想
去掉Softmax算子后,通过等式变换将计算写成RNN的推理形式:
- 每一步的计算代价为O(1)
- 处理长度L的序列总复杂度为O(L)
- 与序列长度成线性关系
Softmax Attention
- 平方复杂度 O(L2)
- 完全并行训练
- 强大的全局信息检索能力
- KV Cache随序列线性增长
- 长文本Decode极其昂贵
Linear Attention
- 线性复杂度 O(L)
- 可写成RNN推理形式
- 固定大小的Hidden State
- KV Cache为恒定大小
- 长文本Decode高效
在Transformer架构中的位置
杨松琳将Transformer的基础架构拆解为两个反复叠加的模块:注意力机制和前馈网络(FFN)。近年的架构创新分布在两条线上:
- FFN侧:从传统MLP演化为MoE(混合专家模型),已成共识
- Attention侧:从Softmax Attention演化为Linear Attention或Sparse Attention,正在探索中
四、Kimi Linear论文解读:KDA模块的设计
Kimi Linear论文中,线性注意力模块选定的是KDA(Kimi Delta Attention),这个名字有意对标DeepSeek的DSA(DeepSeek Sparse Attention)。
杨松琳
这个名字感觉也挺有梗的,他们应该是想对标DeepSeek Sparse Attention,然后就特意取了一个Kimi开头的一个名字,非常的对仗。
KDA的技术演进:从GLA到GDN到KDA
Gated Linear Attention (GLA)
杨松琳的早期工作。引入细粒度衰减率(Fine-grained Decay):每个Attention Head下的每个维度拥有独立的衰减率。
Gated DeltaNet (GDN)
受效率限制,使用了Mamba2式的粗粒度衰减率(Scalar Decay):一个Head下所有维度共享同一个衰减率。同时引入Delta Rule的更新机制。
KDA(Kimi Delta Attention)
张宇(Kimi研究员)将GDN中粗粒度的衰减率替换为细粒度的衰减率,实质是将GLA和GDN两项工作的优点合二为一。
细粒度衰减率的直觉解释
- 粗粒度:一个Attention Head下所有维度共享同一个遗忘/衰减速率
- 细粒度:每个维度拥有独立的衰减率,各自按不同频率更新记忆
- 细粒度能更好地利用RNN有限的Hidden State,提高Performance
Kimi的Scaling Ladder验证流程
Kimi内部有一套Scaling Ladder机制:在小规模下表现好的方案,逐级晋升到更大规模继续与Full Attention对比。
- 张宇首先试了大量混合线性注意力的方案
- 发现混合Gated DeltaNet比其他变种更好
- 进一步将粗粒度Decay换成细粒度Decay后,在multi-hop reasoning、coding和math任务上提升显著
- 最终形成KDA方案,通过了Scaling Ladder的各级验证
杨松琳的具体贡献
杨松琳
张宇想完那个Fine-grained Decay嘛,然后我就帮他想了一个Chunk并行的那个算法。感觉这个应该可能就是我对这个工作的唯一的贡献了吧。
杨松琳受一篇名为COMBO的工作启发,推导出一个适用于KDA的并行算法,将求幂运算减少一次,提升了scalability。
五、DeepSeek Sparse Attention vs Kimi Linear:两条路线
这两种方案都旨在解决长文本Decoding下的效率问题,但技术路线截然不同。
| 维度 | Kimi Linear(混合线性注意力) | DeepSeek Sparse Attention |
| 核心策略 | 大部分层用Linear Attention,少数层保留Full Attention | 每一层都用Sparse Attention,通过选择性激活Token |
| KV Cache | 大幅减少:大部分层为RNN式恒定State | 不减少:每层仍需存储全部Key Cache |
| Decode加速 | 线性层O(1)单步,整体高效 | 通过Top-K选择减少每Token生成花费 |
| Batch Size | KV Cache减少后可加大Batch Size | KV Cache不减,Batch Size受限 |
| Token选择 | 不需要选Token,RNN自动压缩 | 需要Indexer从Checkpoint蒸馏来选Top-K Token |
| 训练方式 | 从头Pre-train | 需蒸馏Teacher Model的Token选择策略 |
| 长文本瓶颈 | 全局注意力层的效率仍是瓶颈 | KV Cache管理仍是瓶颈 |
为何无法Apple-to-Apple对比
杨松琳坦言,两种方案目前没有公平的直接对比。Kimi Linear论文提供了与Full Attention的对比,但没有与Sparse Attention的对比。原因是:"不同地方训出来,训练架构、Data Recipe、优化方案完全不一样,就没有一个Apple to Apple的比较。"资源有限的现实决定了每家公司只能优先验证一条路线。
杨松琳
像这两个Attention,它们其实想解决的问题是一个问题,就是在长文本Decoding下面如何解决效率问题。然后像Kimi走的是混合线性的路线,像DeepSeek走的是稀疏注意力的路线。
六、Minimax的反复:从M1混合到M2回退Full Attention
Minimax的技术路线选择经历了一次引人注目的U型转弯。
M1版本(2025年初)
采用混合注意力架构,使用Lightning Attention作为线性注意力模块,混合比例为7:1(7层线性注意力配1层全局注意力)。这是当时最大规模的混合注意力实践。
发现问题
在Multi-hop Reasoning(多跳推理)任务上发现严重掉点。原因有二:最初评测Pipeline不够详尽,未覆盖多跳推理;Lightning Attention本身是"两年前的技术",表达能力不足。
M2版本(近期发布)
全面回退到Full Attention,既不用混合注意力,也不用Sparse Attention。
杨松琳
Lightning Attention给人的感觉就像是两年前的一个工作,那个技术还停留在两年前。然后像这两年线性注意力还是有很多发展的,这些发展我觉得都是work的。
Minimax回退的深层教训
杨松琳的分析指向三个问题:(1) 评测Pipeline不完善——只看MMLU等短文本Benchmark,遗漏了多跳推理这一关键能力;(2) 线性注意力模块选型落后——Lightning Attention缺少近两年的门控和Delta Rule等关键改进;(3) 混合比例过于激进——7:1的比例使全局注意力层数不足,长文本保证不够。当被问到是否参与了Minimax的工作时,杨松琳直言:"没有。如果我参与了,他们应该不会用这个方案。"
七、3:1混合比例:正在形成的行业共识
在混合注意力架构中,线性注意力层与全局注意力层的比例是一个关键的设计参数。
| 模型/公司 | 混合比例 | 线性注意力模块 | 效果 |
| Minimax M1 | 7:1 | Lightning Attention | 多跳推理严重掉点 |
| 字节研究 | 多种比例实验 | 多种模块 | 结论:3:1最优,Gated DeltaNet最好 |
| 千问3 Next | 3:1 | Gated DeltaNet | 长文本和Ruler任务不掉点 |
| Kimi Linear | 3:1 | KDA (Kimi Delta Attention) | 性能超越Full Attention |
杨松琳
我觉得3:1现在也快变成一个共识了。像之前字节也发了paper来研究这个Hybrid架构需要百分之多少的Softmax Attention,他们结论也是3:1最好。然后千问3 Next也是3:1,然后换Gated DeltaNet的方案。
行业共识
"3:1 + Gated DeltaNet"方案
不同厂商独立探索后收敛到相似的方案:
- 75%的层使用线性注意力(基于Gated DeltaNet或其变种KDA)
- 25%的层保留全局Softmax Attention
- 全局注意力层保证长文本和多跳推理的下限
- 线性注意力层提供高效的Decoding和KV Cache压缩
RoPE vs NoPE的选择
位置编码在混合架构中的争议
- Kimi Linear:选择NoPE(无位置编码),全局注意力层完全不用RoPE
- 千问3 Next:选择Partial RoPE——25%用RoPE,75%用NoPE
- 趋势:大家都在砍RoPE,只是砍多少的问题
- RoPE在混合架构中可能阻碍长度外推
八、Linear Attention的考古演进史
杨松琳将Linear Attention的发展历程称为一部"考古史",其核心脉络是围绕Context Wall(上下文墙)的周期性突破。
2020年:Linear Attention诞生
最早的Linear Attention发明。在短文本下也不work,使用Kernel Method去近似Softmax Attention,方向错误。
2020-2022年:第一次Context Wall
BERT时代训练只做512长度,8192就算长文本。平方复杂度的Attention矩阵需要在Global Memory中实体化,造成巨大的Memory读写开销和OOM问题。Linear Attention因此受到关注。
2022年:Flash Attention打破第一堵墙
Flash Attention通过硬件感知的分块计算避免实体化L x L矩阵,使Softmax Attention可以高效处理更长序列。Linear Attention研究热度下降。
2023年:RetNet与遗忘机制
微软亚研的RetNet加入输入无关的Decay(如衰减率0.99),发现Linear Attention scale上去后在语言建模上可以取得不错效果。
2023-2024年:输入相关的Decay
从RetNet的固定Decay发展为数据驱动的动态Decay,包括Gated Linear Attention和Mamba2。模型可以自主学习何时遗忘、何时记忆。
2024-2025年:第二次Context Wall
长思维链和Agentic AI带来新的长文本Decoding需求。Linear Attention(尤其是混合形态)重新登上舞台。KDA、DSA等方案纷纷涌现。
Linear Attention演进时间线与Context Wall周期
螺旋上升的技术周期
杨松琳指出,每当Softmax Attention的效率成为瓶颈时,Linear Attention就会重新受到关注。但每次回归时,技术已经进步了一代:从Kernel Method近似到RNN式遗忘机制,从输入无关到输入相关的Decay,从粗粒度到细粒度的门控。"像历史就会螺旋上升嘛,一套技术方案肯定是要经过很多验证才能最后定下来。"
九、Delta Rule:被埋没又重现光芒的关键机制
Delta Rule是Linear Attention领域的第二个关键改进,起源于2021年的一篇被埋没的论文。
核心机制
Delta Rule vs Hebbian Rule
传统Linear Attention使用Hebbian Rule:将Key和Value的外积加到Hidden State上(只能"记东西")。Delta Rule引入了减法操作:
- 用当前Key去查询Memory,取出旧的Value(Old Value)
- 将旧Value与输入的新Value做线性组合(通过可学习的系数Beta控制)
- 从Memory中删除旧的Key-Value对(减法操作)
- 将新的Key-Value对写入Memory(加法操作)
减法操作使得模型可以有针对性地删除过时信息,远比全局Decay的"集体遗忘"更精准。
Delta Rule的命运沉浮
从2021年到2024年
- 2021年:DeltaNet原始论文发表,是LSTM之父的工作,但没有Hardware Efficiency保证
- 2021-2023年:几乎无人follow up,"根本没有人take it seriously"
- 2024年:杨松琳在做完GLA后意识到DeltaNet的价值,设计了并行算法让它可以scale up
- 2025年:DeltaNet的思想被Kimi Linear(KDA)和多个工作采用,重现光芒
杨松琳
很多历史的算法其实很先进的,但是可能当时的同行没有意识到这个工作的价值,然后那个工作就被埋没了。也有可能就是那个工作的配套,比方说那些代码开源代码做的太难了,然后其他人想follow也没法follow。
"考古"方法论的价值
杨松琳读博前花了整整半年调研所有相关论文,包括读到2016年的古老工作。他发现:细粒度的Decay至少在2022年就有一篇工作提出,甚至可以考古到2016年,但2023年的Mamba2反而用了更粗粒度的Decay。技术并不总是线性进步的——有时好的想法会因为配套不足而被遗忘,需要后来者重新发掘。
十、MoE之后的下一个突破:雕Attention
杨松琳将近几年的架构创新归纳为一个统一的优化目标:给定相同的FLOPs,如何取得更低的Loss。
MoE:雕FFN
- 将传统MLP替换为混合专家模块
- 相同FLOPs下可使用更大参数量
- FFN的计算是大规模训练的主导部分
- 2023年GPT-4传闻使用MoE,现已成行业共识
- Fine-grained MoE成为标配
Linear/Sparse Attention:雕Attention
- 将部分Softmax Attention替换为高效变种
- 相同FLOPs下可处理更长Context Window
- Attention是长文本场景的主要瓶颈
- 正在探索中,尚未形成共识
- 混合3:1方案初步收敛
杨松琳
Transformer就两个模块嘛,一个FFN现在基本上已经雕成了Fine-grained MoE的形状嘛,然后Attention我觉得大家也是可以来雕一下的,就是why not。
大脑类比
Attention与FFN对应的认知功能
- Attention = Working Memory(工作记忆):在新场景中动态处理即时信息
- FFN = 海马体(长期存储):像关联网络一样存储World Knowledge
- MoE扩大了"海马体"的容量;高效Attention将扩大"工作记忆"的容量
"雕花"不是贬义词
杨松琳回应了"架构研究是雕花"的质疑。他指出DeepSeek MoE"雕出来之后大家都成为共识了"。当数据充足时不需要雕架构,但当数据撞墙、算力有限时,算法效率就成为关键。数据、算力、算法是驱动AI的三驾马车,缺一不可。OpenAI CTO也表示"在这个节点上算法研究的重要性可能会被重新抬高"。
十一、Transformer的天花板与Context Window的极限
当被问到Transformer架构的天花板时,杨松琳指向了两个关键瓶颈。
瓶颈一:全局注意力是Context Window继续Scale Up的主要障碍
为什么全局注意力"早晚要被干掉"
- 全局注意力的平方复杂度限制了Context Window的进一步扩展
- 如果能解决这个问题,RAG技术将不再需要——直接做In-context RAG
- "先看看能不能把全局注意力干掉吧,这是阻止Context Window继续scale up的一个主要瓶颈"
瓶颈二:Continual Learning
从Pre-training到持续学习
- 当前Transformer架构无法做Continual Learning
- 未来方向:让AI自己学习,甚至跳过Pre-training直接从RL开始
- "大家不都想把Pre-training变成直接从RL开始,让模型直接从0开始学?"
纯Linear Attention的根本缺陷
杨松琳
现在共识就是纯Linear Attention是不work的。它在长文本下面有一些比较fundamental的缺陷。因为它的RNN状态数目是恒定的,随着context长度增加,它早晚会存不下,早晚会损失很多精度。
这就是为什么混合方案成为主流:用全局注意力层保住长文本能力的下限,用线性注意力层提升效率。
十二、硬件亲和:算法设计的第一性原理
杨松琳反复强调,在当今时代,算法设计必须与硬件协同。他认为这是一个不可妥协的第一性原理。
核心观点
Transformer是"天选架构"的原因
Transformer之所以战胜LSTM,不仅因为性能更好,更因为硬件亲和性:
- FFN本质是大矩阵乘法,天然适合GPU加速
- Attention虽然是平方复杂度(比RNN的线性复杂度更高),但可以通过矩阵乘法并行计算
- LSTM虽然理论复杂度更低,但无法并行,硬件利用率极差
- "大家宁愿去用理论复杂度更高的Transformer,也不会来用理论复杂度更低的LSTM"
硬件演进与算法的协同进化
GPU硬件正在朝矩阵乘法越来越快的方向演进
- Tensor Core:专门加速矩阵运算
- TMA:优化数据搬运
- Blackwell架构:专门针对矩阵乘的独立Memory
- Flash Attention 4的趣事:矩阵乘太快了,导致Softmax中的Exponential运算反而成为瓶颈,不得不用近似方法处理Exp
杨松琳
有些人说,那我设计一个算法它足够好,那硬件公司来帮我优化呀。那怎么可能呢?你这算法你是金子做的还是银子做的,能让硬件公司来天天帮你优化呀?那是不可能的。
DeepSeek:硬件-算法协同设计的标杆
杨松琳高度评价DeepSeek在硬件亲和方面的投入:
- DeepSeek Sparse Attention的Indexer使用FP8精度计算Attention Score
- 不需要Softmax,只需算Logit做Top-K,可以去掉昂贵的Exponential操作
- "基本上就是一大堆矩阵乘",所以Indexer极快
- Infra团队在算法迭代中话语权较高
十三、中国算法创新 vs 硅谷:生态位差异
杨松琳给出了一个出人意料的判断:在架构创新方面,中国比硅谷更强。
杨松琳
我觉得国内算法创新肯定是更强的。主要是in terms of架构的话,那肯定是国内更强的。
中国:架构创新更强
- 算力相对有限,对效率的要求更高
- 更有动力尝试高效的Linear Attention等变种
- DeepSeek MoE成为全球共识
- Kimi Linear、千问3 Next引领混合注意力
- "三驾马车你总得有一辆跑得快一点"
硅谷:优化器投入更大
- 算力充沛,可以"堆算力"来弥补架构不足
- "脑子长得怎么样无所谓,先把算力堆上去"
- 对Optimizer的投入明显更大
- OpenAI使用混合全局+Sliding Window方案(GPT-3报告已披露)
- 很多探索不公开
OpenAI的已知方案
GPT-3 Technical Report中披露的架构
- 使用全局注意力 + Sliding Window Attention的混合方案
- 开源模型也采用了滑动窗口方案
- 一直延续这一路线,更多细节不公开
算力约束反而催生创新
这一观察揭示了一个有趣的创新经济学规律:资源约束(中国的算力限制)反而迫使研究者在算法层面做更深的探索,形成了"穷则思变"式的创新优势。而资源充沛的硅谷公司则倾向于用更多算力来"暴力解决"效率问题。Kimi是"最早吃Muon优化器螃蟹的",说明中国公司也在逐步吸收硅谷在优化器方面的积累。
十四、Linear Attention与Sparse Attention的融合猜想
杨松琳在知乎发文提出了一个未来架构的融合猜想:将混合注意力中的全局注意力层替换为Sparse Attention。
融合架构
理想的三层混合架构
当前混合注意力的瓶颈在于全局注意力层的效率;当前Sparse Attention的瓶颈在于KV Cache管理。融合方案:
- 大部分层:Linear Attention(KV Cache恒定,Decode高效)
- 少数层:Sparse Attention取代Full Attention(保留Retrieval能力,降低全局注意力的复杂度)
- Linear Attention负责省KV Cache,Sparse Attention负责精准检索
杨松琳
线性Attention和Sparse Attention其实没有什么竞争关系。线性Attention的竞争对手可能更多是Sliding Window Attention。我觉得理论上只要Sparse Attention能选得准的话,是完全可以取代Full Attention层的。
当前融合的瓶颈
Sparse Attention"选不准"的问题
- 从头训练时,稀疏梯度不稳定,学不会选择正确的Block
- DeepSeek的解法:用训好的Full Attention Teacher Model蒸馏Token选择策略
- 学界已有一些混合Sparse+Linear的初步探索,但工业界尚无人同时结合两者
非此即彼只是阶段性的
DeepSeek选了Sparse Attention,Kimi选了Linear Attention——但这不是终局。杨松琳认为未来必然走向融合:"现在也不是非此即彼的关系,大家会探索一条新的路,把两者结合。"Linear Attention的真正竞争对手是Sliding Window Attention,而非Sparse Attention。
十五、研究方法论:考古、并行算法与Research Philosophy
杨松琳分享了他的研究方法论,这在快速迭代的AI领域中显得尤为独特。
"考古"哲学
杨松琳
我觉得我还是挺喜欢看最早的那些paper,我觉得那些paper写的都挺好的。我管这个叫做考古。因为我就喜欢考那些古代的paper。像现在一年前的paper叫老paper,那五年前的paper可以叫做古代的paper了。
杨松琳的Research Philosophy
- 全面阅读:"这个领域的文章我基本都读过一遍"
- 历史考古:读到2016年甚至更早的论文,发掘被埋没的好工作
- 双重筛选标准:Machine Learning上make sense + 可并行化(Hardware Friendly)
- 开源配套:把代码做得好用,确保技术能流传下去
- 知道做什么比技术挑战更难:"当你很清楚你要做什么的时候,你其实不会遇到什么挫折"
研究的连贯逻辑链
杨松琳坦言PhD期间工作"都还挺顺的",他将此归因于入学前的充分调研和清晰的逻辑链:
- 发现DeltaNet是一个好模型,但缺乏Hardware Efficiency → 设计并行算法让它scale up
- 发现DeltaNet在一些task上打不过Mamba2 → "打不过就加入",加入Mamba2的Gating → 得到Gated DeltaNet
- 发现细粒度Decay当时因效率问题无法使用 → 等算法和Kernel优化成熟后重新引入 → 被KDA采用
对年轻研究者的建议
杨松琳
现在的话,找个公司去实习。因为做架构必须要算力,没有算力就没法做架构。
十六、关键数据与技术参数汇总
O(L2)
Softmax Attention复杂度
2020
Linear Attention诞生年份
各公司Attention策略一览
| 公司/模型 | Attention策略 | 线性注意力模块 | 混合比例 | 位置编码 |
| Kimi Linear | 混合Linear | KDA | 3:1 | NoPE |
| 千问3 Next | 混合Linear | Gated DeltaNet | 3:1 | Partial RoPE (25%) |
| DeepSeek | Sparse | DSA | 全Sparse | - |
| Minimax M1 | 混合Linear | Lightning Attention | 7:1 | - |
| Minimax M2 | Full Attention | 无 | - | - |
| OpenAI GPT | 混合Sliding Window | Sliding Window | 未公开 | - |
Linear Attention两大核心改进
| 改进 | 机制 | 代表工作 | 效果 |
| 输入相关的Decay | 衰减率由输入动态决定(遇到重要Token则不遗忘,遇到无用Token则快速遗忘) | GLA, Mamba2 | 比输入无关Decay(RetNet)灵活得多 |
| Delta Rule | 引入减法操作:先从Memory中取出旧Value,再有针对性地删除并写入新Value | DeltaNet, GDN, KDA, RWKV-7 | 比Hebbian Rule(只加不减)的Memory利用率更高 |
十七、启示与延伸思考
1. "架构之战"是AI的下一个主战场
Transformer的两大模块中,FFN已经被MoE彻底改造并形成共识。Attention侧正在经历同样的变革过程。杨松琳的判断是:这不是"雕花",而是继MoE之后最重要的架构突破方向。3:1混合注意力方案的多方收敛表明,这一领域正在从探索期进入共识形成期。
2. Context Wall是周期性的,每次打破都重新定义AI能力的边界
从BERT时代的512到GPT时代的8K,从8K到128K,每一堵"上下文墙"的打破都伴随着重大的技术范式转换(Flash Attention打破第一堵墙,混合注意力正在攻克第二堵墙)。如果全局注意力真的被"干掉",RAG技术可能变得不再必要——这对整个AI应用生态的影响将是根本性的。
3. 评测Pipeline决定了技术选型的成败
Minimax M1的教训深刻:因为评测只覆盖MMLU等短文本Benchmark,没有测多跳推理,导致选了一个"两年前的方案"并大规模上线。评测的全面性比算法本身的精妙更重要。Kimi的Scaling Ladder机制——逐级验证、逐级放大——提供了一个更稳健的方法论。
4. 技术考古是一种被严重低估的研究方法
DeltaNet从2021年被发表到2024年被重新发掘,中间沉寂了整整3年。杨松琳的"考古"方法论——系统性阅读领域内所有论文,包括被遗忘的旧工作——使他能够在正确的时间把正确的技术重新引入。在AI领域,"古代论文"(5年前)可能蕴含着下一代架构的关键组件。
5. 硬件亲和不是"锦上添花",而是生死线
杨松琳的核心研究哲学:一个算法无论在Machine Learning层面多么make sense,如果不能高效并行化,就"没有实际价值,纯自娱自乐"。DeltaNet的命运就是最好的例证——直到有了并行算法,它才从"好论文"变成"可用技术"。算法必须满足硬件的通用原则(Memory Hierarchy、矩阵乘法优先),而不是期待硬件来适配算法。
6. 资源约束催生的创新可能比资源充沛更深刻
中国在算力上的劣势反而激发了在算法架构上的创新优势。DeepSeek的MoE、Kimi的Linear Attention、千问的混合架构——这些突破性工作都诞生于"算力不够"的约束下。这与经济学中"资源诅咒"的反面一致:约束迫使你在更本质的层面寻找解决方案。
7. 开源生态是技术方案能否推广的关键变量
杨松琳多次提到infra配套是Linear Attention推广的主要瓶颈。半年前他在Minimax圆桌上指出"infra配套没有跟上",令主持人俊贤老师感到意外。Flash Linear Attention库、推理引擎(如SGLang)对混合模型的支持、Triton/CUDA Kernel的优化——这些"不性感"的基础设施建设,实际上决定了一项技术能否从论文走向生产。千问3 Next和Minimax M1的开源推动了整个推理引擎生态对混合模型的支持,形成了正向循环。
8. "打不过就加入"的组合式创新
杨松琳的研究路径体现了一种务实的组合式创新:GDN打不过Mamba2就加入Mamba2的Gating,KDA则是将GLA和GDN的优点合二为一。这种"A+B=C"的研究风格看似简单,但背后需要对每个组件的深刻理解和对组合可行性的精准判断。在快速迭代的AI领域,组合式创新可能比从零开始更有效率。