深度研究 — #113 和杨植麟时隔1年的对话：K2、Agentic LLM、缸中之脑和"站在无限的开端"

← 返回目录

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

The Beginning of Infinity：无限雪山
过去一年：全球大模型的范式变迁
缸中之脑 vs Agentic：两种Test Time Scaling
一方产品 vs 脚手架：正向与逆向工程
L1到L5：并非线性的能力阶梯
K1.5到K2：关键技术决策复盘
Token Efficiency：Muon优化器与数据改写
Agent的泛化困境与破解
Coding Agent与通用Agent的关系
开源与闭源：动态博弈与生态演进
AI时代的产品与系统复杂性
Scaling Law、数据飞轮与商业模式
用RL管理团队：SFT与RL的平衡
创始人心态：问题不可避免，问题可以解决
AI与人类文明：放大器还是威胁
关键数据与判断汇总

一、The Beginning of Infinity：无限雪山

杨植麟在访谈开场便引用了David Deutsch的《The Beginning of Infinity》中的核心命题，将其作为他理解AI发展的根本框架。

杨植麟

它说有两句话要刻在石头上。一句话叫问题是不可避免的，但是第二句话是说问题是可以解决的。

杨植麟将AI的发展比作攀登一座可能没有尽头的雪山：每解决一个问题，技术就往上攀升几百米，但解决问题的过程又会产生新的问题。他明确表示"我希望它一直没有尽头"——因为这正是"Beginning of Infinity"的含义。

核心隐喻

从静态社会到动态社会

杨植麟借助Deutsch的框架区分了两种社会形态：启蒙运动之前是静态社会——人们用"雷公"解释打雷，不追求创新；启蒙运动之后是动态社会——知识不断被创造，问题不断产生又被解决。AI恰好处于这样一个动态过程之中：解决了强化学习的问题，就面临评估和泛化的新问题。

AGI不是一级台阶，而是一个方向

杨植麟对AGI的重新定义

AGI可能不是某一个时间点的突破——"你很难说某一个时间点我突然就可以喊一个口号说此时此刻实现AGI"
与登月不同——登月是站上月球那一刻就达到了，AGI是你不断做
在很多领域，今天的模型"可能做的比99%的人类都更好"，可以认为局部已是AGI
除了技术提升，技术对人类社会的影响也是AGI的一部分——类似蒸汽机产生后，社会花了几十几百年消化

雪山上的攀登者已不只是人

杨植麟

甚至有可能爬到一段时间之后，不一定是自己在爬。有可能是你用AI来爬。比如说你现在我们也会把K2这个模型去做很多可能模型训练或者说数据处理相关的工作。

递归式攀登的含义

杨植麟透露K2模型已被用于自身的模型训练和数据处理工作——这意味着攀登雪山的工具本身在进化。这是一个自指的结构：AI正在参与创造更好的AI。他希望K2能参与到K3的开发中，这正对应L1-L5框架中"Innovation"层级的核心含义。

二、过去一年：全球大模型的范式变迁

杨植麟总结过去一年AI领域最重要的几件事，并将其归纳为清晰的技术演进脉络。

三大重要变化

强思考的推理模型（Reasoning）

以O1为代表。本质是让模型在过程中做大量猜想-验证的循环：提出猜想、自我验证、否定后提出新猜想。相当于把pass@k变成pass@1——"你本来只能做一次，现在可以不断的提出猜想去验证。"

多轮Agent强化学习

模型不再是"缸中之脑"，而是跟外界做大量交互——边思考边操作，调用搜索、使用浏览器、写代码。通过多轮方式解决一个问题，下一步行为基于外界反馈。

模型公司做一方产品

从基于基础模型搭建脚手架的方式，转向模型公司自己做端到端产品。代表：Claude Code、ChatGPT Agent。这是正向工程取代逆向工程的趋势。

Kimi过去一年的关键决策

RL优先

从预训练+SFT为重点转向强化学习为重点

对话→Agent

从对话模型转向Agent模型

人才+研发

大量人才储备与研发方式变革

三、缸中之脑 vs Agentic：两种Test Time Scaling

杨植麟提出了本次访谈最精彩的技术框架——两种本质不同的Test Time Scaling方式，它们共同指向同一个目标：规模化推理时的Token。

缸中之脑（Brain in a Vat）

不跟外界交互，纯粹在大脑里想
猜想-验证的串行过程，也可搭配并行采样
对应强思考的推理模型（O1路线）
Scaling维度：每轮思考的Token数
最新研究发现：串行的上限可能更高

Agentic（与外界交互）

多轮使用工具，与环境持续交互
行为基于外界反馈更新
对应Agent强化学习（Claude路线）
Scaling维度：交互轮次
可以端到端完成复杂代码任务

两种 Test Time Scaling 路径对比

杨植麟

你可以看Claude很多模型它的Reasoning的Performance并不是非常高，但是它在Agent上的Performance是很高的。这两个东西它其实也并不一定是依赖的关系。

两种路径不是串行依赖，而是互补关系

杨植麟指出一个被广泛忽视的事实：Reasoning和Agent在研发上不是必然的顺序关系。Claude在Reasoning上并不突出但Agent表现极好——这说明两种技术路径（缸中之脑 vs 外界交互）各自独立有效。但如果要做到最好的Agent，最终还是需要Reasoning也很强。"它只是一个时间问题。"

四、一方产品 vs 脚手架：正向与逆向工程

杨植麟提出了AI产品开发中的一个深层区分——逆向工程与正向工程两种完全不同的思路。

逆向工程（脚手架模式）

基于基础模型，设计工具和脚手架
本质是逆向工程模型的训练过程
猜测模型的最佳System Prompt、Context Engineering
代表：Manus等三方Agent产品
"你更接近去拟合它的分布"

正向工程（一方产品模式）

先设计好工具和Context Engineering
在这个环境里直接训练模型
模型天然在自己的环境里表现更好
代表：Claude Code、ChatGPT Agent
"上限也许会更高"

杨植麟

模型公司去做一方的产品它的逻辑是完全不一样的。你不需要逆向的过程，更多的是一个正向的做法——我现在先把这些工具设计好，Context Engineering的方法都设计好，然后在这个环境里面去训练模型。

模型即产品

训练完成 = 产品完成

杨植麟反复强调的"模型即产品"理念：当你训练Agent模型时，工具、环境、Context Engineering都已经搭好——模型训完后，产品已经做完了。交互层面的优化是"锦上添花"，核心性能在训练中已经打磨完成。这与传统互联网"先有产品再迭代"的思路根本不同。

一方产品的垂直整合优势

杨植麟对边界的判断

一方产品不可能覆盖所有Agent空间——"一方产品不一定做得过来"
专有Agent的机会：掌握独特工具（如线下服务入口）、需要大量领域know-how的evaluation
但当通用Agent流量和商业模式成熟后，专有工具也会愿意接入——"因为整体的商业化效率会更高"
Manus类公司短期是合作大于竞争，长期会随产品演进而动态调整

五、L1到L5：并非线性的能力阶梯

杨植麟对OpenAI提出的L1-L5分级（Chatbot→Reasoner→Agent→Innovator→Organization）给出了独到的解读。

级别	名称	杨植麟的判断
L1	Chatbot	已基本实现，但Reasoning仍有很大空间
L2	Reasoner	"你真的说做到很强很强的推理，今天也还是有很大的空间"
L3	Agent	最大挑战是泛化性，需要L4的技术来解决L3的问题
L4	Innovator	关键标志：模型参与到模型自身的研发——"K2能参与到K3的开发"
L5	Organization	Multi-Agent系统，已有雏形，但端到端训练Multi-Agent是挑战

L1-L5 能力层级：并行而非串行

L4解决L3：非线性的关键洞察

杨植麟提出了本次访谈最重要的技术判断之一：Agent（L3）的泛化问题需要Innovation（L4）的技术来解决。今天Agent的泛化不够好，是因为人工定义的task和benchmark有限；只有当模型能参与到"AI对齐AI"的过程中，才能突破这种种瓜得瓜的限制。"你要用L4的技术去解决一个L3的问题。所以L1到L5的定义有可能真的不是线性。"

Innovation的标志：模型的自我迭代

杨植麟

我们希望K2能够参与到K3的开发里面。如果你没有Agent的能力，你其实很难做到这个事情。但当你有Agent能力之后它就可以去——不管是提出一些新的想法，还是去做对应的实验，然后分析实验结果得到一些结论。

六、K1.5到K2：关键技术决策复盘

K1.5：强化学习的技术验证

K1.5的核心发现

较早在强化学习技术路线上做投入
发现不需要太多Process Reward或Value Function——甚至在训练过程中还有副作用
直接用端到端的Reward就可以把训练做得非常好
积累了强化学习的基建和算法经验

K2的三大设计目标

Base Model

做非常好的基础模型，提升Token Efficiency

Agentic

好的Agent能力与泛化性

开源

第一个开源的Agentic模型

研发时间线

一年前

开始积累各种关键技术——Muon优化器、Agent数据方法、大规模训练稳定性。"很多技术需要经过一个比较长的周期。"

小规模验证期

通过不同的Scaling实验验证技术有效性。"你有这个想法之后，到最后能够放到一个万亿模型里面去训练，要经过很长的周期。"

训练过程

遇到Muon优化器的MaxLogit爆炸问题——小规模上无法复现，只有大规模才出现。提出新的Clipping方式解决。

杨植麟

研究和训练是一个团队在做的。因为这些东西很难分开——你在实际训练过程中遇到问题，如果之前都不了解，你没有办法解决它。

训练中的意外

Muon优化器的大规模训练稳定性问题

MaxLogit在大规模训练时会爆炸——"内科指标不正常对模型的上限是有害的"
小规模实验上无法复现——这是大规模训练特有的问题
提出新的Clipping方式解决，让Muon在非常大规模的情况下仍能稳定训练
这是K2训练过程中唯一无法被提前预测的问题

七、Token Efficiency：Muon优化器与数据改写

杨植麟将Token Efficiency视为突破数据墙的核心路径——不是训得更快（Computer Efficiency），而是让同样的数据产生更多智能。

核心区分

Token Efficiency vs Computer Efficiency

Computer Efficiency：训得更快，更短时间完成训练——但模型效果不一定变好，因为Token还是那么多。Token Efficiency：同样的数据，吸收得更好、脑子长得更多、Loss降得更快。杨植麟明确选择后者作为K2的核心优化方向。

Muon优化器的突破

从Adam到Muon

Adam已用了十年，所有大模型都用Adam训练——但Token Efficiency并不够好
Adam把每个参数独立考虑；Muon基于矩阵正交化，考虑参数间的dependency
在Compute Optimal情况下，Muon有约2倍的Token Efficiency提升
"学一份数据就等于别人用Adam学两份数据"——30T高质量Token等价于60T
Muon由Keller提出，Kimi团队在大规模语言模型训练上做了大量优化（Moonlight工作）

Muon vs Adam 的Token Efficiency提升

30T→60T

等价高质量Token量

10年

Adam统治的时间

数据改写策略

把有限数据当成更多来用

高质量数据增长缓慢，"接近是一个常数"
同一份数据学很多次会导致过拟合和泛化变差
通过模型改写数据，让它有一定程度的泛化——关键是改写时要有新的熵的输入
具体改写方式有非常多种，"这个空间也很大，可以有非常多的研究机会"

张小珺

改写和扩充其实没用？能够写出来知识说明知识本身就在里面，没有新知识。

杨植麟

可能确实跟你的改写方式有关系。理论上就是看你有没有新的熵的输入。

八、Agent的泛化困境与破解

杨植麟反复强调：Agent的泛化性是当前AI最大的未解决问题。这一判断贯穿整个访谈。

Agent的定义

两个核心特征

多轮——一种Test Time Scaling方式，能做很多次而非一轮输出
工具——连接脑与外部世界。搜索引擎连接互联网，代码连接数字世界的自动化

杨植麟特别强调：Agent的目的不是模拟人，而是通用（general purpose intelligence）。"跟人的做法类似只是一个刚好的结果，并不是设计目的。就像设计飞机是为了当交通工具，不是为了像鸟一样能飞。"

泛化困境的具体表现

Benchmark过拟合

SWE-Bench马上会饱和
很多Bench不够真实，不反映实际用户体验
优化Benchmark会导致RL任务坍缩到几个单点
"你在没有观测的东西上它可能就掉得非常多"

种瓜得瓜问题

RL的泛化比SFT好——因为On-policy Sample
但仍然受分布制约
某类数学竞赛做到99分，别的数学提升5分
即便是Coding Agent也面临同样挑战

杨植麟

我是觉得现在这个领域面临的可能是Benchmark不够用，或者Benchmark失效，就是Agent的泛化有问题这样的一个阶段。

破解方向

用AI训练AI——用Innovation层的技术解决Agent层的问题
更好的Evaluation——世界模型可能是其中一部分
Long Context支持——128K/256K不够，需要百万级别；但长的同时不能损伤智商
RL训练方式改进——Multi-Agent系统需要中间Reward，而非仅端到端Reward
更通用的环境设计——正向设计而非为特定任务专门设计

Curriculum Learning的隐式实现

K2使用中等难度任务而非最难任务来训练Agent——这不是退让，而是强化学习本身隐式实现了课程学习：从合适难度开始，逐渐提升。"你不能一上来就让它去证明一个还没有人证明过的数学问题，那sample efficiency就会非常非常低。"这解释了为什么K2的Agent训练策略看似保守实则更有效。

九、Coding Agent与通用Agent的关系

杨植麟对Coding Agent做出了一个精确的定位：它是通用Agent的重要子集，但Kimi的目标不止于此。

定位

Coding = 数字世界的自动化入口

Coding的独特地位在于：数字世界几乎所有自动化都可以用代码描述。如果你想创建新工具——写代码；想做更好的Context Engineering——背后也是代码。更关键的是，Coding Agent比较好验证（有test case），所以比较好学习。但这也意味着它面临同样的泛化挑战。

为什么不只做Coding模型

通用性的必要性

很多非程序员（律师、产品经理、设计师）也在用Claude Code做自己的任务——这得益于模型的泛化
Agent步数越多，对通用性的要求越高——"即便程序员也不仅只是写代码"
如果只拟合到单点能力，Benchmark看起来好但实际通用性不够

Agent还缺乏什么能力

能力	现状	杨植麟的判断
高频工具使用	还不够好，能力上还有很大空间	缺少更好的Benchmark来观测
长尾工具泛化	完全OOD的工具上表现不佳	需要更好的泛化才能避免垂直Agent的碎片化
Long Context	128K-256K不够，需百万级	长的同时不能损伤智商——架构层面的挑战
RL训练方式	端到端Reward可能不够	Multi-Agent系统需要中间Reward，如何摆脱人工设计

十、开源与闭源：动态博弈与生态演进

杨植麟在去年访谈中曾说"开源会落后于闭源"。一年后，K2开源了。张小珺追问这一变化。

张小珺

但是你今天开源了呀。

杨植麟

因为我们还没有做到完全的领先。

杨植麟对开源的重新理解

开源的价值与局限

社区能贡献的：推理侧的优化、更多人免费部署和使用、加速技术推进
社区不能贡献的：让Base Model本身变得更好——"还只能是你原厂自己来做"
开源的新机会：基于开源模型做Agentic Post Training——比如法律Agent、垂直Specialized Agent
但这更多是赋能下游应用，而非提升主模型

市场格局的收敛判断

几百→几十→几个

全球模型公司数量的收敛趋势

动态

Kimi的开闭源策略——"不一定所有东西都会完全开"

为什么中国公司都开源了

杨植麟坦率地说："客观的说还是有市场博弈的因素。"但他认为这对社区是好事——开源让大家可以互相借鉴，加速收敛。Kimi希望持续分享好的技术，但并非所有东西都开源——"这是一个技术体系的信仰"。

十一、AI时代的产品与系统复杂性

交互方式随模型能力演进

Copilot

单个代码补全，人点击Accept/Reject。

Cursor

更深度的代码编辑辅助，但仍需人工审查每个修改。

Claude Code

多步Agentic Coding任务，端到端执行。"但今天Claude Code的交互也不是终极形态。"

下一代（未知）

Multi-Agent System的交互方式——"模型还会提升，提升之后交互就会持续变化。"

通用模型的系统复杂性

简单和复杂的双面性

变简单：所有东西放在同一个模型里，不需要维护那么多模型和routing策略
变复杂：模型要在所有场景下工作——不同工具集、不同定义、不同实现方式都要适配
Coding Agent、Search Agent、其他Agent放在同一个通用模型里会"打架"——工具定义不一样、数据pattern不一样
多模态的挑战：加入多模态能力后不能损伤文本智商——"你希望在多模态模式下也能激发文本的智商，而不是进入另外一部分参数"
越到Post Training后期越到RL，这个问题越严重——Pre-training相对好做

杨植麟

你只是能够不损伤已经很好了。你希望在多模态模式下跟文本模式下共用一个脑子——能在多模态模式下也能把文本的智商给激发出来，而不是完全丢掉了原来文本里面学习的部分。

十二、Scaling Law、数据飞轮与商业模式

Scaling Law的现状

数据墙存在，但模型变好的速度在加速

数据墙是客观事实——所以要提高Token Efficiency
RL的Scaling效率比Pre-training更高——因为On-policy、有复杂度
"我们观察到模型变好的速度并没有在减少，甚至是在加速"
先Scale Pre-Training，再Scale RL——两波叠加

为什么AI产品还没形成数据飞轮

原因一：算力Scaling太强大

直接Scale Flops带来的提升非常大
会显得其他提升很小
"基于算力的Scaling太强大了"

原因二：反馈信号噪声

数据飞轮依赖外界环境的Feedback
大模型的学习对噪声比较敏感
跟推荐系统不一样——推荐系统对噪声更鲁棒
需要新的交互设计来减少噪声

商业模式的思考

两条路径

To B API——头部公司有几十亿到三百亿美元的ARR，且在快速增长，"每一两个季度就能翻两三倍"
一方产品——垂直整合的优势
最主要还是把模型做得更好——"如果模型真的能做到比如Opus的水平甚至做得更好，那空间肯定更大"
关于Kimi能不能赚到钱："取决于你的模型效果。市场已经一定程度上被验证，而且在快速增长。"

AI 产品的两种增长逻辑

2C产品的价值不在于数据飞轮

杨植麟认为用户数据无法直接拿去训练提升模型智能，但2C产品的价值在于：（1）了解需求分布，知道用户用什么好、用什么不好，抽象成Evaluation去优化；（2）用户的商业价值——Agent产品的专业用户"已经本身就是一个很好的生产力的价值"。

十三、用RL管理团队：SFT与RL的平衡

杨植麟在访谈中透露了一个令人惊讶的管理哲学——他正在尝试用RL的方式管理团队，而不是用SFT。

SFT式管理

直接告诉团队"这个东西应该这样做"
明确指令，明确路径
风险：团队失去创造力和主观能动性
"SFT太多，这些同学就会失去主观能动性"

RL式管理

给团队一个Reward信号——"如果做成这样，那可能是好的"
让团队自己探索路径
风险：容易被Hack——"看起来结果都很好，但实际上没有达到你想要的"
需要用SFT作为"先验"防止飞太远

杨植麟

这个是Tim天天跟我讲的——就是说你觉得要用RL的方式去管理，而不是用SFT。好的技术你做RL的时候也希望加一部分SFT——不希望模型飞太远。但是你要管住自己的手，不能SFT太多。

科研、AI训练、组织管理——三位一体

杨植麟发现了一个深层的同构关系：（1）科研：提出猜想、验证猜想、迭代——这是RL过程；（2）AI训练：以RL为主、SFT为辅、防止Reward Hacking；（3）组织管理：定好Reward（但不能只定Benchmark分数）、让团队自由探索、用SFT防止偏离太远。"这三个东西好像是相通的。"定义Reward尤其重要——如果只是把Benchmark做高，就会出现Overfitting，"所有人都不择手段把那个分弄上去，弄完之后模型好像还并没有变好"。

十四、创始人心态：问题不可避免，问题可以解决

过去一年的最大成长

杨植麟

认识到一个点就是说问题是不可避免的，它会一直存在。然后持续解决新问题，我觉得最重要可能也是最有意思的。这个是一个心态上的变化。

创业中的心态管理

杨植麟的几个原则

"不以物喜不以己悲"——避免情绪化的决策，最终落实到决策和执行上要理性
"做时间的朋友"——反复强调，包括技术积累、人才投入
不恐惧掉下去——"更多关注当前这一步能做什么"
兴奋值维持稳定——"更适应这种状态让兴奋值减少，但AI进展快又让兴奋值增加"

走弯路是知识创造的必然

杨植麟

就像牛顿做的很多东西它当时是最好的理论，但它不是完美的，它在一些场景下是完全错误的理论。组织的进化或者一个公司的发展是一个动态的过程，任何中间点在某些时间是对的，有些时间可能是错的。

CEO的技术战略

花时间最多的事

技术战略——"可能公司战略里面最重要的一部分"，决定下一步做什么、不做什么
技术战略"至少决定五六成的公司走向"
不能拍脑袋——需要大量实验证据支撑，"数据足够充分时判断也是比较显然的"
关键决策：做Long COT、Muon优化器、更大规模Re-training、第一个开源Agentic模型

十五、AI与人类文明：放大器还是威胁

访谈的最后部分，杨植麟和张小珺讨论了AI的终极意义。

杨植麟引述Kimi

它说这个东西是人类文明的放大器。

AI作为Meta Science

杨植麟对AI角色的判断

从启蒙运动到现在，人类一直在找突破知识边界的新方法
在任何前沿学科，人类要花二三十年学到最前沿才能做突破
AI会成为一个Meta Science——科学的科学，巨大的杠杆
风险不能说不存在——但"如果放弃这个事情，你放弃了人类文明的上限"

人的独特价值

可能被AI取代的

创造中的"很大一部分"
生产力——"无所谓，因为人可以享受生产的结果"

以人为中心的

体验
爱
人的情感——"没有办法被AI替代"

快答环节

问题	杨植麟的回答
全球最喜欢的食物	拉面——"好吃"
推荐的书	《The Beginning of Infinity》
影响AI进程的论文	Back Propagation、Transformer、GPT-3、ResNet、Adam（"但现在可能还有Muon"）
当下最关键的Bet	"泛化的Agent，用Innovation，用L4做L3"

十六、关键数据与判断汇总

判断	具体内容
AGI定义	不是一个时间点，是一个方向；在很多领域局部已实现；包括对社会的影响
两种Test Time Scaling	缸中之脑（串行思考）vs Agentic（多轮交互），两者并非依赖关系
L1-L5关系	并非线性串行，需要L4的技术解决L3的问题
Muon vs Adam	Token Efficiency约2倍提升，30T等价60T
K1.5定位	强化学习技术验证——发现不需要Process Reward
K2定位	好的Base Model + 好的Agentic能力 + 第一个开源Agentic模型
K2唯一意外	Muon优化器的MaxLogit大规模爆炸问题——小规模无法复现
Agent最大挑战	泛化性——Benchmark失效、种瓜得瓜、OOD场景表现差
Coding Agent定位	通用Agent的重要子集，代表数字世界的自动化入口
开源策略	长期分享技术，但不一定所有东西都开源
市场收敛	全球模型公司从几百→几十→几个
Scaling Law	数据墙存在，但模型变好速度在加速；RL Scaling效率高于Pre-training
数据飞轮	尚未形成——算力Scaling太强大 + 反馈信号噪声
一方产品优势	正向工程 > 逆向工程，垂直整合的上限更高
组织管理	RL为主、SFT为辅、防止Reward Hacking
最关键Bet	泛化的Agent，用L4做L3
AI的角色	人类文明的放大器 + Meta Science
影响AI的论文	Back Propagation、Transformer、GPT-3、ResNet、Adam/Muon
成功概率	比一年前增大——"只要你还在往上爬，成功概率都会变大"

启示与延伸思考

1. "缸中之脑"与"Agentic"是两条独立的Scaling路径

杨植麟提出的这一框架解释了为什么Claude在Reasoning上不突出却在Agent上领先——两种Test Time Scaling路径背后是不同的技术栈。Reasoning Scaling的是单轮思考深度，Agent Scaling的是多轮交互轮次。它们最终需要融合，但在当前阶段各自独立有效。这对行业的启示是：不必等到Reasoning做到极致才开始Agent，反之亦然。

2. "用L4做L3"可能是AI发展的下一个突破口

杨植麟最核心的技术判断是：Agent的泛化问题无法在Agent层面解决，需要Innovation层的技术——让AI参与AI的训练、对齐和评估。这意味着L1-L5不是线性攻克的台阶，而是互相支撑的能力网络。如果这个判断正确，那么"模型参与自身研发"将成为下一轮AI竞争的关键分水岭。

3. Token Efficiency而非Computer Efficiency是突破数据墙的正确方向

杨植麟做了一个重要区分：训得更快（Computer Efficiency）不提升智能上限，同样数据吸收更多（Token Efficiency）才提升上限。Muon优化器的2倍Token Efficiency意味着30T数据等价60T——这是对数据墙的直接回答。更大的含义是：优化器这个被忽视十年的领域（Adam统治了十年）可能是下一个技术红利区。

4. 正向工程取代逆向工程是AI产品的范式转移

杨植麟对脚手架模式（Manus）和一方产品模式（Claude Code）的区分揭示了一个产品范式的根本转变：传统三方产品本质上是在逆向工程模型的训练过程——猜测最佳Prompt、最佳工具配置。而一方产品是正向工程——先设计好环境再训练模型。这解释了为什么模型公司的产品天然具有优势，也暗示三方Agent公司需要找到独特的工具壁垒才能生存。

5. "模型即产品"理念仍在深化

杨植麟一年前提出"模型即产品"，今天这个理念更加具体：当你训练Agent模型时，工具、环境、Context Engineering都必须在训练时搭好——模型训完，产品基本完成。交互设计是"锦上添花"。这与互联网时代"先有产品再迭代"的方法论根本不同，也解释了为什么杨植麟把绝大部分时间投入技术战略而非产品设计。

6. RL管理组织是一个值得关注的管理哲学实验

杨植麟将AI训练中SFT和RL的关系映射到组织管理：SFT式管理（直接指令）让团队失去创造力，RL式管理（定义Reward让团队自由探索）可能被Hack。最佳策略是以RL为主、SFT为辅——给方向但不给路径，用少量"先验"防止偏离太远。这种从技术到管理的同构思维，可能是AI原生组织的一个重要特征。

7. Benchmark失效是Agent领域最被低估的风险

杨植麟多次强调：SWE-Bench即将饱和，很多Benchmark不反映真实用户体验，优化Benchmark会导致RL任务坍缩到几个单点。这意味着当前Agent领域的"军备竞赛"可能在优化错误的目标。真正的泛化需要完全不同的评估方式——可能是世界模型，可能是AI自评估——这正是"用L4做L3"的具体含义。

杨植麟：K2、Agentic LLM与无限的开端

目录