← 返回目录
深度研究 Deep Dive

杨植麟:K2、Agentic LLM与无限的开端

#113 和杨植麟时隔1年的对话
2025.7 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. The Beginning of Infinity:无限雪山
  2. 过去一年:全球大模型的范式变迁
  3. 缸中之脑 vs Agentic:两种Test Time Scaling
  4. 一方产品 vs 脚手架:正向与逆向工程
  5. L1到L5:并非线性的能力阶梯
  6. K1.5到K2:关键技术决策复盘
  7. Token Efficiency:Muon优化器与数据改写
  8. Agent的泛化困境与破解
  9. Coding Agent与通用Agent的关系
  10. 开源与闭源:动态博弈与生态演进
  11. AI时代的产品与系统复杂性
  12. Scaling Law、数据飞轮与商业模式
  13. 用RL管理团队:SFT与RL的平衡
  14. 创始人心态:问题不可避免,问题可以解决
  15. AI与人类文明:放大器还是威胁
  16. 关键数据与判断汇总

一、The Beginning of Infinity:无限雪山

杨植麟在访谈开场便引用了David Deutsch《The Beginning of Infinity》中的核心命题,将其作为他理解AI发展的根本框架。

杨植麟
它说有两句话要刻在石头上。一句话叫问题是不可避免的,但是第二句话是说问题是可以解决的。

杨植麟将AI的发展比作攀登一座可能没有尽头的雪山:每解决一个问题,技术就往上攀升几百米,但解决问题的过程又会产生新的问题。他明确表示"我希望它一直没有尽头"——因为这正是"Beginning of Infinity"的含义。

核心隐喻

从静态社会到动态社会

杨植麟借助Deutsch的框架区分了两种社会形态:启蒙运动之前是静态社会——人们用"雷公"解释打雷,不追求创新;启蒙运动之后是动态社会——知识不断被创造,问题不断产生又被解决。AI恰好处于这样一个动态过程之中:解决了强化学习的问题,就面临评估和泛化的新问题。

AGI不是一级台阶,而是一个方向

杨植麟对AGI的重新定义

  • AGI可能不是某一个时间点的突破——"你很难说某一个时间点我突然就可以喊一个口号说此时此刻实现AGI"
  • 与登月不同——登月是站上月球那一刻就达到了,AGI是你不断做
  • 在很多领域,今天的模型"可能做的比99%的人类都更好",可以认为局部已是AGI
  • 除了技术提升,技术对人类社会的影响也是AGI的一部分——类似蒸汽机产生后,社会花了几十几百年消化

雪山上的攀登者已不只是人

杨植麟
甚至有可能爬到一段时间之后,不一定是自己在爬。有可能是你用AI来爬。比如说你现在我们也会把K2这个模型去做很多可能模型训练或者说数据处理相关的工作。

递归式攀登的含义

杨植麟透露K2模型已被用于自身的模型训练和数据处理工作——这意味着攀登雪山的工具本身在进化。这是一个自指的结构:AI正在参与创造更好的AI。他希望K2能参与到K3的开发中,这正对应L1-L5框架中"Innovation"层级的核心含义。

二、过去一年:全球大模型的范式变迁

杨植麟总结过去一年AI领域最重要的几件事,并将其归纳为清晰的技术演进脉络。

三大重要变化

强思考的推理模型(Reasoning)

以O1为代表。本质是让模型在过程中做大量猜想-验证的循环:提出猜想、自我验证、否定后提出新猜想。相当于把pass@k变成pass@1——"你本来只能做一次,现在可以不断的提出猜想去验证。"

多轮Agent强化学习

模型不再是"缸中之脑",而是跟外界做大量交互——边思考边操作,调用搜索、使用浏览器、写代码。通过多轮方式解决一个问题,下一步行为基于外界反馈。

模型公司做一方产品

从基于基础模型搭建脚手架的方式,转向模型公司自己做端到端产品。代表:Claude CodeChatGPT Agent。这是正向工程取代逆向工程的趋势。

Kimi过去一年的关键决策

RL优先
从预训练+SFT为重点转向强化学习为重点
对话→Agent
从对话模型转向Agent模型
人才+研发
大量人才储备与研发方式变革

三、缸中之脑 vs Agentic:两种Test Time Scaling

杨植麟提出了本次访谈最精彩的技术框架——两种本质不同的Test Time Scaling方式,它们共同指向同一个目标:规模化推理时的Token

缸中之脑(Brain in a Vat)

  • 不跟外界交互,纯粹在大脑里想
  • 猜想-验证的串行过程,也可搭配并行采样
  • 对应强思考的推理模型(O1路线)
  • Scaling维度:每轮思考的Token数
  • 最新研究发现:串行的上限可能更高

Agentic(与外界交互)

  • 多轮使用工具,与环境持续交互
  • 行为基于外界反馈更新
  • 对应Agent强化学习(Claude路线)
  • Scaling维度:交互轮次
  • 可以端到端完成复杂代码任务
两种 Test Time Scaling 路径对比
杨植麟
你可以看Claude很多模型它的Reasoning的Performance并不是非常高,但是它在Agent上的Performance是很高的。这两个东西它其实也并不一定是依赖的关系。

两种路径不是串行依赖,而是互补关系

杨植麟指出一个被广泛忽视的事实:Reasoning和Agent在研发上不是必然的顺序关系。Claude在Reasoning上并不突出但Agent表现极好——这说明两种技术路径(缸中之脑 vs 外界交互)各自独立有效。但如果要做到最好的Agent,最终还是需要Reasoning也很强。"它只是一个时间问题。"

四、一方产品 vs 脚手架:正向与逆向工程

杨植麟提出了AI产品开发中的一个深层区分——逆向工程正向工程两种完全不同的思路。

逆向工程(脚手架模式)

  • 基于基础模型,设计工具和脚手架
  • 本质是逆向工程模型的训练过程
  • 猜测模型的最佳System Prompt、Context Engineering
  • 代表:Manus等三方Agent产品
  • "你更接近去拟合它的分布"

正向工程(一方产品模式)

  • 先设计好工具和Context Engineering
  • 在这个环境里直接训练模型
  • 模型天然在自己的环境里表现更好
  • 代表:Claude Code、ChatGPT Agent
  • "上限也许会更高"
杨植麟
模型公司去做一方的产品它的逻辑是完全不一样的。你不需要逆向的过程,更多的是一个正向的做法——我现在先把这些工具设计好,Context Engineering的方法都设计好,然后在这个环境里面去训练模型。
模型即产品

训练完成 = 产品完成

杨植麟反复强调的"模型即产品"理念:当你训练Agent模型时,工具、环境、Context Engineering都已经搭好——模型训完后,产品已经做完了。交互层面的优化是"锦上添花",核心性能在训练中已经打磨完成。这与传统互联网"先有产品再迭代"的思路根本不同。

一方产品的垂直整合优势

杨植麟对边界的判断

  • 一方产品不可能覆盖所有Agent空间——"一方产品不一定做得过来"
  • 专有Agent的机会:掌握独特工具(如线下服务入口)、需要大量领域know-how的evaluation
  • 但当通用Agent流量和商业模式成熟后,专有工具也会愿意接入——"因为整体的商业化效率会更高"
  • Manus类公司短期是合作大于竞争,长期会随产品演进而动态调整

五、L1到L5:并非线性的能力阶梯

杨植麟对OpenAI提出的L1-L5分级(Chatbot→Reasoner→Agent→Innovator→Organization)给出了独到的解读。

级别名称杨植麟的判断
L1Chatbot已基本实现,但Reasoning仍有很大空间
L2Reasoner"你真的说做到很强很强的推理,今天也还是有很大的空间"
L3Agent最大挑战是泛化性,需要L4的技术来解决L3的问题
L4Innovator关键标志:模型参与到模型自身的研发——"K2能参与到K3的开发"
L5OrganizationMulti-Agent系统,已有雏形,但端到端训练Multi-Agent是挑战
L1-L5 能力层级:并行而非串行

L4解决L3:非线性的关键洞察

杨植麟提出了本次访谈最重要的技术判断之一:Agent(L3)的泛化问题需要Innovation(L4)的技术来解决。今天Agent的泛化不够好,是因为人工定义的task和benchmark有限;只有当模型能参与到"AI对齐AI"的过程中,才能突破这种种瓜得瓜的限制。"你要用L4的技术去解决一个L3的问题。所以L1到L5的定义有可能真的不是线性。"

Innovation的标志:模型的自我迭代

杨植麟
我们希望K2能够参与到K3的开发里面。如果你没有Agent的能力,你其实很难做到这个事情。但当你有Agent能力之后它就可以去——不管是提出一些新的想法,还是去做对应的实验,然后分析实验结果得到一些结论。

六、K1.5到K2:关键技术决策复盘

K1.5:强化学习的技术验证

K1.5的核心发现

  • 较早在强化学习技术路线上做投入
  • 发现不需要太多Process Reward或Value Function——甚至在训练过程中还有副作用
  • 直接用端到端的Reward就可以把训练做得非常好
  • 积累了强化学习的基建和算法经验

K2的三大设计目标

Base Model
做非常好的基础模型,提升Token Efficiency
Agentic
好的Agent能力与泛化性
开源
第一个开源的Agentic模型

研发时间线

一年前

开始积累各种关键技术——Muon优化器、Agent数据方法、大规模训练稳定性。"很多技术需要经过一个比较长的周期。"

小规模验证期

通过不同的Scaling实验验证技术有效性。"你有这个想法之后,到最后能够放到一个万亿模型里面去训练,要经过很长的周期。"

最近几个月

决定训练K2模型,确定哪些技术用上。"看现在工具箱里面又多了很多新的东西,到底要把哪些东西拿出来用。"

训练过程

遇到Muon优化器的MaxLogit爆炸问题——小规模上无法复现,只有大规模才出现。提出新的Clipping方式解决。

杨植麟
研究和训练是一个团队在做的。因为这些东西很难分开——你在实际训练过程中遇到问题,如果之前都不了解,你没有办法解决它。

训练中的意外

Muon优化器的大规模训练稳定性问题

  • MaxLogit在大规模训练时会爆炸——"内科指标不正常对模型的上限是有害的"
  • 小规模实验上无法复现——这是大规模训练特有的问题
  • 提出新的Clipping方式解决,让Muon在非常大规模的情况下仍能稳定训练
  • 这是K2训练过程中唯一无法被提前预测的问题

七、Token Efficiency:Muon优化器与数据改写

杨植麟将Token Efficiency视为突破数据墙的核心路径——不是训得更快(Computer Efficiency),而是让同样的数据产生更多智能。

核心区分

Token Efficiency vs Computer Efficiency

Computer Efficiency:训得更快,更短时间完成训练——但模型效果不一定变好,因为Token还是那么多。Token Efficiency:同样的数据,吸收得更好、脑子长得更多、Loss降得更快。杨植麟明确选择后者作为K2的核心优化方向。

Muon优化器的突破

从Adam到Muon

  • Adam已用了十年,所有大模型都用Adam训练——但Token Efficiency并不够好
  • Adam把每个参数独立考虑;Muon基于矩阵正交化,考虑参数间的dependency
  • 在Compute Optimal情况下,Muon有约2倍的Token Efficiency提升
  • "学一份数据就等于别人用Adam学两份数据"——30T高质量Token等价于60T
  • Muon由Keller提出,Kimi团队在大规模语言模型训练上做了大量优化(Moonlight工作)
2x
Muon vs Adam 的Token Efficiency提升
30T→60T
等价高质量Token量
10年
Adam统治的时间

数据改写策略

把有限数据当成更多来用

  • 高质量数据增长缓慢,"接近是一个常数"
  • 同一份数据学很多次会导致过拟合和泛化变差
  • 通过模型改写数据,让它有一定程度的泛化——关键是改写时要有新的熵的输入
  • 具体改写方式有非常多种,"这个空间也很大,可以有非常多的研究机会"
张小珺
改写和扩充其实没用?能够写出来知识说明知识本身就在里面,没有新知识。
杨植麟
可能确实跟你的改写方式有关系。理论上就是看你有没有新的熵的输入。

更多参数 = 更高的Token Efficiency

杨植麟还指出一个直觉上的关联:通过更大的稀疏度加更多的参数,Token Efficiency也会更高——"因为你参数多了之后,虽然学一样多的数据,你会吸收得更好。"这为K2选择更大规模的模型提供了理论依据。

八、Agent的泛化困境与破解

杨植麟反复强调:Agent的泛化性是当前AI最大的未解决问题。这一判断贯穿整个访谈。

Agent的定义

两个核心特征

  • 多轮——一种Test Time Scaling方式,能做很多次而非一轮输出
  • 工具——连接脑与外部世界。搜索引擎连接互联网,代码连接数字世界的自动化

杨植麟特别强调:Agent的目的不是模拟人,而是通用(general purpose intelligence)。"跟人的做法类似只是一个刚好的结果,并不是设计目的。就像设计飞机是为了当交通工具,不是为了像鸟一样能飞。"

泛化困境的具体表现

Benchmark过拟合

  • SWE-Bench马上会饱和
  • 很多Bench不够真实,不反映实际用户体验
  • 优化Benchmark会导致RL任务坍缩到几个单点
  • "你在没有观测的东西上它可能就掉得非常多"

种瓜得瓜问题

  • RL的泛化比SFT好——因为On-policy Sample
  • 但仍然受分布制约
  • 某类数学竞赛做到99分,别的数学提升5分
  • 即便是Coding Agent也面临同样挑战
杨植麟
我是觉得现在这个领域面临的可能是Benchmark不够用,或者Benchmark失效,就是Agent的泛化有问题这样的一个阶段。

破解方向

Curriculum Learning的隐式实现

K2使用中等难度任务而非最难任务来训练Agent——这不是退让,而是强化学习本身隐式实现了课程学习:从合适难度开始,逐渐提升。"你不能一上来就让它去证明一个还没有人证明过的数学问题,那sample efficiency就会非常非常低。"这解释了为什么K2的Agent训练策略看似保守实则更有效。

九、Coding Agent与通用Agent的关系

杨植麟对Coding Agent做出了一个精确的定位:它是通用Agent的重要子集,但Kimi的目标不止于此。

定位

Coding = 数字世界的自动化入口

Coding的独特地位在于:数字世界几乎所有自动化都可以用代码描述。如果你想创建新工具——写代码;想做更好的Context Engineering——背后也是代码。更关键的是,Coding Agent比较好验证(有test case),所以比较好学习。但这也意味着它面临同样的泛化挑战。

为什么不只做Coding模型

通用性的必要性

  • 很多非程序员(律师、产品经理、设计师)也在用Claude Code做自己的任务——这得益于模型的泛化
  • Agent步数越多,对通用性的要求越高——"即便程序员也不仅只是写代码"
  • 如果只拟合到单点能力,Benchmark看起来好但实际通用性不够

Agent还缺乏什么能力

能力现状杨植麟的判断
高频工具使用还不够好,能力上还有很大空间缺少更好的Benchmark来观测
长尾工具泛化完全OOD的工具上表现不佳需要更好的泛化才能避免垂直Agent的碎片化
Long Context128K-256K不够,需百万级长的同时不能损伤智商——架构层面的挑战
RL训练方式端到端Reward可能不够Multi-Agent系统需要中间Reward,如何摆脱人工设计

十、开源与闭源:动态博弈与生态演进

杨植麟在去年访谈中曾说"开源会落后于闭源"。一年后,K2开源了。张小珺追问这一变化。

张小珺
但是你今天开源了呀。
杨植麟
因为我们还没有做到完全的领先。

杨植麟对开源的重新理解

开源的价值与局限

  • 社区能贡献的:推理侧的优化、更多人免费部署和使用、加速技术推进
  • 社区不能贡献的:让Base Model本身变得更好——"还只能是你原厂自己来做"
  • 开源的新机会:基于开源模型做Agentic Post Training——比如法律Agent、垂直Specialized Agent
  • 但这更多是赋能下游应用,而非提升主模型

市场格局的收敛判断

几百→几十→几个
全球模型公司数量的收敛趋势
动态
Kimi的开闭源策略——"不一定所有东西都会完全开"

为什么中国公司都开源了

杨植麟坦率地说:"客观的说还是有市场博弈的因素。"但他认为这对社区是好事——开源让大家可以互相借鉴,加速收敛。Kimi希望持续分享好的技术,但并非所有东西都开源——"这是一个技术体系的信仰"。

十一、AI时代的产品与系统复杂性

交互方式随模型能力演进

Copilot

单个代码补全,人点击Accept/Reject。

Cursor

更深度的代码编辑辅助,但仍需人工审查每个修改。

Claude Code

多步Agentic Coding任务,端到端执行。"但今天Claude Code的交互也不是终极形态。"

下一代(未知)

Multi-Agent System的交互方式——"模型还会提升,提升之后交互就会持续变化。"

通用模型的系统复杂性

简单和复杂的双面性

  • 变简单:所有东西放在同一个模型里,不需要维护那么多模型和routing策略
  • 变复杂:模型要在所有场景下工作——不同工具集、不同定义、不同实现方式都要适配
  • Coding Agent、Search Agent、其他Agent放在同一个通用模型里会"打架"——工具定义不一样、数据pattern不一样
  • 多模态的挑战:加入多模态能力后不能损伤文本智商——"你希望在多模态模式下也能激发文本的智商,而不是进入另外一部分参数"
  • 越到Post Training后期越到RL,这个问题越严重——Pre-training相对好做
杨植麟
你只是能够不损伤已经很好了。你希望在多模态模式下跟文本模式下共用一个脑子——能在多模态模式下也能把文本的智商给激发出来,而不是完全丢掉了原来文本里面学习的部分。

十二、Scaling Law、数据飞轮与商业模式

Scaling Law的现状

数据墙存在,但模型变好的速度在加速

  • 数据墙是客观事实——所以要提高Token Efficiency
  • RL的Scaling效率比Pre-training更高——因为On-policy、有复杂度
  • "我们观察到模型变好的速度并没有在减少,甚至是在加速"
  • 先Scale Pre-Training,再Scale RL——两波叠加

为什么AI产品还没形成数据飞轮

原因一:算力Scaling太强大

  • 直接Scale Flops带来的提升非常大
  • 会显得其他提升很小
  • "基于算力的Scaling太强大了"

原因二:反馈信号噪声

  • 数据飞轮依赖外界环境的Feedback
  • 大模型的学习对噪声比较敏感
  • 跟推荐系统不一样——推荐系统对噪声更鲁棒
  • 需要新的交互设计来减少噪声

商业模式的思考

两条路径

  • To B API——头部公司有几十亿到三百亿美元的ARR,且在快速增长,"每一两个季度就能翻两三倍"
  • 一方产品——垂直整合的优势
  • 最主要还是把模型做得更好——"如果模型真的能做到比如Opus的水平甚至做得更好,那空间肯定更大"
  • 关于Kimi能不能赚到钱:"取决于你的模型效果。市场已经一定程度上被验证,而且在快速增长。"
AI 产品的两种增长逻辑

2C产品的价值不在于数据飞轮

杨植麟认为用户数据无法直接拿去训练提升模型智能,但2C产品的价值在于:(1)了解需求分布,知道用户用什么好、用什么不好,抽象成Evaluation去优化;(2)用户的商业价值——Agent产品的专业用户"已经本身就是一个很好的生产力的价值"。

十三、用RL管理团队:SFT与RL的平衡

杨植麟在访谈中透露了一个令人惊讶的管理哲学——他正在尝试用RL的方式管理团队,而不是用SFT。

SFT式管理

  • 直接告诉团队"这个东西应该这样做"
  • 明确指令,明确路径
  • 风险:团队失去创造力和主观能动性
  • "SFT太多,这些同学就会失去主观能动性"

RL式管理

  • 给团队一个Reward信号——"如果做成这样,那可能是好的"
  • 让团队自己探索路径
  • 风险:容易被Hack——"看起来结果都很好,但实际上没有达到你想要的"
  • 需要用SFT作为"先验"防止飞太远
杨植麟
这个是Tim天天跟我讲的——就是说你觉得要用RL的方式去管理,而不是用SFT。好的技术你做RL的时候也希望加一部分SFT——不希望模型飞太远。但是你要管住自己的手,不能SFT太多。

科研、AI训练、组织管理——三位一体

杨植麟发现了一个深层的同构关系:(1)科研:提出猜想、验证猜想、迭代——这是RL过程;(2)AI训练:以RL为主、SFT为辅、防止Reward Hacking;(3)组织管理:定好Reward(但不能只定Benchmark分数)、让团队自由探索、用SFT防止偏离太远。"这三个东西好像是相通的。"定义Reward尤其重要——如果只是把Benchmark做高,就会出现Overfitting,"所有人都不择手段把那个分弄上去,弄完之后模型好像还并没有变好"。

十四、创始人心态:问题不可避免,问题可以解决

过去一年的最大成长

杨植麟
认识到一个点就是说问题是不可避免的,它会一直存在。然后持续解决新问题,我觉得最重要可能也是最有意思的。这个是一个心态上的变化。

创业中的心态管理

杨植麟的几个原则

  • "不以物喜不以己悲"——避免情绪化的决策,最终落实到决策和执行上要理性
  • "做时间的朋友"——反复强调,包括技术积累、人才投入
  • 不恐惧掉下去——"更多关注当前这一步能做什么"
  • 兴奋值维持稳定——"更适应这种状态让兴奋值减少,但AI进展快又让兴奋值增加"

走弯路是知识创造的必然

杨植麟
就像牛顿做的很多东西它当时是最好的理论,但它不是完美的,它在一些场景下是完全错误的理论。组织的进化或者一个公司的发展是一个动态的过程,任何中间点在某些时间是对的,有些时间可能是错的。

CEO的技术战略

花时间最多的事

  • 技术战略——"可能公司战略里面最重要的一部分",决定下一步做什么、不做什么
  • 技术战略"至少决定五六成的公司走向"
  • 不能拍脑袋——需要大量实验证据支撑,"数据足够充分时判断也是比较显然的"
  • 关键决策:做Long COT、Muon优化器、更大规模Re-training、第一个开源Agentic模型

十五、AI与人类文明:放大器还是威胁

访谈的最后部分,杨植麟和张小珺讨论了AI的终极意义。

杨植麟 引述Kimi
它说这个东西是人类文明的放大器。

AI作为Meta Science

杨植麟对AI角色的判断

  • 从启蒙运动到现在,人类一直在找突破知识边界的新方法
  • 在任何前沿学科,人类要花二三十年学到最前沿才能做突破
  • AI会成为一个Meta Science——科学的科学,巨大的杠杆
  • 风险不能说不存在——但"如果放弃这个事情,你放弃了人类文明的上限"

人的独特价值

可能被AI取代的

  • 创造中的"很大一部分"
  • 生产力——"无所谓,因为人可以享受生产的结果"

以人为中心的

  • 体验
  • 人的情感——"没有办法被AI替代"

快答环节

问题杨植麟的回答
全球最喜欢的食物拉面——"好吃"
推荐的书《The Beginning of Infinity》
影响AI进程的论文Back Propagation、TransformerGPT-3ResNet、Adam("但现在可能还有Muon")
当下最关键的Bet"泛化的Agent,用Innovation,用L4做L3"

十六、关键数据与判断汇总

判断具体内容
AGI定义不是一个时间点,是一个方向;在很多领域局部已实现;包括对社会的影响
两种Test Time Scaling缸中之脑(串行思考)vs Agentic(多轮交互),两者并非依赖关系
L1-L5关系并非线性串行,需要L4的技术解决L3的问题
Muon vs AdamToken Efficiency约2倍提升,30T等价60T
K1.5定位强化学习技术验证——发现不需要Process Reward
K2定位好的Base Model + 好的Agentic能力 + 第一个开源Agentic模型
K2唯一意外Muon优化器的MaxLogit大规模爆炸问题——小规模无法复现
Agent最大挑战泛化性——Benchmark失效、种瓜得瓜、OOD场景表现差
Coding Agent定位通用Agent的重要子集,代表数字世界的自动化入口
开源策略长期分享技术,但不一定所有东西都开源
市场收敛全球模型公司从几百→几十→几个
Scaling Law数据墙存在,但模型变好速度在加速;RL Scaling效率高于Pre-training
数据飞轮尚未形成——算力Scaling太强大 + 反馈信号噪声
一方产品优势正向工程 > 逆向工程,垂直整合的上限更高
组织管理RL为主、SFT为辅、防止Reward Hacking
最关键Bet泛化的Agent,用L4做L3
AI的角色人类文明的放大器 + Meta Science
影响AI的论文Back Propagation、Transformer、GPT-3、ResNet、Adam/Muon
成功概率比一年前增大——"只要你还在往上爬,成功概率都会变大"

启示与延伸思考

1. "缸中之脑"与"Agentic"是两条独立的Scaling路径

杨植麟提出的这一框架解释了为什么Claude在Reasoning上不突出却在Agent上领先——两种Test Time Scaling路径背后是不同的技术栈。Reasoning Scaling的是单轮思考深度,Agent Scaling的是多轮交互轮次。它们最终需要融合,但在当前阶段各自独立有效。这对行业的启示是:不必等到Reasoning做到极致才开始Agent,反之亦然。

2. "用L4做L3"可能是AI发展的下一个突破口

杨植麟最核心的技术判断是:Agent的泛化问题无法在Agent层面解决,需要Innovation层的技术——让AI参与AI的训练、对齐和评估。这意味着L1-L5不是线性攻克的台阶,而是互相支撑的能力网络。如果这个判断正确,那么"模型参与自身研发"将成为下一轮AI竞争的关键分水岭。

3. Token Efficiency而非Computer Efficiency是突破数据墙的正确方向

杨植麟做了一个重要区分:训得更快(Computer Efficiency)不提升智能上限,同样数据吸收更多(Token Efficiency)才提升上限。Muon优化器的2倍Token Efficiency意味着30T数据等价60T——这是对数据墙的直接回答。更大的含义是:优化器这个被忽视十年的领域(Adam统治了十年)可能是下一个技术红利区。

4. 正向工程取代逆向工程是AI产品的范式转移

杨植麟对脚手架模式(Manus)和一方产品模式(Claude Code)的区分揭示了一个产品范式的根本转变:传统三方产品本质上是在逆向工程模型的训练过程——猜测最佳Prompt、最佳工具配置。而一方产品是正向工程——先设计好环境再训练模型。这解释了为什么模型公司的产品天然具有优势,也暗示三方Agent公司需要找到独特的工具壁垒才能生存。

5. "模型即产品"理念仍在深化

杨植麟一年前提出"模型即产品",今天这个理念更加具体:当你训练Agent模型时,工具、环境、Context Engineering都必须在训练时搭好——模型训完,产品基本完成。交互设计是"锦上添花"。这与互联网时代"先有产品再迭代"的方法论根本不同,也解释了为什么杨植麟把绝大部分时间投入技术战略而非产品设计。

6. RL管理组织是一个值得关注的管理哲学实验

杨植麟将AI训练中SFT和RL的关系映射到组织管理:SFT式管理(直接指令)让团队失去创造力,RL式管理(定义Reward让团队自由探索)可能被Hack。最佳策略是以RL为主、SFT为辅——给方向但不给路径,用少量"先验"防止偏离太远。这种从技术到管理的同构思维,可能是AI原生组织的一个重要特征。

7. Benchmark失效是Agent领域最被低估的风险

杨植麟多次强调:SWE-Bench即将饱和,很多Benchmark不反映真实用户体验,优化Benchmark会导致RL任务坍缩到几个单点。这意味着当前Agent领域的"军备竞赛"可能在优化错误的目标。真正的泛化需要完全不同的评估方式——可能是世界模型,可能是AI自评估——这正是"用L4做L3"的具体含义。

延伸阅读