← 返回目录
EP110 深度研究 Deep Dive

逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等

"系统工程的力量"
张小珺Jun|商业访谈录 · 技术之美系列 · 嘉宾:郑博源(俄亥俄州立大学博士生)
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. Agent的定义与四大分类
  2. 三家模型的技术路线分歧
  3. Kimi K2总览:三大贡献
  4. 预训练数据增广:重写的艺术
  5. Tool Use数据合成Pipeline
  6. Agent任务与轨迹生成
  7. 强化学习:Verifiable Reward体系
  8. Self-Critic与Rubrics Reward
  9. RL训练工程:环境并发难题
  10. ChatGPT Agent:统一动作空间
  11. Qwen3-Coder:Scaling RL与CLI工具
  12. Manus:Context Engineering实践
  13. Agent Safety:不可逆操作的风险
  14. 环境交互的成本困境
  15. Agent Memory与长上下文
  16. 未来展望:Self-Improvement与应用爆发
  17. 启示与延伸思考

一、Agent的定义与四大分类

嘉宾郑博源从研究者视角给出了Agent的严格定义:Agent的核心在于与环境的交互。Language Model只接收input输出output,而Language Agent需要感知环境(Perception)生成与执行动作(Action)来影响环境,形成observation-action-feedback的循环。

核心区分

Language Model vs Language Agent

Language Model:input → output,过程结束。
Language Agent:observe环境 → 结合task和历史交互 → 生成action → 执行获得环境feedback → 循环反复。关键差异在于是否存在一个可交互的环境,以及Agent是否能通过action影响该环境。

基于应用场景的四大分类

Coding
最成熟 · Cursor/Windsurf
写代码、自动debug
Search
Deep Research类
大规模检索+报告
Tool Use
K2/Qwen3-Coder聚焦
调用API完成任务
Computer Use
操作浏览器/桌面
ChatGPT Agent/Operator

不同Agent的建模差异

  • Observation Space不同:Coding Agent看到的是code base;Search Agent看到的是text browser;Computer Use Agent看到的是GUI截图或HTML
  • Action Space不同:Coding Agent生成/修改代码;Computer Use Agent执行点击、输入等浏览器操作
  • 建模差异决定了训练数据、环境搭建和评估方式的根本不同
郑博源
我现在每天很多代码都是Agent写的,然后我做的事情更多是修改它,类似于给它提供reward。

二、三家模型的技术路线分歧

本期讨论的技术报告涵盖Kimi K2、ChatGPT Agent、Qwen3-Coder三个端到端训练的模型,以及Manus基于In-Context Learning的工程方案。最大的路线分歧在于:是否通过端到端训练来构建Agent

端到端训练路线(K2/Qwen3/ChatGPT)

  • 大量合成trajectory数据 + RL训练
  • 在特定场景上极其强大
  • 需要大量环境交互和verifiable reward
  • 多Agent协作场景下数据获取困难
  • 训练成本极高,需要大规模Infra支撑

In-Context Learning路线(Manus)

  • 不涉及模型训练,精细调节prompt
  • 快速迭代,容易做多Agent系统
  • 可灵活组合不同模型的长处
  • 依赖底座模型的ICL能力上限
  • 通过KV Cache优化降低推理成本

社区对ChatGPT Agent的"松一口气"反应

郑博源透露,在ICML会议上,研究者对ChatGPT Agent的反应是"舒了一口气",因为大家一直担心OpenAI会一次性通过scale up解决Agent问题,把学术小方向"干掉"。这种情况已发生过多次:ChatGPT冲击了NLP,GPT-4V冲击了多模态研究。而初创公司则"极其兴奋",甚至搞"斗兽场"demo与ChatGPT Agent对比——这证明问题足够难,探索空间足够大,对融资和产品都有帮助。

郑博源
我整体使用的体感是一个小号的GPT,就是一个完全开源的小号GPT。相当于我们就可以免费地获得一些非常强大的Agent。

三、Kimi K2总览:三大贡献

Kimi K2的论文标题明确claim这是一个Agentic Intelligence模型,是较早在宣发上聚焦Agent能力的大模型。其三大核心贡献分别涵盖优化器、数据合成和强化学习。

MuonClip
新优化器 · 训练曲线极其丝滑
Kimi是最早尝试Muon的团队之一
Data Syn
大规模Agentic数据合成Pipeline
仿真+真实世界混合方案
RL
通用强化学习框架
Verifiable + Self-Critic Reward

架构选择:沿用DeepSeek-V3

务实的架构决策

  • Kimi团队作者在知乎透露,尝试了不同架构后发现DeepSeek-V3本身已经优化得很好
  • 直接沿用可以复用开源社区(vLLM、SGLang等)对该架构已做的大量推理优化
  • 调整了expert数量、attention head参数和DS Layer参数等超参
  • 这也体现了开源的好处:"像是免费雇佣了一大批工程师"
郑博源
Kimi K2非常实在,把所有的recipe、小技巧都放在那里。但假如我们真的要把它做出来,以一种很高效的方式高质量做出来,本身可能还是很难的。每一个部分去把prompt调好、参数调好、保证平稳运行和高质量,本身是一个非常大的工程量。这里有点像是一个手艺活,研究员都是老师傅。

"系统工程大于Idea"

这是本期的核心判断。Kimi K2 paper中每个部分用到的trick,对应的paper都已经在学术会议上出现过——WizardLM、SlowMath等都是已有的proof of concept。但LLM这样一个系统工程,需要把各种trick结合到一起,放在language model training范式下验证作用,并将scale放到特别大。现在idea都"在那边",每件事情都需要大量工程去把效果做好

四、预训练数据增广:重写的艺术

面对预训练数据枯竭("整个互联网的数据基本上都被扒光了"),Kimi K2在预训练阶段采用了系统性的数据重写方案来缓解瓶颈。

知识型数据重写

对Wikipedia、书本、知识密集型文档,使用Kimi K1.5进行风格和视角多样化改写(Style and Perspective Diverse Prompting)。但改写过程不可避免会产生幻觉——即不小心改变了原文中的事实知识。

两层防护机制

  • Chunk-wise Progressive Generation:将大文章切成小块逐块改写,因为短文章更容易控制质量。类比:让学生复述一万字论文时容易记错细节(如"壁炉前喝咖啡"变成"壁炉前吃面包"),切块后误差率大幅降低
  • Fidelity Verification:用另一个模型比对改写后文章与原文之间是否存在事实性错误,将有错误的数据剔除

实验验证:重写的效果

方案SimpleQA准确率说明
原始数据训练10次23.76%Baseline,纯重复训练
重写1遍后训练显著提升单次改写已有效果
重写10遍混合训练进一步提升最激进方案,效果最好

数学数据:费曼学习法

方法论

Learning Notes格式重写

沿用SlowMath论文方案,将高质量数学文档重写为学习笔记格式。其思想类似费曼学习法——自己学完后教给别人,如果能把别人教会,说明自己真的学会了。这种更密集、重新组织过的格式能帮助模型更高效地学习数学知识。

五、Tool Use数据合成Pipeline

Post-training阶段是与Agent能力最相关的部分。Kimi K2构建了一个大规模的Agentic数据合成流水线,核心目标只有一个:Diversity(多样性)

Kimi K2 Tool Use数据合成Pipeline全景

第一步:工具收集与扩展

GitHub MCP收集:3,000+ 工具

在GitHub上收集大量MCP(Model Context Protocol,Anthropic提出的标准化工具调用协议)工具。MCP的出现极大简化了Tool Use研究——统一的接口标准使得数据合成不再需要为每个API做大量工程适配。用t-SNE可视化显示,原始工具分布稀疏。

系统化工具进化:20,000+ 工具

通过Hierarchical Domain Generation方式(基于WizardLM方案),对原有MCP进行组合、重写接口描述和操作逻辑,生成更多工具。可视化显示扩展后的工具分布变得非常稠密,覆盖更多领域。

Agent Diversification

生成大量System Prompt,创造各种角色的Agent(数据分析专家、程序管理者、高情商助手等)。本质上是在模拟下游用户的应用场景,通过角色扮演"逼着"LLM生成更diverse的数据。

MCP生态为Agent研究带来的红利

在MCP出现之前,研究者需要为每个API接口做大量工程适配,各种参数和调用方式都不统一。MCP提供了标准化协议后,工具收集和数据合成变得极为便利。而且MCP工具本身自带应用场景和使用意义,数据质量天然高于凭空爬取的API。这是标准化协议推动研究进展的典型案例。

六、Agent任务与轨迹生成

任务与Rubrics同步生成

对每个Agent配置(System Prompt + 工具子集),用LLM生成对应的task和Rubrics(评价标准)。例如:选了10个市场营销/数据分析的MCP工具 + 生成"数据分析专家"的System Prompt → 进一步生成"调研所有GPU供应商的价格情况"等任务。

任务生成的关键设计

  • Simple-to-Complex Operation:逐渐提高生成难度,确保质量与多样性
  • Rubrics同步生成:指定成功标准、预计Tool Use模式、Evaluation Checkpoint。Task和Rubrics同时生成效果更好,因为生成task时就能预测evaluation标准
  • Rubrics后续用于数据筛选(Quality Evaluation Filtering)——不是所有trajectory都能成功完成任务

多轮轨迹生成:User Simulation

用LLM生成User Persona(用户画像),模拟不同身份(产品经理、律师、厨师等)的沟通需求、交流方式和任务偏好。这既是模拟下游应用场景,也是保证数据diversity的重要手段。

工具执行环境:混合方案

仿真环境(Simulation)

  • 建立Tool Simulator(可能是神经网络模拟器或本地沙盒)
  • 更容易大规模生成数据
  • 交互更稳定,成本更低
  • 与真实世界存在差距,会引入噪音

真实环境(Real World)

  • 与真实API/服务交互
  • 数据更真实,质量更高
  • 成本极高(IP被封、API收费)
  • 类比机器人领域:真实数据可能只占1%
郑博源
我的公寓里、实验室里,我的IP都被封掉了。实验室大家跑实验把学校cluster的IP也跑封了。这是一个很普遍的现象,很多做Web Agent的朋友都反映过这个事情。

七、强化学习:Verifiable Reward体系

RL训练的核心是Scale Up——获得大量diverse的task和verifiable reward,进行大量训练。但并非所有任务都能获得客观的verifiable reward。

Kimi K2 强化学习Reward体系结构

Verifiable Reward的四个来源

类型Reward来源核心挑战
数学/STEM/逻辑答案对比、推导验证控制难度:太简单学不到东西,太难reward稀疏
复杂指令跟随Rule Verification + LM Judge双层防止Reward Hacking
事实忠实度Sentence-level Fact Grounding减少幻觉,确保thinking与answer一致
代码能力竞赛题目 + GitHub PR/Issue构建大规模沙盒环境

难度控制:刷题的隐喻

关键设计

Moderate Difficulty原则

类比高中刷题:如果只做简单题,全对但学不到东西;如果题目太难,回答100次都失败,模型不知道往哪个方向优化。需要的是刚好有挑战但又能偶尔成功的难度。具体做法:先用未经RL训练的模型尝试K次,根据准确率筛选合适难度的任务,并随训练进程动态调节。

代码RL的特殊做法

GitHub PR/Issue作为训练环境

  • 在GitHub上大量收集Pull Request和Issue
  • 用当前checkpoint对应的代码库搭建沙盒环境
  • PR内容和solution作为verifiable reward的ground truth
  • Unit tests提供额外的验证信号
  • 这是Agent编码能力的核心来源之一

Instruction Following的Reward Hacking防护

郑博源
当Language Agent足够强大之后,它可能会变得非常狡猾——它会发现你的reward有什么问题,然后去hack它。就像高中写题,我们猜一个答案,答案是对的,但中间推理过程就乱写。

为此,Kimi K2采用Code Interpreter验证 + LM Judge双层机制:先用程序检查长度、文本风格、约束条件等硬指标,再用LM Judge作为防止Reward Hacking的safety layer。

八、Self-Critic与Rubrics Reward

对于Creative Writing、开放性问答等无法获得客观verifiable reward的任务,Kimi K2引入了Self-Critic Rubrics Reward机制。

新范式

从标注SFT数据到标注Rubrics

传统范式是标注SFT的input-output数据对。新兴趋势是标注Task + Verifiable Reward / Rubrics Reward。这可能是数据标注领域的范式转移——从直接给答案,到给出评价标准让模型自己探索。Scale AI最近发布的rubrics and reward paper也在推动这一方向。

Rubrics覆盖的维度

Helpfulness
是否真正有帮助
Creativity
创造性表达
Depth
推理深度
Safety
安全合规

RL训练的辅助机制

三个关键补充设计

  • Budget Control:当模型response太长时直接截断并给予penalty。知乎用户反映Kimi的回复倾向简洁,且会贴心地附上summary,可能与此reward有关
  • PTX Loss:在RL训练时混入高质量预训练数据,防止模型在专注学习action的过程中遗忘预训练阶段的知识
  • Temperature Decay(退火):训练初期给高temperature鼓励探索,后期逐渐降低temperature让模型收敛——"先放开探索,再慢慢收敛"

Rubrics可以调模型的"性格"

郑博源指出,Rubrics中可以写入helpfulness、creativity等维度,也可以加入"情商高、有同理心、说话好听"——甚至可以反向调节让模型说话尖锐。这解释了为什么不同模型"性格"迥异:DeepSeek"嘴臭但鞭辟入里"(可能因为贴吧训练数据),ChatGPT"情商变高但好像变笨了"(过度alignment),元宝"比较舔狗"。模型性格本质上是Reward设计的产物

九、RL训练工程:环境并发难题

Agent训练的RL Infra面临传统RLHF不曾遇到的工程挑战。传统RL每轮rollout延迟相对稳定且不涉及多轮交互,但Agent训练完全不同。

三大工程难题

环境交互延迟不稳定

浏览器可能突然卡住、网络不稳定、Browser直接崩溃。如果没有对training做优化,GPU就一直卡在那里等待,utilization极低。

Rollout长度极不均匀

一个batch中256条rollout,可能250条在5步内完成(3分钟),但剩下6条需要30步才能完成(10分钟)。大部分GPU时间在为那6条等待——造成巨大浪费。

On-Policy训练的一致性问题

长尾rollout被暂停后在下一个iteration恢复时,其中的action不是当前模型策略产生的。模型参数已更新但buffer中的rollout还是旧的,可能导致训练方向偏移。

各家的解决方案

公司环境Infra方案
Kimi K2用gVisor(Google的高并发容器方案)同时host大规模concurrent sandbox;重环境单独包装成service+API;过量并发rollout(需要64条就开640条);长尾rollout直接截断(Partial Rollout)
Qwen3-Coder在阿里云上部署20,000个parallel environment
ChatGPT Agenthost大量virtual machine做rollout环境
张小珺
这里面应该是工程能力的需求比较多,对吧?
郑博源
对,这个scaling对学界可能不是特别友好,因为开这么多sandbox本身有一定成本,学界可能也需要有足够多的engineering能力去把这个事情做出来。

十、ChatGPT Agent:统一动作空间

ChatGPT Agent的核心策略是将Operator(Browsing Agent)Deep Research(Search Agent)Tool Use三种能力统一到同一个Agent中。

设计思路

为什么要统一?

Operator擅长理解GUI、操作浏览器、进行navigation,但找大量文本信息未必最强。Deep Research基于text browser做大量search和URL导航来总结信息。创始团队认为两种能力天然互补。实现上更可能是直接将action space统一(单一Agent能browsing+search+tool use),而非搭建多Agent系统。

训练数据策略

BrowserComp风格的Information Seeking

  • 构建"描述复杂但答案简短"的任务——如给出一段复杂描述,答案只是"Plastic Man"这样一个简短词
  • Easy to Verify, Hard to Solve:容易判断对错,但搜索过程极难
  • 大量开启Browser Session做训练,环境稳定性是持续挑战

评估表现

Last Exam
"人类最后的测验"
成功率大幅提高
Frontier Math
极难数学基准
相对baseline显著提升
BrowserComp
浏览器信息检索
分数极强
Data Science
Spreadsheet操作
直接应用场景

Web环境中Verifiable Reward的根本困难

Information seeking类任务容易获得reward(答案比对即可),但如果任务是"下单一个产品"或"预约餐厅",Agent需要做大量browsing操作,而大部分网站的后台数据是无法获取的,无法验证任务是否真正完成。可以在小规模沙盒中训练(能访问数据库),但要scale up就需要"非常高明的方式"去获取verifiable reward。这是Computer Use Agent RL训练的核心瓶颈。

十一、Qwen3-Coder:Scaling RL与CLI工具

Qwen3-Coder(千问3-Coder)相比Kimi K2增加了Agentic Browser Use评估维度,在WebArena和Mind2Web等基准上展示了不错的表现。但博客式发布缺乏细节。

关键信息

技术路线要点

  • Pretraining:路线与Kimi类似,增加了context length,提到scale up synthetic data但无更多细节
  • Post-training:强调"Hard to Solve, Easy to Verify",各种场景上随训练数据增加performance呈scaling law上升
  • Long Horizon训练:针对步数特别长时模型变弱的问题专门做了训练
  • Infra:在阿里云上建立了20,000个独立的parallel environment

CLI工具发布趋势

行业趋势

模型 + CLI = 新标配

Qwen3-Coder直接对接Gemini API接口,同时提供CLI工具和VS Code插件。这反映了一个common practice:发模型的同时发CLI工具。这不仅证明模型真正在实际场景中应用(而非纯刷榜),更重要的是——如果能收集到用户与Agent的交互数据,也许能用来进一步改进Agent本身。

Browser Use评测补充

WebArena

  • 建立多个网站沙盒环境
  • 可访问后台数据库做精确evaluation
  • 判断task是否完全完成

Mind2Web(郑博源组工作)

  • 在100+真实网站上标注大量trajectory
  • 预测每个action是否正确
  • Task足够diverse,需要泛化到各种网站

十二、Manus:Context Engineering实践

Manus首席科学家PIK发布了关于Context Engineering的博文,分享了如何在不做模型训练的情况下,通过精细管理上下文来最大化Agent性能。

KV Cache优化:核心策略

Manus的整体思路围绕KV Cache复用展开。使用KV Cache时推理成本约0.3元,不使用时约3元——10倍的成本差距

前缀保持不变

让prompt前文保持一致,KV Cache可以直接重用,不需要重新计算。

只追加不修改

Context中不动中间内容,只在末尾追加新内容,保证KV Cache的有效性。

Mask而非Remove

当某些工具(MCP)不再使用时,不要从context中删除,而是将其mask掉——让模型生成时忽略即可,但KV Cache结构保持完整。

File System as Context

用文件系统管理context内容,结构化地控制Agent的注意力。

ToDo.md控制注意力

当context不断增长导致模型"变笨"时,用todo.md来manipulate模型的attention焦点。

保留错误记录

模型中间出现的failure不要删除,继续保留在context中——错误信息也是有价值的上下文。

Few-shot示例多样化

放入context的example要足够diverse,否则模型会倾向于不断重复前面的内容,产生无用的重复生成。

Lost in the Middle问题在Agent中更严重

经典的"Lost in the Middle"现象(模型难以attend到长文本中间的内容)在Agent场景下被放大——随着交互轮数增加,前面的步骤信息逐渐被"遗忘"。用郑博源开玩笑的话说:"context塞了越来越多东西,它在内耗。"Manus通过context engineering的工程手段来缓解这个问题。

十三、Agent Safety:不可逆操作的风险

郑博源从亲身经历出发,阐述了Agent安全的紧迫性。不同类型的Agent风险等级完全不同。

低风险Agent

  • Deep Research类:只做网页读取操作
  • 不会对世界或网站产生影响
  • 就算生成离谱的action也无害

高风险Agent

  • Computer Use Agent(如Operator)
  • 实打实地影响真实世界
  • 可能下单、发邮件、操作支付
  • 可能构成智能化的DDoS攻击
郑博源
我做Web Agent的demo时让它帮我在特斯拉门店订一个试驾。它真的做成了。圣诞节的时候,特斯拉不停给我发邮件说"你是时候来提车了"。假如不是一个Agent而是一千个Agent,假如所有Agent都在给同一家门店发请求——那这就是一种智能化的DDoS攻击。

Guardian Rail方案

郑博源最新工作

  • 在Agent执行action之前,判断该action对世界或他人的影响有多大
  • 如果影响足够大,先停下来提醒User确认
  • 类似自动驾驶的安全机制
  • 解决伦理问题:只要User approve了,责任归属明确
  • Kimi K2也在safety相关RL训练上投入大量精力(暴力、诈骗、歧视、jailbreak等场景的seed prompt + verifiable reward)
郑博源
假如Agent一不小心下单了一吨的鲜肉,或者买了1000杯咖啡,或者不小心给别人发了一个非常粗鲁的邮件——这种情况就会非常危险。

十四、环境交互的成本困境

环境交互成本是Agent训练中一个被学界"一定程度低估"的核心问题。郑博源给出了多个具体的成本估算。

各场景的成本分析

场景交互方式成本挑战
Search AgentGoogle Search API单次1分钱,但Deep Research单次任务约100-150次搜索,大规模training需要巨量rollout
Browser Agent真实网站交互IP被封(极普遍现象);Cloud Browser服务(如BrowserBase)收费极贵
本地沙盒Docker容器CPU/Memory成本高,大量并发sandbox对环境消耗大
机器人物理世界操作极端案例:真实数据需要人现场操纵机器人,仿真数据占99%

100K Trajectory的真实成本

郑博源估算,仅100K条browser trajectory的环境交互成本就可能达到数千美元。BrowserBase这类Cloud Browser服务之所以能获得大额融资,正是因为这个需求真实且迫切。如果RL训练效果持续验证为强大,接下来的重心可能就是不断造Environment,在此基础上生成大量task + verifiable reward,作为新的scaling方式。

十五、Agent Memory与长上下文

Agent Memory是一个需要大量新工作才能做好的领域,与传统Chatbot Memory有本质区别。

Chatbot Memory

  • 数据是非结构化的自然语言对话
  • 轮数相对有限
  • 不涉及环境状态变化
  • 记忆更新频率低

Agent Memory

  • 数据高度结构化:action + observation + feedback
  • 轮数极长,context不断膨胀
  • 环境状态持续变化
  • 需要高效的增删改查机制

Agent Memory的理想机制

  • :当Agent发现有用的action模式时,插入到memory中
  • :过期或被证伪的信息需要清除
  • :某个action执行后环境状态变化,相关memory需要更新
  • :在长轨迹中高效定位相关的历史信息

这个领域目前还需要更多研究。Agent的交互历史包含大量procedure knowledge(过程性知识),如何结构化地积累和利用这些知识,是提升Agent能力的关键方向。

十六、未来展望:Self-Improvement与应用爆发

研究方向:Agent Self-Improvement

前沿方向

Agent自己给自己找Reward

Kimi K2的研究者手动在GitHub上找PR/Issue建sandbox做RL训练。但如果Agent本身能够自己在网站上爬取、探索,自动找到reward signal和training environment呢?Agent可能成为一个Data Engine——自己发现新数据、自己建环境、自己做RL训练,实现Self-Improvement循环。目前这还是brainstorm层面,但郑博源认为是"非常有意思的研究方向"。

郑博源的Skill Discovery工作

从Exploration中提取Procedure Knowledge

  • 让Web Agent在新环境上自己提出task、自己探索
  • 自带reward model模块判断探索是否成功
  • 成功的探索轨迹转变为API
  • 推理时Agent不再从头一步步做action(太慢),而是直接调用API快速执行
  • 核心洞察:Agent的rollout和exploration过程中有大量有用的数据和知识,我们也许可以有方式将其积累起来

应用层面:越来越近

Coding Agent:已经爆发

"我和我的朋友们,代码自己写的越来越少了,基本都是让Agent写一个大概然后自己改。"系统层面代码(RL、Multi-process)还不够强,但前端等领域"真的非常强大"。

Tool Use Agent:很快会跟上

Infra支撑正在完善,MCP生态日益丰富。

Browser/Computer Use Agent:Infra难度最大

环境交互成本和稳定性仍是核心瓶颈,但发展速度可能超预期。

Agent各类别成熟度与发展预期

Research-Product Co-Design

郑博源
Windsurf被收购的一个很attractive的点,就是他们积累了大量的user和Agent的交互数据。通过这个去改prompt或者训Agent,能很好地提高performance。

这印证了"Research和Product相互迭代"的趋势:产品积累用户数据 → 改进模型/prompt → 更好的产品 → 更多数据。用户在使用Agent的过程中,本质上就是一种Annotator,在不断提供各种reward信号。

每个人的Agent军团

郑博源
我做日常做事情的时候,背后有一个军团在帮我做事情。Coding交给Claude,polish paper用ChatGPT,长文档整理用Gemini(long context特别强)。需要尖锐刻薄建议的时候用原生DeepSeek——它嘴特别臭,但观点鞭辟入里。

十七、启示与延伸思考

1. 系统工程 > Idea:Agent时代的竞争壁垒

Kimi K2 paper中每个trick都有对应的已发表论文,idea并不新。真正的壁垒在于:能否将数十个已验证的小trick整合到一个大规模训练流水线中,并在scale up后依然保持质量。这不是科学发现的问题,而是系统工程的手艺活。"研究员都是老师傅"——prompt调优、数据筛选、参数调整的sense,可能比idea本身更稀缺。

2. 数据范式转移:从标注答案到标注评价标准

传统SFT标注input-output对,新范式是标注Task + Rubrics/Verifiable Reward。这一转变意义深远——不再告诉模型"正确答案是什么",而是告诉它"怎么判断你做得好不好",让模型通过RL自己探索解决路径。这本质上是从教知识到教方法论的转变。

3. Environment是新的Data:RL时代的稀缺资源

如果RL持续有效,下一阶段的竞争核心可能不是算力、不是模型架构,而是谁能构建最丰富、最真实的训练环境。BrowserBase融到大笔资金、各家在云上部署数万sandbox——Environment正在成为AI训练中一种新的基础设施,其重要性可能比拟预训练时代的数据。

4. Agent的不可逆性:一个社会问题而非纯技术问题

Deep Research只读不写,完全安全;Computer Use Agent可以下单、发邮件、修改设置,影响不可逆。1个Agent订错试驾是笑话,1000个Agent同时发请求就是DDoS。Guardian Rail不仅是技术方案,更是伦理与责任归属的设计——让User approve后,Agent的责任归属才有法律意义。

5. 学界与工业界的分化加剧

20,000个parallel environment、大量GPU时间、Cloud Browser费用——Agent RL训练的成本门槛正在急速攀升。学界能跟上idea但很难跟上engineering。反过来说,学界在proof of concept层面的工作仍然不可替代——WizardLM、SlowMath等小规模验证工作,正是工业界大规模集成的"零件库"。

6. In-Context Learning路线的生命力

Manus用纯context engineering在不训练模型的情况下做出可用产品,证明了ICL路线的实用价值。在端到端训练难以覆盖的多Agent协作场景中,ICL路线可能更具优势——因为多Agent的RL训练面临reward归属难以分配的根本困难。两条路线可能长期共存,适用于不同场景。

7. Agent Self-Improvement:通向AGI的一条路径?

Agent与环境的交互不是封闭系统——每次交互都有新数据进来。如果能从exploration中自动提取knowledge、自动发现reward signal、自动构建训练环境,Agent就可能成为一个自我进化的data engine。这与预训练时代"数据即将耗尽"的焦虑形成对比——Agent范式下,数据可以被创造,而不只是被消耗

8. 模型"性格"是工程产物

DeepSeek嘴臭但深刻、ChatGPT情商高但可能变笨、元宝"舔狗"——这些用户体感上的差异,本质上都是Reward设计和Alignment策略的结果。Rubrics中加入"有同理心"就温和,加入"尖锐直接"就犀利。当我们说一个模型"变了性格"时,其实是Rubrics Reward的权重被调整了。

9. Agent正在重新定义"编程"

"我现在每天很多代码都是Agent写的,我做的事情更多是修改它。"当PhD学生可以同时开3-5个Agent并行处理不同任务时,编程的含义正在从"写代码"变为"管理和审查Agent的输出"。程序员的核心能力从代码实现转向系统设计、质量判断和reward设计——这恰好呼应了本期"系统工程大于idea"的主题。