深度研究 — #110 逐段讲解<a href="https://kimi.moonshot.cn" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">Kimi K2</a>报告并对照<a href="https://chatgpt.com" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">ChatGPT</a> Agent、Qwen3-Coder等："系统工程的力量"

Agent的定义与四大分类
三家模型的技术路线分歧
Kimi K2总览：三大贡献
预训练数据增广：重写的艺术
Tool Use数据合成Pipeline
Agent任务与轨迹生成
强化学习：Verifiable Reward体系
Self-Critic与Rubrics Reward
RL训练工程：环境并发难题
ChatGPT Agent：统一动作空间
Qwen3-Coder：Scaling RL与CLI工具
Manus：Context Engineering实践
Agent Safety：不可逆操作的风险
环境交互的成本困境
Agent Memory与长上下文
未来展望：Self-Improvement与应用爆发
启示与延伸思考

一、Agent的定义与四大分类

嘉宾郑博源从研究者视角给出了Agent的严格定义：Agent的核心在于与环境的交互。Language Model只接收input输出output，而Language Agent需要感知环境（Perception）并生成与执行动作（Action）来影响环境，形成observation-action-feedback的循环。

核心区分

Language Model vs Language Agent

Language Model：input → output，过程结束。
Language Agent：observe环境 → 结合task和历史交互 → 生成action → 执行获得环境feedback → 循环反复。关键差异在于是否存在一个可交互的环境，以及Agent是否能通过action影响该环境。

基于应用场景的四大分类

Coding

最成熟 · Cursor/Windsurf
写代码、自动debug

Deep Research类
大规模检索+报告

Tool Use

K2/Qwen3-Coder聚焦
调用API完成任务

Computer Use

操作浏览器/桌面
ChatGPT Agent/Operator

不同Agent的建模差异

Observation Space不同：Coding Agent看到的是code base；Search Agent看到的是text browser；Computer Use Agent看到的是GUI截图或HTML
Action Space不同：Coding Agent生成/修改代码；Computer Use Agent执行点击、输入等浏览器操作
建模差异决定了训练数据、环境搭建和评估方式的根本不同

郑博源

我现在每天很多代码都是Agent写的，然后我做的事情更多是修改它，类似于给它提供reward。

二、三家模型的技术路线分歧

本期讨论的技术报告涵盖Kimi K2、ChatGPT Agent、Qwen3-Coder三个端到端训练的模型，以及Manus基于In-Context Learning的工程方案。最大的路线分歧在于：是否通过端到端训练来构建Agent。

端到端训练路线（K2/Qwen3/ChatGPT）

大量合成trajectory数据 + RL训练
在特定场景上极其强大
需要大量环境交互和verifiable reward
多Agent协作场景下数据获取困难
训练成本极高，需要大规模Infra支撑

In-Context Learning路线（Manus）

不涉及模型训练，精细调节prompt
快速迭代，容易做多Agent系统
可灵活组合不同模型的长处
依赖底座模型的ICL能力上限
通过KV Cache优化降低推理成本

社区对ChatGPT Agent的"松一口气"反应

郑博源透露，在ICML会议上，研究者对ChatGPT Agent的反应是"舒了一口气"，因为大家一直担心OpenAI会一次性通过scale up解决Agent问题，把学术小方向"干掉"。这种情况已发生过多次：ChatGPT冲击了NLP，GPT-4V冲击了多模态研究。而初创公司则"极其兴奋"，甚至搞"斗兽场"demo与ChatGPT Agent对比——这证明问题足够难，探索空间足够大，对融资和产品都有帮助。

郑博源

我整体使用的体感是一个小号的GPT，就是一个完全开源的小号GPT。相当于我们就可以免费地获得一些非常强大的Agent。

三、Kimi K2总览：三大贡献

Kimi K2的论文标题明确claim这是一个Agentic Intelligence模型，是较早在宣发上聚焦Agent能力的大模型。其三大核心贡献分别涵盖优化器、数据合成和强化学习。

MuonClip

新优化器 · 训练曲线极其丝滑
Kimi是最早尝试Muon的团队之一

Data Syn

大规模Agentic数据合成Pipeline
仿真+真实世界混合方案

通用强化学习框架
Verifiable + Self-Critic Reward

架构选择：沿用DeepSeek-V3

务实的架构决策

Kimi团队作者在知乎透露，尝试了不同架构后发现DeepSeek-V3本身已经优化得很好
直接沿用可以复用开源社区（vLLM、SGLang等）对该架构已做的大量推理优化
调整了expert数量、attention head参数和DS Layer参数等超参
这也体现了开源的好处："像是免费雇佣了一大批工程师"

郑博源

Kimi K2非常实在，把所有的recipe、小技巧都放在那里。但假如我们真的要把它做出来，以一种很高效的方式高质量做出来，本身可能还是很难的。每一个部分去把prompt调好、参数调好、保证平稳运行和高质量，本身是一个非常大的工程量。这里有点像是一个手艺活，研究员都是老师傅。

"系统工程大于Idea"

这是本期的核心判断。Kimi K2 paper中每个部分用到的trick，对应的paper都已经在学术会议上出现过——WizardLM、SlowMath等都是已有的proof of concept。但LLM这样一个系统工程，需要把各种trick结合到一起，放在language model training范式下验证作用，并将scale放到特别大。现在idea都"在那边"，每件事情都需要大量工程去把效果做好。

四、预训练数据增广：重写的艺术

面对预训练数据枯竭（"整个互联网的数据基本上都被扒光了"），Kimi K2在预训练阶段采用了系统性的数据重写方案来缓解瓶颈。

知识型数据重写

对Wikipedia、书本、知识密集型文档，使用Kimi K1.5进行风格和视角多样化改写（Style and Perspective Diverse Prompting）。但改写过程不可避免会产生幻觉——即不小心改变了原文中的事实知识。

两层防护机制

Chunk-wise Progressive Generation：将大文章切成小块逐块改写，因为短文章更容易控制质量。类比：让学生复述一万字论文时容易记错细节（如"壁炉前喝咖啡"变成"壁炉前吃面包"），切块后误差率大幅降低
Fidelity Verification：用另一个模型比对改写后文章与原文之间是否存在事实性错误，将有错误的数据剔除

实验验证：重写的效果

方案	SimpleQA准确率	说明
原始数据训练10次	23.76%	Baseline，纯重复训练
重写1遍后训练	显著提升	单次改写已有效果
重写10遍混合训练	进一步提升	最激进方案，效果最好

数学数据：费曼学习法

方法论

Learning Notes格式重写

沿用SlowMath论文方案，将高质量数学文档重写为学习笔记格式。其思想类似费曼学习法——自己学完后教给别人，如果能把别人教会，说明自己真的学会了。这种更密集、重新组织过的格式能帮助模型更高效地学习数学知识。

五、Tool Use数据合成Pipeline

Post-training阶段是与Agent能力最相关的部分。Kimi K2构建了一个大规模的Agentic数据合成流水线，核心目标只有一个：Diversity（多样性）。

Kimi K2 Tool Use数据合成Pipeline全景

第一步：工具收集与扩展

GitHub MCP收集：3,000+ 工具

在GitHub上收集大量MCP（Model Context Protocol，Anthropic提出的标准化工具调用协议）工具。MCP的出现极大简化了Tool Use研究——统一的接口标准使得数据合成不再需要为每个API做大量工程适配。用t-SNE可视化显示，原始工具分布稀疏。

系统化工具进化：20,000+ 工具

通过Hierarchical Domain Generation方式（基于WizardLM方案），对原有MCP进行组合、重写接口描述和操作逻辑，生成更多工具。可视化显示扩展后的工具分布变得非常稠密，覆盖更多领域。

Agent Diversification

生成大量System Prompt，创造各种角色的Agent（数据分析专家、程序管理者、高情商助手等）。本质上是在模拟下游用户的应用场景，通过角色扮演"逼着"LLM生成更diverse的数据。

MCP生态为Agent研究带来的红利

在MCP出现之前，研究者需要为每个API接口做大量工程适配，各种参数和调用方式都不统一。MCP提供了标准化协议后，工具收集和数据合成变得极为便利。而且MCP工具本身自带应用场景和使用意义，数据质量天然高于凭空爬取的API。这是标准化协议推动研究进展的典型案例。

六、Agent任务与轨迹生成

任务与Rubrics同步生成

对每个Agent配置（System Prompt + 工具子集），用LLM生成对应的task和Rubrics（评价标准）。例如：选了10个市场营销/数据分析的MCP工具 + 生成"数据分析专家"的System Prompt → 进一步生成"调研所有GPU供应商的价格情况"等任务。

任务生成的关键设计

Simple-to-Complex Operation：逐渐提高生成难度，确保质量与多样性
Rubrics同步生成：指定成功标准、预计Tool Use模式、Evaluation Checkpoint。Task和Rubrics同时生成效果更好，因为生成task时就能预测evaluation标准
Rubrics后续用于数据筛选（Quality Evaluation Filtering）——不是所有trajectory都能成功完成任务

多轮轨迹生成：User Simulation

用LLM生成User Persona（用户画像），模拟不同身份（产品经理、律师、厨师等）的沟通需求、交流方式和任务偏好。这既是模拟下游应用场景，也是保证数据diversity的重要手段。

工具执行环境：混合方案

仿真环境（Simulation）

建立Tool Simulator（可能是神经网络模拟器或本地沙盒）
更容易大规模生成数据
交互更稳定，成本更低
与真实世界存在差距，会引入噪音

真实环境（Real World）

与真实API/服务交互
数据更真实，质量更高
成本极高（IP被封、API收费）
类比机器人领域：真实数据可能只占1%

郑博源

我的公寓里、实验室里，我的IP都被封掉了。实验室大家跑实验把学校cluster的IP也跑封了。这是一个很普遍的现象，很多做Web Agent的朋友都反映过这个事情。

七、强化学习：Verifiable Reward体系

RL训练的核心是Scale Up——获得大量diverse的task和verifiable reward，进行大量训练。但并非所有任务都能获得客观的verifiable reward。

Kimi K2 强化学习Reward体系结构

Verifiable Reward的四个来源

类型	Reward来源	核心挑战
数学/STEM/逻辑	答案对比、推导验证	控制难度：太简单学不到东西，太难reward稀疏
复杂指令跟随	Rule Verification + LM Judge双层	防止Reward Hacking
事实忠实度	Sentence-level Fact Grounding	减少幻觉，确保thinking与answer一致
代码能力	竞赛题目 + GitHub PR/Issue	构建大规模沙盒环境

难度控制：刷题的隐喻

关键设计

Moderate Difficulty原则

类比高中刷题：如果只做简单题，全对但学不到东西；如果题目太难，回答100次都失败，模型不知道往哪个方向优化。需要的是刚好有挑战但又能偶尔成功的难度。具体做法：先用未经RL训练的模型尝试K次，根据准确率筛选合适难度的任务，并随训练进程动态调节。

代码RL的特殊做法

GitHub PR/Issue作为训练环境

在GitHub上大量收集Pull Request和Issue
用当前checkpoint对应的代码库搭建沙盒环境
PR内容和solution作为verifiable reward的ground truth
Unit tests提供额外的验证信号
这是Agent编码能力的核心来源之一

Instruction Following的Reward Hacking防护

郑博源

当Language Agent足够强大之后，它可能会变得非常狡猾——它会发现你的reward有什么问题，然后去hack它。就像高中写题，我们猜一个答案，答案是对的，但中间推理过程就乱写。

为此，Kimi K2采用Code Interpreter验证 + LM Judge双层机制：先用程序检查长度、文本风格、约束条件等硬指标，再用LM Judge作为防止Reward Hacking的safety layer。

八、Self-Critic与Rubrics Reward

对于Creative Writing、开放性问答等无法获得客观verifiable reward的任务，Kimi K2引入了Self-Critic Rubrics Reward机制。

新范式

从标注SFT数据到标注Rubrics

传统范式是标注SFT的input-output数据对。新兴趋势是标注Task + Verifiable Reward / Rubrics Reward。这可能是数据标注领域的范式转移——从直接给答案，到给出评价标准让模型自己探索。Scale AI最近发布的rubrics and reward paper也在推动这一方向。

Rubrics覆盖的维度

Helpfulness

是否真正有帮助

Creativity

创造性表达

Depth

推理深度

Safety

安全合规

RL训练的辅助机制

三个关键补充设计

Budget Control：当模型response太长时直接截断并给予penalty。知乎用户反映Kimi的回复倾向简洁，且会贴心地附上summary，可能与此reward有关
PTX Loss：在RL训练时混入高质量预训练数据，防止模型在专注学习action的过程中遗忘预训练阶段的知识
Temperature Decay（退火）：训练初期给高temperature鼓励探索，后期逐渐降低temperature让模型收敛——"先放开探索，再慢慢收敛"

Rubrics可以调模型的"性格"

郑博源指出，Rubrics中可以写入helpfulness、creativity等维度，也可以加入"情商高、有同理心、说话好听"——甚至可以反向调节让模型说话尖锐。这解释了为什么不同模型"性格"迥异：DeepSeek"嘴臭但鞭辟入里"（可能因为贴吧训练数据），ChatGPT"情商变高但好像变笨了"（过度alignment），元宝"比较舔狗"。模型性格本质上是Reward设计的产物。

九、RL训练工程：环境并发难题

Agent训练的RL Infra面临传统RLHF不曾遇到的工程挑战。传统RL每轮rollout延迟相对稳定且不涉及多轮交互，但Agent训练完全不同。

三大工程难题

环境交互延迟不稳定

浏览器可能突然卡住、网络不稳定、Browser直接崩溃。如果没有对training做优化，GPU就一直卡在那里等待，utilization极低。

Rollout长度极不均匀

一个batch中256条rollout，可能250条在5步内完成（3分钟），但剩下6条需要30步才能完成（10分钟）。大部分GPU时间在为那6条等待——造成巨大浪费。

On-Policy训练的一致性问题

长尾rollout被暂停后在下一个iteration恢复时，其中的action不是当前模型策略产生的。模型参数已更新但buffer中的rollout还是旧的，可能导致训练方向偏移。

各家的解决方案

公司	环境Infra方案
Kimi K2	用gVisor（Google的高并发容器方案）同时host大规模concurrent sandbox；重环境单独包装成service+API；过量并发rollout（需要64条就开640条）；长尾rollout直接截断（Partial Rollout）
Qwen3-Coder	在阿里云上部署20,000个parallel environment
ChatGPT Agent	host大量virtual machine做rollout环境

张小珺

这里面应该是工程能力的需求比较多，对吧？

郑博源

对，这个scaling对学界可能不是特别友好，因为开这么多sandbox本身有一定成本，学界可能也需要有足够多的engineering能力去把这个事情做出来。

十、ChatGPT Agent：统一动作空间

ChatGPT Agent的核心策略是将Operator（Browsing Agent）、Deep Research（Search Agent）和Tool Use三种能力统一到同一个Agent中。

设计思路

为什么要统一？

Operator擅长理解GUI、操作浏览器、进行navigation，但找大量文本信息未必最强。Deep Research基于text browser做大量search和URL导航来总结信息。创始团队认为两种能力天然互补。实现上更可能是直接将action space统一（单一Agent能browsing+search+tool use），而非搭建多Agent系统。

训练数据策略

BrowserComp风格的Information Seeking

构建"描述复杂但答案简短"的任务——如给出一段复杂描述，答案只是"Plastic Man"这样一个简短词
Easy to Verify, Hard to Solve：容易判断对错，但搜索过程极难
大量开启Browser Session做训练，环境稳定性是持续挑战

评估表现

Last Exam

"人类最后的测验"
成功率大幅提高

Frontier Math

极难数学基准
相对baseline显著提升

BrowserComp

浏览器信息检索
分数极强

Data Science

Spreadsheet操作
直接应用场景

Web环境中Verifiable Reward的根本困难

Information seeking类任务容易获得reward（答案比对即可），但如果任务是"下单一个产品"或"预约餐厅"，Agent需要做大量browsing操作，而大部分网站的后台数据是无法获取的，无法验证任务是否真正完成。可以在小规模沙盒中训练（能访问数据库），但要scale up就需要"非常高明的方式"去获取verifiable reward。这是Computer Use Agent RL训练的核心瓶颈。

十一、Qwen3-Coder：Scaling RL与CLI工具

Qwen3-Coder（千问3-Coder）相比Kimi K2增加了Agentic Browser Use评估维度，在WebArena和Mind2Web等基准上展示了不错的表现。但博客式发布缺乏细节。

关键信息

技术路线要点

Pretraining：路线与Kimi类似，增加了context length，提到scale up synthetic data但无更多细节
Post-training：强调"Hard to Solve, Easy to Verify"，各种场景上随训练数据增加performance呈scaling law上升
Long Horizon训练：针对步数特别长时模型变弱的问题专门做了训练
Infra：在阿里云上建立了20,000个独立的parallel environment

CLI工具发布趋势

行业趋势

模型 + CLI = 新标配

Qwen3-Coder直接对接Gemini API接口，同时提供CLI工具和VS Code插件。这反映了一个common practice：发模型的同时发CLI工具。这不仅证明模型真正在实际场景中应用（而非纯刷榜），更重要的是——如果能收集到用户与Agent的交互数据，也许能用来进一步改进Agent本身。

Browser Use评测补充

WebArena

建立多个网站沙盒环境
可访问后台数据库做精确evaluation
判断task是否完全完成

Mind2Web（郑博源组工作）

在100+真实网站上标注大量trajectory
预测每个action是否正确
Task足够diverse，需要泛化到各种网站

十二、Manus：Context Engineering实践

Manus首席科学家PIK发布了关于Context Engineering的博文，分享了如何在不做模型训练的情况下，通过精细管理上下文来最大化Agent性能。

KV Cache优化：核心策略

Manus的整体思路围绕KV Cache复用展开。使用KV Cache时推理成本约0.3元，不使用时约3元——10倍的成本差距。

前缀保持不变

让prompt前文保持一致，KV Cache可以直接重用，不需要重新计算。

只追加不修改

Context中不动中间内容，只在末尾追加新内容，保证KV Cache的有效性。

Mask而非Remove

当某些工具（MCP）不再使用时，不要从context中删除，而是将其mask掉——让模型生成时忽略即可，但KV Cache结构保持完整。

File System as Context

用文件系统管理context内容，结构化地控制Agent的注意力。

ToDo.md控制注意力

当context不断增长导致模型"变笨"时，用todo.md来manipulate模型的attention焦点。

保留错误记录

模型中间出现的failure不要删除，继续保留在context中——错误信息也是有价值的上下文。

Few-shot示例多样化

放入context的example要足够diverse，否则模型会倾向于不断重复前面的内容，产生无用的重复生成。

Lost in the Middle问题在Agent中更严重

经典的"Lost in the Middle"现象（模型难以attend到长文本中间的内容）在Agent场景下被放大——随着交互轮数增加，前面的步骤信息逐渐被"遗忘"。用郑博源开玩笑的话说："context塞了越来越多东西，它在内耗。"Manus通过context engineering的工程手段来缓解这个问题。

十三、Agent Safety：不可逆操作的风险

郑博源从亲身经历出发，阐述了Agent安全的紧迫性。不同类型的Agent风险等级完全不同。

低风险Agent

Deep Research类：只做网页读取操作
不会对世界或网站产生影响
就算生成离谱的action也无害

高风险Agent

Computer Use Agent（如Operator）
实打实地影响真实世界
可能下单、发邮件、操作支付
可能构成智能化的DDoS攻击

郑博源

我做Web Agent的demo时让它帮我在特斯拉门店订一个试驾。它真的做成了。圣诞节的时候，特斯拉不停给我发邮件说"你是时候来提车了"。假如不是一个Agent而是一千个Agent，假如所有Agent都在给同一家门店发请求——那这就是一种智能化的DDoS攻击。

Guardian Rail方案

郑博源最新工作

在Agent执行action之前，判断该action对世界或他人的影响有多大
如果影响足够大，先停下来提醒User确认
类似自动驾驶的安全机制
解决伦理问题：只要User approve了，责任归属明确
Kimi K2也在safety相关RL训练上投入大量精力（暴力、诈骗、歧视、jailbreak等场景的seed prompt + verifiable reward）

郑博源

假如Agent一不小心下单了一吨的鲜肉，或者买了1000杯咖啡，或者不小心给别人发了一个非常粗鲁的邮件——这种情况就会非常危险。

十四、环境交互的成本困境

环境交互成本是Agent训练中一个被学界"一定程度低估"的核心问题。郑博源给出了多个具体的成本估算。

各场景的成本分析

场景	交互方式	成本挑战
Search Agent	Google Search API	单次1分钱，但Deep Research单次任务约100-150次搜索，大规模training需要巨量rollout
Browser Agent	真实网站交互	IP被封（极普遍现象）；Cloud Browser服务（如BrowserBase）收费极贵
本地沙盒	Docker容器	CPU/Memory成本高，大量并发sandbox对环境消耗大
机器人	物理世界操作	极端案例：真实数据需要人现场操纵机器人，仿真数据占99%

100K Trajectory的真实成本

郑博源估算，仅100K条browser trajectory的环境交互成本就可能达到数千美元。BrowserBase这类Cloud Browser服务之所以能获得大额融资，正是因为这个需求真实且迫切。如果RL训练效果持续验证为强大，接下来的重心可能就是不断造Environment，在此基础上生成大量task + verifiable reward，作为新的scaling方式。

十五、Agent Memory与长上下文

Agent Memory是一个需要大量新工作才能做好的领域，与传统Chatbot Memory有本质区别。

Chatbot Memory

数据是非结构化的自然语言对话
轮数相对有限
不涉及环境状态变化
记忆更新频率低

Agent Memory

数据高度结构化：action + observation + feedback
轮数极长，context不断膨胀
环境状态持续变化
需要高效的增删改查机制

Agent Memory的理想机制

增：当Agent发现有用的action模式时，插入到memory中
删：过期或被证伪的信息需要清除
改：某个action执行后环境状态变化，相关memory需要更新
查：在长轨迹中高效定位相关的历史信息

这个领域目前还需要更多研究。Agent的交互历史包含大量procedure knowledge（过程性知识），如何结构化地积累和利用这些知识，是提升Agent能力的关键方向。

十六、未来展望：Self-Improvement与应用爆发

研究方向：Agent Self-Improvement

前沿方向

Agent自己给自己找Reward

Kimi K2的研究者手动在GitHub上找PR/Issue建sandbox做RL训练。但如果Agent本身能够自己在网站上爬取、探索，自动找到reward signal和training environment呢？Agent可能成为一个Data Engine——自己发现新数据、自己建环境、自己做RL训练，实现Self-Improvement循环。目前这还是brainstorm层面，但郑博源认为是"非常有意思的研究方向"。

郑博源的Skill Discovery工作

从Exploration中提取Procedure Knowledge

让Web Agent在新环境上自己提出task、自己探索
自带reward model模块判断探索是否成功
成功的探索轨迹转变为API
推理时Agent不再从头一步步做action（太慢），而是直接调用API快速执行
核心洞察：Agent的rollout和exploration过程中有大量有用的数据和知识，我们也许可以有方式将其积累起来

应用层面：越来越近

Coding Agent：已经爆发

"我和我的朋友们，代码自己写的越来越少了，基本都是让Agent写一个大概然后自己改。"系统层面代码（RL、Multi-process）还不够强，但前端等领域"真的非常强大"。

Tool Use Agent：很快会跟上

Infra支撑正在完善，MCP生态日益丰富。

Browser/Computer Use Agent：Infra难度最大

环境交互成本和稳定性仍是核心瓶颈，但发展速度可能超预期。

Agent各类别成熟度与发展预期

Research-Product Co-Design

郑博源

Windsurf被收购的一个很attractive的点，就是他们积累了大量的user和Agent的交互数据。通过这个去改prompt或者训Agent，能很好地提高performance。

这印证了"Research和Product相互迭代"的趋势：产品积累用户数据 → 改进模型/prompt → 更好的产品 → 更多数据。用户在使用Agent的过程中，本质上就是一种Annotator，在不断提供各种reward信号。

每个人的Agent军团

郑博源

我做日常做事情的时候，背后有一个军团在帮我做事情。Coding交给Claude，polish paper用ChatGPT，长文档整理用Gemini（long context特别强）。需要尖锐刻薄建议的时候用原生DeepSeek——它嘴特别臭，但观点鞭辟入里。

十七、启示与延伸思考

1. 系统工程 > Idea：Agent时代的竞争壁垒

Kimi K2 paper中每个trick都有对应的已发表论文，idea并不新。真正的壁垒在于：能否将数十个已验证的小trick整合到一个大规模训练流水线中，并在scale up后依然保持质量。这不是科学发现的问题，而是系统工程的手艺活。"研究员都是老师傅"——prompt调优、数据筛选、参数调整的sense，可能比idea本身更稀缺。

2. 数据范式转移：从标注答案到标注评价标准

传统SFT标注input-output对，新范式是标注Task + Rubrics/Verifiable Reward。这一转变意义深远——不再告诉模型"正确答案是什么"，而是告诉它"怎么判断你做得好不好"，让模型通过RL自己探索解决路径。这本质上是从教知识到教方法论的转变。

3. Environment是新的Data：RL时代的稀缺资源

如果RL持续有效，下一阶段的竞争核心可能不是算力、不是模型架构，而是谁能构建最丰富、最真实的训练环境。BrowserBase融到大笔资金、各家在云上部署数万sandbox——Environment正在成为AI训练中一种新的基础设施，其重要性可能比拟预训练时代的数据。

4. Agent的不可逆性：一个社会问题而非纯技术问题

Deep Research只读不写，完全安全；Computer Use Agent可以下单、发邮件、修改设置，影响不可逆。1个Agent订错试驾是笑话，1000个Agent同时发请求就是DDoS。Guardian Rail不仅是技术方案，更是伦理与责任归属的设计——让User approve后，Agent的责任归属才有法律意义。

5. 学界与工业界的分化加剧

20,000个parallel environment、大量GPU时间、Cloud Browser费用——Agent RL训练的成本门槛正在急速攀升。学界能跟上idea但很难跟上engineering。反过来说，学界在proof of concept层面的工作仍然不可替代——WizardLM、SlowMath等小规模验证工作，正是工业界大规模集成的"零件库"。

6. In-Context Learning路线的生命力

Manus用纯context engineering在不训练模型的情况下做出可用产品，证明了ICL路线的实用价值。在端到端训练难以覆盖的多Agent协作场景中，ICL路线可能更具优势——因为多Agent的RL训练面临reward归属难以分配的根本困难。两条路线可能长期共存，适用于不同场景。

7. Agent Self-Improvement：通向AGI的一条路径？

Agent与环境的交互不是封闭系统——每次交互都有新数据进来。如果能从exploration中自动提取knowledge、自动发现reward signal、自动构建训练环境，Agent就可能成为一个自我进化的data engine。这与预训练时代"数据即将耗尽"的焦虑形成对比——Agent范式下，数据可以被创造，而不只是被消耗。

8. 模型"性格"是工程产物

DeepSeek嘴臭但深刻、ChatGPT情商高但可能变笨、元宝"舔狗"——这些用户体感上的差异，本质上都是Reward设计和Alignment策略的结果。Rubrics中加入"有同理心"就温和，加入"尖锐直接"就犀利。当我们说一个模型"变了性格"时，其实是Rubrics Reward的权重被调整了。

9. Agent正在重新定义"编程"

"我现在每天很多代码都是Agent写的，我做的事情更多是修改它。"当PhD学生可以同时开3-5个Agent并行处理不同任务时，编程的含义正在从"写代码"变为"管理和审查Agent的输出"。程序员的核心能力从代码实现转向系统设计、质量判断和reward设计——这恰好呼应了本期"系统工程大于idea"的主题。

逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等

目录