深度研究 — #138 罗福莉：AI范式已然巨变

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

OpenClaw的三天顿悟
Agent框架：产品与模型之间的中间层
群体智能与框架自迭代
Coding的泛化性与Agent范式
后训练范式的历史性转变
MIMO VR的模型架构哲学
MTP与Hybrid Attention的技术抉择
卡的分配：3:1:1的黄金比例
全模态统一的执念与妥协
大模型三年编年史
中美代差与竞争格局
组织平权：无组无层级的创新管理
通往AGI：自迭代与群体智慧
关键数据与启示延伸

一、OpenClaw的三天顿悟

罗福莉讲述了自己从排斥OpenClaw到被彻底征服的三天历程。她坦言，最初将OpenClaw视为"一个偏运营导向的产品"，认为它只是Claude Code加上一个UI壳。但在春节期间，她花了一个凌晨安装并体验后，认知发生了根本性转变。

第一天：产品的温度

凌晨两点到六点，整晚与OpenClaw对话。最初的冲击来自它的自主性与"灵魂"——它会提醒用户"现在已经很晚了，你要不早点去睡觉"。深究后发现，这背后是精密的机制设计，如在每轮对话的content前拼接当前时间等细节。

第二天：生活与工作的替代

尝试让它帮助解决日常管理问题——如何激发团队好奇心、构建大模型团队、面对范式转变的组织应对。它不仅能理解深度问题，还能形成体系化的Skills，成为"数字分身"。

第三天：研究的加速

把研究级任务交给它：构建Agent Contract的多轮交互中的User Agent。原本以为"一两个小时做不出来"的研究课题，一两个小时后就产出了可用的User Agent，可直接用于SFT和RL数据构造。

罗福莉

从一个我开始对他的认知只是"一个有灵魂有温度的产品设计"，到他可以帮我替代我生活或工作当中的一部分，到最后他能促进我研究——这也就是三天发生的事情，就每天他都能给我额外更多的惊喜。

第一天消耗接近1000美金的Opus 4.6

罗福莉透露，高强度使用的第一天就花了近1000美元的Opus 4.6费用。中途尝试切换到Sonnet，但发现"真不行"，只有Opus 4.6才能带来那种"惊艳感"。但随着框架迭代，她后来发现中层模型在好的Agent框架支撑下也能发挥强大能力。

OpenClaw vs Claude Code的核心差异

Claude Code

所有Agent框架设计为软件工程服务
记忆系统for代码任务：session压缩、plan记忆
架构是黑盒，无法修改记忆系统和workflow
编程体验上仍是最佳，哪怕当下也是"Cloud Code的天下"
泛化性受限，非Code场景需人工补齐短板

OpenClaw

设计之初就考虑端到端完成所有任务
持久化分层分级Memory体系、心跳任务、多消息通道
完全开源，可自行改造Agent架构、Memory系统
能自动调用不同模型弥补短板（如视频理解）
让中层模型在85%任务上达到Sonnet级别水准

核心判断

Agent框架弥补模型短板

罗福莉将MIMO VR Flash（一个3B端侧模型）接入OpenClaw，发现它"能做出我自己认为不可能是一个非常小的模型能做出来的事情"。这是她第一次感受到"原来一个非常复杂的Agent框架设计，是能够弥补非常多模型能力的短板"。对顶尖模型，框架是"成倍放大上限的加速器"；对中层模型，框架是"让各种场景输出稳定的稳定器"。

二、Agent框架：产品与模型之间的中间层

罗福莉对Agent框架提出了一个重要的定位——它既不是传统意义上的产品，也不是模型本身，而是人与模型之间的中间层。

Agent框架的本质定义

产品是"人交互能感受到的那一层"，前端UI是最薄的一层
Agent框架在定义交互层的同时，定义"怎么跟模型沟通那一层"
它能感知模型能力的长板短板，调度不同模型做不同任务
这个中间层可以做得非常厚重，想象空间巨大

好的Agent框架的核心要素

弥补行动上的缺陷：好的Memory系统、更广泛的Message Channel、主动性设计（定时任务等）、自我迭代更新——本质都是给模型提供更好的Context
可泛化的评估体系：不只防致命错误，要让框架能自迭代。当前是用"最高阶的一群人当评估"，但这个评估会逐渐被框架和模型吸收
开源的可操纵性：让使用者自行改进Agent架构，服务自己的场景——"改它这件事非常激发人的创造力"

罗福莉

当你面临这么多很复杂的Agent框架的时候，你怎么让你的模型在不同框架上都有一个非常稳定和超预期的表现，然后你怎么让你的后训练的范式对应与之做适配和迁移——这是我们在这个事的冲击下快速思考的第二个问题。

Skill：预训练的另类补充

Skills改变了模型在高复杂度任务上的执行准确率。它定义了一套执行规范，而这种规范不可能在预训练数据中出现——它是组织内部人与人之间产生的规范，只能通过人与Agent多轮交互、完成任务来沉淀。

OpenClaw Moment的独特性

不同于DeepSeek Moment或ChatGPT Moment有清晰的标志性节点（如数学代码的Benchmark突破），OpenClaw Moment的时间线更长、更深远。它的能力"溢出到更多人能感受到的场景"，但这种流动是缓慢的、需要时间的。"它没有一个非常清晰的标志性分界，但它产生的价值会慢慢到一个临界点突然进一大步。"

三、群体智能与框架自迭代

罗福莉在春节后第二天就强制要求全团队使用OpenClaw："如果你跟OpenClaw的对话没有超过一百轮，明天就辞职。"这不是真的考核，而是为了驱动所有人去体验。

100人飞书群的躁动

群体智能的涌现过程

近100人在一个OpenClaw群中按不同方向探索，大群分享，相互激发想象力
群消息十分钟不看就999+——"不像在上班，就在群里边玩，玩得非常happy"
个人改进框架的速度很慢，但群体改进"几个小时就迭代了一轮"
第三四天把框架接到MIMO自己的模型上，发现"怎么也挺好用的，怎么还挺接近Cloud"

罗福莉

个人的想象力真的是局限的。但是当你看到别人用OpenClaw居然能干成这个事情的时候，你就会激发你自己的想象力。所以大家的想象力是一个成绩的作用。

框架自迭代的两个尚未实现的层面

已在做的

Agent与Model之间的双向流动
怎么训更好的model for Agent
怎么让Agent去适应model

尚未出现的

框架本身的自进化
框架与人之间的共同进化
Agent的自学习、自迭代的巅峰

OpenClaw被OpenAI收购的影响

罗福莉认为核心没变——OpenClaw开源的属性保留了，"群体演变的可能性和基因"还在。做这件事的一部分人的立场变了，"maybe是好事也有可能是坏事"，但不影响开源社区继续迭代。她至今仍选择使用最新版OpenClaw，因为"还没有看到比OpenClaw开源社区进步更快的Agent框架"。

四、Coding的泛化性与Agent范式

罗福莉系统阐述了为什么Code是贯穿三个范式的最优路径。

核心洞察

Code在每个范式都"戳中了那个点"

Code之所以具有超强泛化性，根本原因在于它是长上下文、强依赖、自闭环的任务：

预训练时代：128K甚至1M长度的高信号密度数据几乎只有两类——Code和书籍。但书籍信号太发散，Code文件间关联更强，天然提升长上下文建模能力
Reasoning时代（O1/R1）：Code和Math都有非常好的Verified指标，可以做强化学习
Agent时代：软件开发是天然的长程任务，有真实的环境反馈，且"Code本身就是自然语言，所以很容易Scaling到其他领域"

为什么去年的Agent都是"伪Agent"

2025年Agent框架的根本缺陷

BrowserComp、SweepBench等过于简洁，只是"稍微比Chatbot复杂一点点"
SweepBench只关注"修Bug"，不是真正的软件开发
在这些Benchmark上表现好的模型，接到Claude Code或OpenClaw里根本不可用
模型理解不了复杂框架本身，也未针对人机交互范式的变化做训练
"不管是BrowserComp还是SweepBench，在上面表现非常高的模型，也不代表Agent能力是真的强"

人机交互范式的根本转变

在Agent范式下，人与模型的交互发生了本质变化：

人不再修改代码，不再说"这一行代码出错了，帮我改一下"
人只做三件事：提澄清需求、参与架构设计、辅助理解业务逻辑
业务逻辑是企业内部沉淀的东西，必须通过多轮交互才能被Agent学会——这就是Skills的价值

五、后训练范式的历史性转变

罗福莉提出了一个震动性的判断：Agent范式非常吃后训练，后训练的算力投入应当与预训练相当。这是从Chatbot时代33:1的比例到Agent时代1:1的历史性转变。

预训练 vs 后训练算力比例的历史变迁

为什么Agent范式吃后训练

从Chart到Agent的根本差异

Chart范式：Context就是人输入的，很短，纯靠预训练
Agent范式：Context越长越能产生智能，模型需要理解复杂框架、多Agent协作法则
对框架理解、对Skateboard的适配——这些都必须在后训练中投入大量算力
"你在后训练上要去投入的算力，会可能跟预训练是相当的"

罗福莉

现在是后训练的周期在拉长。你在一代基座上能做的后训练的上限，是远远被激发出来的。这是Agent的范式带来的。

这对模型架构设计意味着什么

罗福莉指出，MoE（如DeepSeek的MLA）是在"后训练不重要"或"后训练时间很短"的前提下设计的。但当后训练要做半年甚至一年时：

预训练阶段对推理场景的假设可能全部失效——比如从"128K够用"变成"需要10M上下文"
更精细设计的架构可能失去灵巧性
反而是更简洁的架构（如Hybrid Retention）留有更多富余度，适应后续不同场景的增强

MIMO转向Agent的速度

罗福莉认为MIMO是国内最早转向Agent范式的团队——"比Kimi还早"。三四周时间做完了以前可能三四十周才能做到的研究工作。但她也坦承"有些公司就没有跟上，还在原来Charted的方式下去继续深耕"。

六、MIMO VR的模型架构哲学

罗福莉详细阐述了MIMO VR系列模型（Flash和Pro）的架构决策背后的深层逻辑。核心目标只有一个：为Non-Convex的效率设计模型结构。

80-100

MIMO VR Pro 的 TPS

100-150

MIMO VR Flash 的 TPS

7:1

Pro的Full:Sliding比例

1T+

Agent入场券参数量

为什么不选MLA

罗福莉指出，当时同期训练的Gemma和Kimi都选择了MLA（DeepSeek的Multi-head Latent Attention）。MLA确实在Chatbot时代是非常优秀的架构，但有一个致命局限：

MLA的结构性局限

MLA设计之初是为了在H系列芯片上实现访存与计算的完美比例，已达到L-bond和MMI-bond的精确临界点
这意味着没有任何可发挥的空间——如果用MTP（Multi-Token Prediction）加速推理，会导致计算Bond
所有MLA架构的模型（Gemma、Kimi等）预计都没有上MTP——"因为上了就被计算Bond了"
导致这些模型都会比MIMO慢

Hybrid Retention的优势

MIMO选择的Hybrid架构通过三个手段实现了Agent场景的完美适配：

通过Sliding Window减少KV Cache，让长上下文支持更经济
通过MTP把Sliding Window节省的算力填上，达到访存与计算的良好平衡
更简洁的架构留有富余度，可以在不同场景做适应和增强

罗福莉

虽然我们设计模型之初没想那么多，但是基本上就完美的非常适合做Agent。因为Agent对长上下文非常关键，然后很小的KV Cache也很关键——你能做更多的多节的缓存。然后速度是一个还蛮关键的命题：你一旦体验到了更快的模型，你就回不到那个更慢的模型了。

七、MTP与Hybrid Attention的技术抉择

MTP的偶然发现

MTP（Multi-Token Prediction）的采用其实是个偶然。在为MIMO VR设计推理方案时，团队发现模型在推理卡上计算剩余量极大，远超预期。

MTP的双重价值

预训练阶段：训一层MTP能提升基座能力——与DeepSeek的发现一致
推理阶段：利用计算剩余做推测解码（Speculative Decoding），在更短时间内吐出更多Token，降低单Token生成成本
Post-train阶段再额外训更多MTP层，实现更好的推理加速
MTP不会带来幻觉——因为它会被Verify，"只有你预测的准我才会采纳你当前Token的结果"

Hybrid Attention的比例选择

维度	Flash	Pro
Full:Sliding比例	5:1	7:1（更极致）
设计目标	验证架构可行性	更大规模下保持长文效率
关键发现	Full Attention的层数比系数比更重要；更大模型能吃更大的Attention Sparsity比例

从Flash到Pro提升比例的核心考量：扩大参数量时，如果Full Attention层数也随之增多，长文场景的KV Cache会崩溃。所以需要在控制Full Attention层数不变的前提下，增加更多Sliding Window层——"在长文效率相当的情况下，Scaling模型的智能水平上限"。

定价逻辑的范式转变

Flash时期按推理成本定价（百万Token输入$1.01、输出$0.3）。但罗福莉认为进入后训练时代后，定价逻辑应从"推理成本"转向"模型产生的价值"——因为模型在后训练上做得好、能更好理解Agent框架，这是额外的溢价空间。所以MIMO VR Pro"抛弃了这样一个定价逻辑"。

八、卡的分配：3:1:1的黄金比例

罗福莉给出了一个非常具体的GPU算力分配建议，这在公开访谈中极为罕见。

研究用卡（倍数）

预训练用卡

后训练用卡

罗福莉

For研究跟For Pre-train和For Post-train，我自己觉得一个非常合理的卡的比例是3比1比1。Pre-train和Post-train应该是相当的。研究的比例应该至少是你正式训练的卡总量的还要多一点——你要额外留更多的卡来做研究。

卡已成为最关键瓶颈

在Agent范式下，Idea的诞生和代码实现被Agent极大加速（"太快了"），但验证Idea需要跑大量GPU实验。

需要并线启动很多实验，瓶颈卡在GPU上
推理卡的需求量远比训练更高——"几倍到十倍的空间"
MIMO VR Flash和Pro各自训练可能几千卡就够，但研究投入的卡是训练卡的数倍
"五倍是一个更好的区间"——前期结构研究 + 中后期Post-train算法研究

Chatbot时代 vs Agent时代的算力比

Chatbot时代预训练与后训练的算力比例是夸张的33:1到15:1。2026年，"顶尖团队应该都是1:1了"。这意味着后训练从附属环节变成了与预训练等量齐观的核心投入。

九、全模态统一的执念与妥协

MIMO VR家族包含Pro（语言）、Omni（全模态理解）和TTS（语音生成）三个模型，背后体现了罗福莉对统一架构的执念，以及面对现实的妥协。

离散化的执念

LM原教旨主义

希望将所有模态统一到离散Token的LM范式下——"做音频的全是做LM的人，所以有这个执念"
音频上已经成功：使用多层RVQ实现无损离散化，经过更多预训练后涌现
图片正在进行中，"不知道能不能迈过去"
如果全面成功，意味着可以用同一套Pre-train Infra、同一套RL Infra——"太简洁了"

一个月内的认知转变

最近一个月，罗福莉发现在Agent（Claude Code + 顶尖模型）的支持下，重写一套RL Infra或Pre-train Infra的时间被大量缩短——"几个人靠Agent两三周就能捏一套新的RL框架"。这让她开始反思：

罗福莉

Infra重新写一套也没有那么复杂。那为什么要因为后续Infra架构的统一性，去牺牲前面模型结构那么大？

Omni的意外发现

MIMO VR Omni虽然比Pro参数量小，但用户实际体验时会发现它在世界感知、情商、知识储备上反而更强。罗福莉猜测这是因为Omni训过视频，拥有更多世界知识。但在任何Benchmark上"纹丝不动"——"是不是有可能Benchmark错了？当然有可能。"

多模态是否促进智能——悬而未决

两个月前罗福莉很相信多模态理解能产生智能，但训练OMNI的过程中"稍微有点质疑"。她的最新判断：纯扩大感知维度可能不太会促进智能，但如果能生成多模态信号，"也许能促进更好的感知"，从而间接促进智能。但这仍是科研问题。

十、大模型三年编年史

罗福莉从亲历者角度回顾了2022年底至今的大模型演进，提供了一个极为内行的视角。

2022年末 — ChatGPT

4K Context的预训练模型 + 简单对话交互。让人感受到模型在很短上下文中达到了类人智能水平。核心贡献：Chat是一个让人感知到智能水平的绝佳交互方式。

2023年 — 开源追赶

Llama开源了Transformer架构的关键超参（Pre-Normal、Headed Size等），Qwen借此做全尺寸训练，促进社区生态。DeepSeek走另一条路——关注Llama架构的缺陷，在受限GPU上做创新，诞生了MoE for高效训练和低推理成本。两股势力彼此促进。

2024年 — Reasoning奇袭

O1和R1的诞生"在所有人意料之外"。R1在DeepSeek内部也算是一次奇袭——从Code和Math出发的Reasoning证明可以泛化到通用领域，这是O1都没有走通的路径。核心教训：组织和团队重组是首要要素。

2025年 — 交错之年

可以选择在Chart方式下把Reasoning做到极致，也可以选择转向Agent范式。大部分公司年终才全面拥抱，但MIMO是"国内转得最早的"。

2026年 — Agent的第二幕

所有人意识到Claude Ops的路径是正确的。大模型战争进入第二幕——从Chat到Agent，入场券是1T+基座 + 后训练敏捷性。竞争维度和速度都在倍增。

大模型范式演进与核心能力变迁

十一、中美代差与竞争格局

罗福莉的代差判断

罗福莉

我认为如果反应速度足够快的话，应该只有两三个月的代差——就不是说两三个月后能追上两三个月后的Cloud，而是说能追上当代的Cloud。接下来两三个月会非常精彩。

代差的构成

国内的优势与差距

预训练：国内在结构上有优势（如Hybrid Retention vs MLA），代差"基本没有"
Agent后训练：大部分人刚开始做正确的事——在复杂Agent框架上做复杂长程任务，以此为目标设计后训练范式
Agent框架：Anthropic做了很多Context Engineering，以前被误以为是"因为模型结构不先进而做的妥协设计"，现在看来是为Agent任务完成度设计的
具备1T+基座的国内公司：Kimi、MIMO、以及一些其他团队

2026年的竞争胜负手

不能做错的事：预训练基座不能错。如果没有1T+且Code能力优秀的基座，"基本上完全没有机会"
怎么让Agent框架与模型互相自迭代提升
怎么让Agent架构去耦合现有战略资源——操作系统、硬件、流量、社交等
公司愿不愿意用一套全新的方式做事——"原来做的所有东西都可能是错的"

对MiniMax的评价

后训练的惊艳敏捷性

罗福莉对MiniMax给予了高度评价——"用一个稍小的模型做到目前这样的Agent能力，后训练的敏捷程度是非常惊艳的"。但她同时指出，MiniMax具备的是后训练敏捷性，尚未同时具备1T+基座这个入场券。"中国公司还没有同时具备两者。"

十二、组织平权：无组无层级的创新管理

罗福莉管理的MIMO大模型团队约100人（包含大量实习生），但组织方式极为另类——没有组、没有层级、没有直接汇报。

~100

团队总人数

20-30

核心投入一代模型的人

55%

含在读博士比例

正式组别数量

为什么不分组

罗福莉

很多人他会对两个方向都感兴趣。如果你组划分的非常清晰和固定的话，那么其实是在扼杀一部分人的创造力，或说扼杀他未来的成长空间。

平权管理的底层逻辑

平权有利于创造力：任何层级都是在规范和约束，而规范和约束是压制创造力的
领导不应有掌控感："尤其是最重要的那个领导人，不要有特别强的掌控感"
大部分人自然流动：做预训练数据的人天然对多样性有感觉，自然转到后训练——"不是基于你说我们这里需要人你转一下"
靠热爱驱动：选择激发热情，让大家围绕自己信仰的事情自驱做事

选人标准

基础要好：想做什么事情的时候能做成
好奇心强：热爱驱动做事情的人"特质会非常Special，跟他聊天过程就能感受到"
不需要大模型经验：大部分人"刚毕业，之前甚至不是做大模型的"，做工程、做开发的都有
环境比经验更重要："这些能力最多一两个月，慢的话三四个月，都可以被快速习得"
越来越倾向招本科生（大二大三）："没有被污染，天然更接纳新事物，想象力更高"

训练过程：停下来解决问题的勇气

训练1T模型过程中遇到Loss Spike，团队选择停下来解决问题而不是让训练继续跑。最长停过两周。"我们又没有什么目标"——没有deadline压力，追求极致的文化导向让团队敢于花两周排查一个"不知道是不是问题"的问题。罗福莉坦言会"经常晚上做梦说为什么Loss又Spike"。

十三、通往AGI：自迭代与群体智慧

AGI的时间判断

罗福莉

两个月前我觉得至少两年以上。现在感觉历程已经到了20%——今年能走到60%到70%。我感觉两年内应该能实现。

自迭代的发生路径

罗福莉描述了一个让她觉得"很残酷"的发现：

模型训模型的可能性

以前认为"让Agent去训模型"是不可能的——涉及深度学习平台融合、模型需要具备研究员五年的科研Context
最近发现：只要把你的Context告诉它，它甚至能帮你复原你自己的科研成长路径
"这个时候你再跟他讨论同样的Topic，你发现他跟你一样聪明"
它先吸收所有人的智能，然后再靠自己产生更强的智能——"左脚踩右脚就提升了"
"这个事情肯定是就在这一两年发生的事情"

群体智慧产生AGI

罗福莉在家里做过一个实验：让家人（爸爸、妈妈、老公）每个人都有自己独立的Session，在群里委派不同任务。由于每个人的Context不一样，Agent完成任务的质量更高。"同样简单的事情换到更高复杂度更有创造力的场景，只要模型能力跟Agent框架在进化，应该也是可能成功的。"

终极判断

开源加速AGI

从终局倒推：AGI需要大规模产生经济价值，必须依赖算力。芯片会分散在不同厂商和公司手中，使用的模型一定是不一样的。因此开源是加速AGI进程的必要条件——它对框架、芯片、能源各环节都有促进作用。敢不敢开源，取决于公司是否有"别人短期内拿不下的战略生态位"。

罗福莉的个人心法

罗福莉

以前做量化的时候，给我力量的一句话是"总有方式去建模价格"。回到大模型赛道，我应该做当下符合我价值观的事情——一定是要对更多人产生价值的、更有意义的事情。每天做的事情是不是让这个世界变得更美好一点。

十四、关键数据与启示延伸

关键数据汇总

指标	数据	来源/Context
Opus 4.6 第一天花费	~$1,000	高强度使用4-5小时
研究效率提升	三四周 = 过去三四十周	Agent辅助下的研究速度
卡的最优比例	研究:预训练:后训练 = 3:1:1	罗福莉的建议
预训练vs后训练比（旧）	33:1 到 15:1	Chatbot时代
预训练vs后训练比（新）	1:1	Agent时代，顶尖团队
Agent入场券	1T+ 总参数	接近Cloud Ops 4.6水平
MIMO VR Flash TPS	100-150	得益于Hybrid结构+MTP
MIMO VR Pro TPS	60-100	视成本配置而定
Pro Full:Sliding比	7:1	从Flash的5:1提升
团队规模	~100人（核心20-30人）	包含大量实习生
中美代差	2-3个月	追上当代Cloud，非未来Cloud
AGI进度	当前20%，年末60-70%	罗福莉个人判断
AGI时间	两年内	较两个月前"至少两年以上"前移

启示与延伸思考

一、Agent框架是新的竞争维度

这不是模型公司传统认知中的"产品"或"UI"，而是一个决定模型价值释放程度的中间层。罗福莉的实践表明，一个优秀的Agent框架能让3B模型做到不可思议的事情，也能让顶尖模型的上限成倍放大。这意味着未来的竞争不仅是模型能力的竞争，更是"模型+框架"的系统竞争。

二、后训练从配角变主角

从33:1到1:1的比例变化，不仅是算力分配的变化，更是方法论的根本转变。预训练阶段的架构设计必须为后训练留余地——这颠覆了MLA等"为预训练极致优化"的设计哲学。罗福莉的Hybrid Retention架构正是因为"留有富余度"而在Agent时代意外契合。

三、组织形态决定创新速度

无组别、无层级、靠热爱驱动的扁平组织，让MIMO能在"三四周做完过去三四十周的事"。预训练人做后训练、本科生做前沿研究——打破刻板分工才能在范式转变中保持敏捷。在Agent加速一切的时代，环境比经验更重要、想象力比经验更稀缺。

四、开源的战略意义被重新定义

OpenClaw的火爆证明：群体智慧改进框架的速度远超任何单一团队。Skills让人的经验成为模型能力的另类补充。开源不再仅是"推广模型"的市场策略，而是加速AGI到来的基础设施。从终局倒推，算力分散、模型多元是必然，开源是唯一合理选择。

罗福莉：AI范式已然巨变

目录