← 返回张小珺主页
深度研究 Deep Dive

罗福莉:AI范式已然巨变

#138 从Chatbot到Agent,后训练主导的新时代
2026.4.24 · 03:36:36 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. OpenClaw的三天顿悟
  2. Agent框架:产品与模型之间的中间层
  3. 群体智能与框架自迭代
  4. Coding的泛化性与Agent范式
  5. 后训练范式的历史性转变
  6. MIMO VR的模型架构哲学
  7. MTP与Hybrid Attention的技术抉择
  8. 卡的分配:3:1:1的黄金比例
  9. 全模态统一的执念与妥协
  10. 大模型三年编年史
  11. 中美代差与竞争格局
  12. 组织平权:无组无层级的创新管理
  13. 通往AGI:自迭代与群体智慧
  14. 关键数据与启示延伸

一、OpenClaw的三天顿悟

罗福莉讲述了自己从排斥OpenClaw到被彻底征服的三天历程。她坦言,最初将OpenClaw视为"一个偏运营导向的产品",认为它只是Claude Code加上一个UI壳。但在春节期间,她花了一个凌晨安装并体验后,认知发生了根本性转变。

第一天:产品的温度

凌晨两点到六点,整晚与OpenClaw对话。最初的冲击来自它的自主性与"灵魂"——它会提醒用户"现在已经很晚了,你要不早点去睡觉"。深究后发现,这背后是精密的机制设计,如在每轮对话的content前拼接当前时间等细节。

第二天:生活与工作的替代

尝试让它帮助解决日常管理问题——如何激发团队好奇心、构建大模型团队、面对范式转变的组织应对。它不仅能理解深度问题,还能形成体系化的Skills,成为"数字分身"。

第三天:研究的加速

把研究级任务交给它:构建Agent Contract的多轮交互中的User Agent。原本以为"一两个小时做不出来"的研究课题,一两个小时后就产出了可用的User Agent,可直接用于SFT和RL数据构造。

罗福莉
从一个我开始对他的认知只是"一个有灵魂有温度的产品设计",到他可以帮我替代我生活或工作当中的一部分,到最后他能促进我研究——这也就是三天发生的事情,就每天他都能给我额外更多的惊喜。

第一天消耗接近1000美金的Opus 4.6

罗福莉透露,高强度使用的第一天就花了近1000美元的Opus 4.6费用。中途尝试切换到Sonnet,但发现"真不行",只有Opus 4.6才能带来那种"惊艳感"。但随着框架迭代,她后来发现中层模型在好的Agent框架支撑下也能发挥强大能力。

OpenClaw vs Claude Code的核心差异

Claude Code

  • 所有Agent框架设计为软件工程服务
  • 记忆系统for代码任务:session压缩、plan记忆
  • 架构是黑盒,无法修改记忆系统和workflow
  • 编程体验上仍是最佳,哪怕当下也是"Cloud Code的天下"
  • 泛化性受限,非Code场景需人工补齐短板

OpenClaw

  • 设计之初就考虑端到端完成所有任务
  • 持久化分层分级Memory体系、心跳任务、多消息通道
  • 完全开源,可自行改造Agent架构、Memory系统
  • 能自动调用不同模型弥补短板(如视频理解)
  • 让中层模型在85%任务上达到Sonnet级别水准
核心判断

Agent框架弥补模型短板

罗福莉将MIMO VR Flash(一个3B端侧模型)接入OpenClaw,发现它"能做出我自己认为不可能是一个非常小的模型能做出来的事情"。这是她第一次感受到"原来一个非常复杂的Agent框架设计,是能够弥补非常多模型能力的短板"。对顶尖模型,框架是"成倍放大上限的加速器";对中层模型,框架是"让各种场景输出稳定的稳定器"。

二、Agent框架:产品与模型之间的中间层

罗福莉对Agent框架提出了一个重要的定位——它既不是传统意义上的产品,也不是模型本身,而是人与模型之间的中间层

Agent框架的本质定义

  • 产品是"人交互能感受到的那一层",前端UI是最薄的一层
  • Agent框架在定义交互层的同时,定义"怎么跟模型沟通那一层"
  • 它能感知模型能力的长板短板,调度不同模型做不同任务
  • 这个中间层可以做得非常厚重,想象空间巨大

好的Agent框架的核心要素

罗福莉
当你面临这么多很复杂的Agent框架的时候,你怎么让你的模型在不同框架上都有一个非常稳定和超预期的表现,然后你怎么让你的后训练的范式对应与之做适配和迁移——这是我们在这个事的冲击下快速思考的第二个问题。

Skill:预训练的另类补充

Skills改变了模型在高复杂度任务上的执行准确率。它定义了一套执行规范,而这种规范不可能在预训练数据中出现——它是组织内部人与人之间产生的规范,只能通过人与Agent多轮交互、完成任务来沉淀。

OpenClaw Moment的独特性

不同于DeepSeek Moment或ChatGPT Moment有清晰的标志性节点(如数学代码的Benchmark突破),OpenClaw Moment的时间线更长、更深远。它的能力"溢出到更多人能感受到的场景",但这种流动是缓慢的、需要时间的。"它没有一个非常清晰的标志性分界,但它产生的价值会慢慢到一个临界点突然进一大步。"

三、群体智能与框架自迭代

罗福莉在春节后第二天就强制要求全团队使用OpenClaw:"如果你跟OpenClaw的对话没有超过一百轮,明天就辞职。"这不是真的考核,而是为了驱动所有人去体验

100人飞书群的躁动

群体智能的涌现过程

  • 近100人在一个OpenClaw群中按不同方向探索,大群分享,相互激发想象力
  • 群消息十分钟不看就999+——"不像在上班,就在群里边玩,玩得非常happy"
  • 个人改进框架的速度很慢,但群体改进"几个小时就迭代了一轮"
  • 第三四天把框架接到MIMO自己的模型上,发现"怎么也挺好用的,怎么还挺接近Cloud"
罗福莉
个人的想象力真的是局限的。但是当你看到别人用OpenClaw居然能干成这个事情的时候,你就会激发你自己的想象力。所以大家的想象力是一个成绩的作用。

框架自迭代的两个尚未实现的层面

已在做的

  • Agent与Model之间的双向流动
  • 怎么训更好的model for Agent
  • 怎么让Agent去适应model

尚未出现的

  • 框架本身的自进化
  • 框架与人之间的共同进化
  • Agent的自学习、自迭代的巅峰

OpenClaw被OpenAI收购的影响

罗福莉认为核心没变——OpenClaw开源的属性保留了,"群体演变的可能性和基因"还在。做这件事的一部分人的立场变了,"maybe是好事也有可能是坏事",但不影响开源社区继续迭代。她至今仍选择使用最新版OpenClaw,因为"还没有看到比OpenClaw开源社区进步更快的Agent框架"。

四、Coding的泛化性与Agent范式

罗福莉系统阐述了为什么Code是贯穿三个范式的最优路径。

核心洞察

Code在每个范式都"戳中了那个点"

Code之所以具有超强泛化性,根本原因在于它是长上下文、强依赖、自闭环的任务:

  • 预训练时代:128K甚至1M长度的高信号密度数据几乎只有两类——Code和书籍。但书籍信号太发散,Code文件间关联更强,天然提升长上下文建模能力
  • Reasoning时代O1/R1):Code和Math都有非常好的Verified指标,可以做强化学习
  • Agent时代:软件开发是天然的长程任务,有真实的环境反馈,且"Code本身就是自然语言,所以很容易Scaling到其他领域"

为什么去年的Agent都是"伪Agent"

2025年Agent框架的根本缺陷

  • BrowserComp、SweepBench等过于简洁,只是"稍微比Chatbot复杂一点点"
  • SweepBench只关注"修Bug",不是真正的软件开发
  • 在这些Benchmark上表现好的模型,接到Claude Code或OpenClaw里根本不可用
  • 模型理解不了复杂框架本身,也未针对人机交互范式的变化做训练
  • "不管是BrowserComp还是SweepBench,在上面表现非常高的模型,也不代表Agent能力是真的强"

人机交互范式的根本转变

在Agent范式下,人与模型的交互发生了本质变化:

五、后训练范式的历史性转变

罗福莉提出了一个震动性的判断:Agent范式非常吃后训练,后训练的算力投入应当与预训练相当。这是从Chatbot时代33:1的比例到Agent时代1:1的历史性转变。

预训练 vs 后训练算力比例的历史变迁

为什么Agent范式吃后训练

从Chart到Agent的根本差异

  • Chart范式:Context就是人输入的,很短,纯靠预训练
  • Agent范式:Context越长越能产生智能,模型需要理解复杂框架、多Agent协作法则
  • 对框架理解、对Skateboard的适配——这些都必须在后训练中投入大量算力
  • "你在后训练上要去投入的算力,会可能跟预训练是相当的"
罗福莉
现在是后训练的周期在拉长。你在一代基座上能做的后训练的上限,是远远被激发出来的。这是Agent的范式带来的。

这对模型架构设计意味着什么

罗福莉指出,MoE(如DeepSeek的MLA)是在"后训练不重要"或"后训练时间很短"的前提下设计的。但当后训练要做半年甚至一年时:

MIMO转向Agent的速度

罗福莉认为MIMO是国内最早转向Agent范式的团队——"比Kimi还早"。三四周时间做完了以前可能三四十周才能做到的研究工作。但她也坦承"有些公司就没有跟上,还在原来Charted的方式下去继续深耕"。

六、MIMO VR的模型架构哲学

罗福莉详细阐述了MIMO VR系列模型(Flash和Pro)的架构决策背后的深层逻辑。核心目标只有一个:为Non-Convex的效率设计模型结构

80-100
MIMO VR Pro 的 TPS
100-150
MIMO VR Flash 的 TPS
7:1
Pro的Full:Sliding比例
1T+
Agent入场券参数量

为什么不选MLA

罗福莉指出,当时同期训练的Gemma和Kimi都选择了MLA(DeepSeek的Multi-head Latent Attention)。MLA确实在Chatbot时代是非常优秀的架构,但有一个致命局限:

MLA的结构性局限

  • MLA设计之初是为了在H系列芯片上实现访存与计算的完美比例,已达到L-bond和MMI-bond的精确临界点
  • 这意味着没有任何可发挥的空间——如果用MTP(Multi-Token Prediction)加速推理,会导致计算Bond
  • 所有MLA架构的模型(Gemma、Kimi等)预计都没有上MTP——"因为上了就被计算Bond了"
  • 导致这些模型都会比MIMO慢

Hybrid Retention的优势

MIMO选择的Hybrid架构通过三个手段实现了Agent场景的完美适配:

罗福莉
虽然我们设计模型之初没想那么多,但是基本上就完美的非常适合做Agent。因为Agent对长上下文非常关键,然后很小的KV Cache也很关键——你能做更多的多节的缓存。然后速度是一个还蛮关键的命题:你一旦体验到了更快的模型,你就回不到那个更慢的模型了。

七、MTP与Hybrid Attention的技术抉择

MTP的偶然发现

MTP(Multi-Token Prediction)的采用其实是个偶然。在为MIMO VR设计推理方案时,团队发现模型在推理卡上计算剩余量极大,远超预期。

MTP的双重价值

  • 预训练阶段:训一层MTP能提升基座能力——与DeepSeek的发现一致
  • 推理阶段:利用计算剩余做推测解码(Speculative Decoding),在更短时间内吐出更多Token,降低单Token生成成本
  • Post-train阶段再额外训更多MTP层,实现更好的推理加速
  • MTP不会带来幻觉——因为它会被Verify,"只有你预测的准我才会采纳你当前Token的结果"

Hybrid Attention的比例选择

维度FlashPro
Full:Sliding比例5:17:1(更极致)
设计目标验证架构可行性更大规模下保持长文效率
关键发现Full Attention的层数比系数比更重要;更大模型能吃更大的Attention Sparsity比例

从Flash到Pro提升比例的核心考量:扩大参数量时,如果Full Attention层数也随之增多,长文场景的KV Cache会崩溃。所以需要在控制Full Attention层数不变的前提下,增加更多Sliding Window层——"在长文效率相当的情况下,Scaling模型的智能水平上限"

定价逻辑的范式转变

Flash时期按推理成本定价(百万Token输入$1.01、输出$0.3)。但罗福莉认为进入后训练时代后,定价逻辑应从"推理成本"转向"模型产生的价值"——因为模型在后训练上做得好、能更好理解Agent框架,这是额外的溢价空间。所以MIMO VR Pro"抛弃了这样一个定价逻辑"。

八、卡的分配:3:1:1的黄金比例

罗福莉给出了一个非常具体的GPU算力分配建议,这在公开访谈中极为罕见。

3
研究用卡(倍数)
1
预训练用卡
1
后训练用卡
罗福莉
For研究跟For Pre-train和For Post-train,我自己觉得一个非常合理的卡的比例是3比1比1。Pre-train和Post-train应该是相当的。研究的比例应该至少是你正式训练的卡总量的还要多一点——你要额外留更多的卡来做研究。

卡已成为最关键瓶颈

在Agent范式下,Idea的诞生和代码实现被Agent极大加速("太快了"),但验证Idea需要跑大量GPU实验。

Chatbot时代 vs Agent时代的算力比

Chatbot时代预训练与后训练的算力比例是夸张的33:1到15:1。2026年,"顶尖团队应该都是1:1了"。这意味着后训练从附属环节变成了与预训练等量齐观的核心投入。

九、全模态统一的执念与妥协

MIMO VR家族包含Pro(语言)、Omni(全模态理解)和TTS(语音生成)三个模型,背后体现了罗福莉对统一架构的执念,以及面对现实的妥协。

离散化的执念

LM原教旨主义

  • 希望将所有模态统一到离散Token的LM范式下——"做音频的全是做LM的人,所以有这个执念"
  • 音频上已经成功:使用多层RVQ实现无损离散化,经过更多预训练后涌现
  • 图片正在进行中,"不知道能不能迈过去"
  • 如果全面成功,意味着可以用同一套Pre-train Infra、同一套RL Infra——"太简洁了"

一个月内的认知转变

最近一个月,罗福莉发现在Agent(Claude Code + 顶尖模型)的支持下,重写一套RL Infra或Pre-train Infra的时间被大量缩短——"几个人靠Agent两三周就能捏一套新的RL框架"。这让她开始反思:

罗福莉
Infra重新写一套也没有那么复杂。那为什么要因为后续Infra架构的统一性,去牺牲前面模型结构那么大?

Omni的意外发现

MIMO VR Omni虽然比Pro参数量小,但用户实际体验时会发现它在世界感知、情商、知识储备上反而更强。罗福莉猜测这是因为Omni训过视频,拥有更多世界知识。但在任何Benchmark上"纹丝不动"——"是不是有可能Benchmark错了?当然有可能。"

多模态是否促进智能——悬而未决

两个月前罗福莉很相信多模态理解能产生智能,但训练OMNI的过程中"稍微有点质疑"。她的最新判断:纯扩大感知维度可能不太会促进智能,但如果能生成多模态信号,"也许能促进更好的感知",从而间接促进智能。但这仍是科研问题。

十、大模型三年编年史

罗福莉从亲历者角度回顾了2022年底至今的大模型演进,提供了一个极为内行的视角。

2022年末 — ChatGPT

4K Context的预训练模型 + 简单对话交互。让人感受到模型在很短上下文中达到了类人智能水平。核心贡献:Chat是一个让人感知到智能水平的绝佳交互方式

2023年 — 开源追赶

Llama开源了Transformer架构的关键超参(Pre-Normal、Headed Size等),Qwen借此做全尺寸训练,促进社区生态。DeepSeek走另一条路——关注Llama架构的缺陷,在受限GPU上做创新,诞生了MoE for高效训练和低推理成本。两股势力彼此促进。

2024年 — Reasoning奇袭

O1和R1的诞生"在所有人意料之外"。R1在DeepSeek内部也算是一次奇袭——从Code和Math出发的Reasoning证明可以泛化到通用领域,这是O1都没有走通的路径。核心教训:组织和团队重组是首要要素

2025年 — 交错之年

可以选择在Chart方式下把Reasoning做到极致,也可以选择转向Agent范式。大部分公司年终才全面拥抱,但MIMO是"国内转得最早的"。

2026年 — Agent的第二幕

所有人意识到Claude Ops的路径是正确的。大模型战争进入第二幕——从Chat到Agent,入场券是1T+基座 + 后训练敏捷性。竞争维度和速度都在倍增。

大模型范式演进与核心能力变迁

十一、中美代差与竞争格局

罗福莉的代差判断

罗福莉
我认为如果反应速度足够快的话,应该只有两三个月的代差——就不是说两三个月后能追上两三个月后的Cloud,而是说能追上当代的Cloud。接下来两三个月会非常精彩。

代差的构成

国内的优势与差距

  • 预训练:国内在结构上有优势(如Hybrid Retention vs MLA),代差"基本没有"
  • Agent后训练:大部分人刚开始做正确的事——在复杂Agent框架上做复杂长程任务,以此为目标设计后训练范式
  • Agent框架Anthropic做了很多Context Engineering,以前被误以为是"因为模型结构不先进而做的妥协设计",现在看来是为Agent任务完成度设计的
  • 具备1T+基座的国内公司:Kimi、MIMO、以及一些其他团队

2026年的竞争胜负手

MiniMax的评价

后训练的惊艳敏捷性

罗福莉对MiniMax给予了高度评价——"用一个稍小的模型做到目前这样的Agent能力,后训练的敏捷程度是非常惊艳的"。但她同时指出,MiniMax具备的是后训练敏捷性,尚未同时具备1T+基座这个入场券。"中国公司还没有同时具备两者。"

十二、组织平权:无组无层级的创新管理

罗福莉管理的MIMO大模型团队约100人(包含大量实习生),但组织方式极为另类——没有组、没有层级、没有直接汇报

~100
团队总人数
20-30
核心投入一代模型的人
55%
含在读博士比例
0
正式组别数量

为什么不分组

罗福莉
很多人他会对两个方向都感兴趣。如果你组划分的非常清晰和固定的话,那么其实是在扼杀一部分人的创造力,或说扼杀他未来的成长空间。

平权管理的底层逻辑

  • 平权有利于创造力:任何层级都是在规范和约束,而规范和约束是压制创造力的
  • 领导不应有掌控感:"尤其是最重要的那个领导人,不要有特别强的掌控感"
  • 大部分人自然流动:做预训练数据的人天然对多样性有感觉,自然转到后训练——"不是基于你说我们这里需要人你转一下"
  • 靠热爱驱动:选择激发热情,让大家围绕自己信仰的事情自驱做事

选人标准

训练过程:停下来解决问题的勇气

训练1T模型过程中遇到Loss Spike,团队选择停下来解决问题而不是让训练继续跑。最长停过两周。"我们又没有什么目标"——没有deadline压力,追求极致的文化导向让团队敢于花两周排查一个"不知道是不是问题"的问题。罗福莉坦言会"经常晚上做梦说为什么Loss又Spike"。

十三、通往AGI:自迭代与群体智慧

AGI的时间判断

罗福莉
两个月前我觉得至少两年以上。现在感觉历程已经到了20%——今年能走到60%到70%。我感觉两年内应该能实现。

自迭代的发生路径

罗福莉描述了一个让她觉得"很残酷"的发现:

模型训模型的可能性

  • 以前认为"让Agent去训模型"是不可能的——涉及深度学习平台融合、模型需要具备研究员五年的科研Context
  • 最近发现:只要把你的Context告诉它,它甚至能帮你复原你自己的科研成长路径
  • "这个时候你再跟他讨论同样的Topic,你发现他跟你一样聪明"
  • 它先吸收所有人的智能,然后再靠自己产生更强的智能——"左脚踩右脚就提升了"
  • "这个事情肯定是就在这一两年发生的事情"

群体智慧产生AGI

罗福莉在家里做过一个实验:让家人(爸爸、妈妈、老公)每个人都有自己独立的Session,在群里委派不同任务。由于每个人的Context不一样,Agent完成任务的质量更高。"同样简单的事情换到更高复杂度更有创造力的场景,只要模型能力跟Agent框架在进化,应该也是可能成功的。"

终极判断

开源加速AGI

从终局倒推:AGI需要大规模产生经济价值,必须依赖算力。芯片会分散在不同厂商和公司手中,使用的模型一定是不一样的。因此开源是加速AGI进程的必要条件——它对框架、芯片、能源各环节都有促进作用。敢不敢开源,取决于公司是否有"别人短期内拿不下的战略生态位"。

罗福莉的个人心法

罗福莉
以前做量化的时候,给我力量的一句话是"总有方式去建模价格"。回到大模型赛道,我应该做当下符合我价值观的事情——一定是要对更多人产生价值的、更有意义的事情。每天做的事情是不是让这个世界变得更美好一点。

十四、关键数据与启示延伸

关键数据汇总

指标数据来源/Context
Opus 4.6 第一天花费~$1,000高强度使用4-5小时
研究效率提升三四周 = 过去三四十周Agent辅助下的研究速度
卡的最优比例研究:预训练:后训练 = 3:1:1罗福莉的建议
预训练vs后训练比(旧)33:1 到 15:1Chatbot时代
预训练vs后训练比(新)1:1Agent时代,顶尖团队
Agent入场券1T+ 总参数接近Cloud Ops 4.6水平
MIMO VR Flash TPS100-150得益于Hybrid结构+MTP
MIMO VR Pro TPS60-100视成本配置而定
Pro Full:Sliding比7:1从Flash的5:1提升
团队规模~100人(核心20-30人)包含大量实习生
中美代差2-3个月追上当代Cloud,非未来Cloud
AGI进度当前20%,年末60-70%罗福莉个人判断
AGI时间两年内较两个月前"至少两年以上"前移

启示与延伸思考

一、Agent框架是新的竞争维度

这不是模型公司传统认知中的"产品"或"UI",而是一个决定模型价值释放程度的中间层。罗福莉的实践表明,一个优秀的Agent框架能让3B模型做到不可思议的事情,也能让顶尖模型的上限成倍放大。这意味着未来的竞争不仅是模型能力的竞争,更是"模型+框架"的系统竞争。

二、后训练从配角变主角

从33:1到1:1的比例变化,不仅是算力分配的变化,更是方法论的根本转变。预训练阶段的架构设计必须为后训练留余地——这颠覆了MLA等"为预训练极致优化"的设计哲学。罗福莉的Hybrid Retention架构正是因为"留有富余度"而在Agent时代意外契合。

三、组织形态决定创新速度

无组别、无层级、靠热爱驱动的扁平组织,让MIMO能在"三四周做完过去三四十周的事"。预训练人做后训练、本科生做前沿研究——打破刻板分工才能在范式转变中保持敏捷。在Agent加速一切的时代,环境比经验更重要、想象力比经验更稀缺。

四、开源的战略意义被重新定义

OpenClaw的火爆证明:群体智慧改进框架的速度远超任何单一团队。Skills让人的经验成为模型能力的另类补充。开源不再仅是"推广模型"的市场策略,而是加速AGI到来的基础设施。从终局倒推,算力分散、模型多元是必然,开源是唯一合理选择。