← 返回张小珺主页
深度研究 Deep Dive

机器人基座模型与VLA经典论文全解

#98 "人就是最智能的VLA"
嘉宾:陈建宇(清华大学交叉信息研究院助理教授 / 星动纪元创始人) · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 嘉宾画像与核心命题
  2. 具身智能为何此刻爆发
  3. VLA架构:定义与终极目标
  4. 第一阶段:LLM/VLM直接驱动机器人
  5. ALOHA系列:低成本精细操作
  6. 从GATO到RT系列:Transformer路线
  7. RTX与开源数据集的力量
  8. VLM路线:从PaLM-E到RT-2
  9. Action增强:分频架构与Pi-0
  10. Diffusion Policy路线
  11. 世界模型融入VLA
  12. 统一模型与强化学习前沿
  13. 技术路线全景对比
  14. 陈建宇的学术与创业之路
  15. 星动纪元:产品与商业化路径
  16. 启示与延伸思考

一、嘉宾画像与核心命题

本期嘉宾陈建宇是清华大学交叉信息研究院助理教授、星动纪元创始人,研究方向为具身智能与人形机器人。清华精密仪器系本科(本科毕设即为双足机器人控制),UC Berkeley博士(师从机电一体化学科开创者Masayoshi Tomizuka),2020年回国任教,2023年8月创立星动纪元。

15年
陈建宇接触机器人的时间
Pre-A
星动纪元融资轮次
INTP/INTJ
MBTI(在两者间跳变)
5年
预计"遍布机器人"的时间
陈建宇
人就是一个AGI。而且我认为未来的AGI,它最终的形态就是具身的。到最终某一个时刻,所有的语言大模型、自动驾驶大模型、机器人模型都会unify起来,成为一个终极的具身模型。你可以理解它就像人一样——人可以说话、做各种视觉的事情、做各种action,还可以开车。
核心命题

"人就是最智能的VLA"

这期节目的核心观点是:人类本身就是终极的Vision-Language-Action模型。人可以处理视觉、语言、动作,还有触觉、声音等多种模态,且能泛化到任意场景。所有机器人基座模型的研究,本质上都在逼近"像人一样通用"这个目标。这个判断决定了技术路线的选择——必须走端到端的、统一的Foundation Model路线,而非专用模型的拼接。

二、具身智能为何此刻爆发

陈建宇梳理了AI与机器人交汇的完整历史脉络,解释了为何半个多世纪的机器人研究在此刻迎来爆发。

1956年 第一台机器人

机器人诞生,但与AI长期无关。此后数十年,各类轮式机器人、工业机械臂等一波又一波涌现,但均为专用系统。

~2012年 Deep Learning兴起

深度学习最先影响机器人的感知层(Computer Vision),无人车开始用深度学习做视觉感知。但与机器人的控制、决策等部分仍无关联。

2016年 AlphaGo

深度强化学习的标志性事件。AlphaGo证明了神经网络+强化学习可以解决连续空间的行为决策问题——而机器人正是在连续空间中做行为决策。陈建宇博士期间正是因此转向强化学习做机器人控制。

2022-2023年 ChatGPT

证明了一种AI方法可以做到足够通用。"虽然它还不是机器人模型,但它秀出来了我们有某种AI的方法能够做到足够的通用。"这让整个社区开始相信通用机器人模型是可能的。

2023年下半年 具身智能爆发

大语言模型火了半年后辐射到机器人领域。数十家机器人/人形机器人创业公司涌现。

为什么之前不行,现在可以

旧范式的根本瓶颈

  • 100种场景 = 100种机器人 + 100套代码:之前的机器人完全专用化,无法Scale
  • 即使有了Robot Learning,仍是一个本体+一个任务=一个模型
  • 工业机器人出货量最多的公司,与手机、PC、汽车相比仍"微不足道"——原因就是完全专用化

新范式的双重突破

  • 模型层面:ChatGPT证明通用模型可行,大家看到了不用专用开发、专用代码的曙光
  • 本体层面:人形机器人是一种非常通用的本体,不需要针对每种任务重新设计形态

技术收敛先于商业收敛

陈建宇判断:技术路线正在逐渐收敛但还未完全收敛;商业化也在同步探索,但大体上是"先技术收敛,再商业收敛"。技术进展会启发商业模式,商业闭环也会反哺数据和技术方向。

三、VLA架构:定义与终极目标

核心概念

什么是VLA

VLA = Vision-Language-Action。在陈建宇的定义中,VLA模型必须是一个端到端的模型,能够同时处理视觉、语言和动作三种模态。虽然字面上只有三种模态,但陈建宇希望将触觉、声音、深度等更多模态都纳入其中——"字母别无限延长了,把这些都加在里面。"

从专用AI到Foundation Model的范式跃迁

旧范式:专用模型

  • 分割一个模型、分类一个模型、VQA一个模型
  • 每个模型收集不同数据、单独训练
  • 每个模型能力都不特别强
  • 机器人:每种本体+每种任务=单独一个模型

新范式:Foundation Model

  • 一个巨大的预训练模型
  • 大量多模态数据训练
  • 下游任务通过Fine-tuning或Prompting
  • 目标:直接Prompt就能泛化到新任务(Zero-shot)

Robot Foundation Model的目标架构

陈建宇将机器人系统分为三个经典模块:Perception(感知)、Decision Making / Planning(决策/规划)、Actuation(执行)。研究的演进路径是逐步用AI替代每个模块,最终实现端到端统一。

机器人AI演进:从模块替代到端到端统一

最核心的科学问题

陈建宇认为通向通用机器人最重要的问题是:能够Scale的模型架构。这既是科学问题也是工程问题。架构决定了数据收集方式、本体形态、下游技术方案等所有其他环节。"这个去决定所有其他下游的各种事情。"

四、第一阶段:LLM/VLM直接驱动机器人

最自然的想法是:既然大语言模型这么强,能不能直接用来驱动机器人?这是研究的第一个阶段——利用现有Foundation Model,与传统机器人方法结合。

规划层替代:SayCan(Google,2022)

Say Can, Not As I Say

  • 语言模型规划出"可以做的事情"(Say)
  • Value Function评估"机器人能做的事情"(Can)
  • 两者做匹配,规划出既能完成目标、机器人又能执行的任务序列
  • 局限:从最开始规划12345步,然后按步执行,不考虑中间反馈

反馈增强:Inner Monologue

内心独白

  • 执行Action后获取环境反馈(如钥匙插不进去),重新推理和规划
  • 类似CoT(Chain of Thought)的过程
  • 比SayCan多了一步:可以根据执行结果纠正后续计划
  • 局限:反馈在任务完成后才触发,如果中间出问题(如箱子掉了),等到最后才发现

实时反馈:陈建宇团队的改进(2023上半年)

更及时的反馈机制

  • 用VLM作为实时Detector,以约10Hz频率监测任务执行
  • LLM负责思考和Task Planning,VLM负责感知环境——两者配合使用
  • 例:搬箱子过程中箱子掉了,可以及时发现并重新规划

代码生成:VoxPoser(李飞飞,2023)

让AI写机器人代码

  • VLM获取空间信息,LLM获取任务推理信息
  • 两者共同写一个程序,调用机器人底层控制
  • 生成Affordance Map(目标点)和Constraint Map(障碍物)
  • 用轨迹优化方法执行——"Coding是赛博世界的环境"
陈建宇
这样的方法比较难让我们达到最终真正的通用。因为你没有去构建一个真正对机器人的单独的一个模型。你还是做的语言模型,只是把它跟机器人的一些工具拼接了一下,是一个间接的使用。

五、ALOHA系列:低成本精细操作的标杆

ALOHA虽然严格来说不是VLA(没有Language模态),但因其开创性影响必须单独介绍。

ALOHA第一代(2023)——ACT架构

关键架构

Action Chunking Transformer(ACT)

标准的Encoder-Decoder Transformer架构。输入:4个摄像头图像通过CNN编码;输出:未来一段时间的Action Sequence。创新点是Temporal Ensemble——将历史多个时刻的规划做加权平均,使轨迹更加平滑(Smooth)。本质上是模型预测控制(MPC)的思想,用模仿学习替代了传统优化方法。

Mobile ALOHA第二代(2024.1)——出圈之作

关键创新:人直接推着走

  • 双臂下面加了移动底盘,人直接推着底盘走
  • 手臂通过一一映射的遥操作方式控制——人手怎么动,机械臂就怎么动
  • 比遥控器控制更精准——人有直接的体感反馈
  • 经典Demo:炒虾视频让ALOHA彻底出圈,"感觉谁都知道这个ALOHA"

ALOHA的局限

尽管精细操作能力令人印象深刻,ALOHA仍然是一个模型做一个任务,不能接受语言指令做通用任务。它的价值在于提供了优秀的数据收集方式和低成本硬件范式,但不是最终的通用机器人方案。

六、从GATO到RT系列:Transformer路线

GATO(DeepMind,2022)——超前但时代未到

一个通用Agent的愿景

  • 思想极其超前:一个统一模型做视觉任务、语言对话、VQA、机器人行为控制
  • 直接用一个Transformer把各种模态全部加进去训练
  • 问题:2022年ChatGPT都未出现,技术基础不成熟
  • 每一块性能都不特别好——"当时看到这篇论文觉得有点扯"
  • 但ChatGPT出来后回看,这个方向被证明是对的

RT-1(Google/DeepMind,2022-2023)

维度具体内容
本质专门针对机器人的Transformer模型,从GATO回退聚焦
数据130K episodes,700个task,13台机器人,收集了17个月
性能见过的任务接近100%成功率,未见过的任务约75%
架构Transformer前面加CNN处理视觉,底层Attention机制与语言模型一致
关键发现Diversity is King——数据多样性比数据量更重要
陈建宇
Diversity会比数据的Size要重要很多。你如果同一个任务、同一个物体、甚至同样的摆放位置重复很多遍,那这个其实很多工作是无用的。

OCTO——开源版RT-1

核心创新:可扩展的Action Space

  • 本质上是开源的Generalist Robot Policy
  • 允许在下游Fine-tuning时加入新的Action Space(如从末端执行器控制切换到关节角度控制)
  • 还是Google/Berkeley那帮人主导,包括后来创立Pi的Sergey Levine团队

CrossFormer——跨本体学习

一个大脑,多个小脑

  • 目标:同一个模型控制不同形态的机器人(机械臂、四足、飞行器等)
  • 架构:前端共享参数(大脑),输出端用不同的Action Head(小脑)
  • 结论:跨形态数据融合训练,在部分任务上比单一本体训练效果更好——数据间存在可迁移的共性

七、RTX与开源数据集的力量

RTX论文的特殊之处在于它的作者列表异常庞大——本质上是一个社区级的数据集工程。

60+
来自不同实验室的数据集
多种
不同Embodiment形态
开源
数据集+模型全部开放

RTX的贡献与局限

关键发现:Cross-Embodiment的Scaling效应

陈建宇
在各种各样的数据集上训练的通用模型,会比在单一数据集上训练的专用模型要更好。这也是我们想要达到的目标——不仅有一个模型能干多种事情,而且因为数据多,Scaling能提升Performance。

Open VLA——开源版RT-2

填补开源空白

  • RT-1模型和训练开源了,但RT-2没有开源
  • Open VLA是开源版RT-2,由学校为主体(还是那帮人参与)
  • 调优后性能甚至比原版RT-2更好,达到SOTA
  • 对社区发展有重要促进作用

八、VLM路线:从PaLM-E到RT-2

与纯Transformer路线不同,VLM路线的核心优势是借用预训练好的语言模型的能力,包括推理、常识、视觉理解等。

PaLM-E(Google,2023)——具身多模态语言模型

VLM + RT-1的分层架构

  • PaLM-E本质是VLM(562B参数),能做看图说话、任务规划、VQA等
  • 下游接RT-1做具体控制——VLM输出语言指令,RT-1执行动作
  • 优势:能处理复杂推理任务(如"按颜色分拣积木到角落",需理解颜色、角、归类)
  • 局限:仍是分层架构,VLM和控制器没有端到端训练

RT-2(Google,2023)——VLA的开山之作

里程碑论文

Vision-Language-Action Models

RT-2直接用VLM输出动作Token——不再需要RT-1作为下游控制器。VLM本来就可以输出各种Token,把Token直接映射为机器人动作。训练时采用Co-Finetuning:同时在机器人数据和VLM原始数据上训练,避免在Action上过拟合而丧失视觉/语言理解能力。

RT-2的能力展示

VLA技术路线演进与关键论文时间线

RT-2的根本局限

陈建宇复现RT-2后发现:这种方式太缺少对Action的专门处理。VLM运行比较慢(RT-2大约1-3Hz,一秒输出一两次动作),对动态任务和精细操作效果不佳。这直接催生了下一阶段的"Action增强"路线。

九、Action增强:分频架构与Pi-0

RT-2的核心问题是VLM太大太慢,Action处理太粗糙。解决方案:在VLM后面加一个专门的Action Policy模块。

Hierarchical Robot Transformer(陈建宇团队,2024上半年)

分频率处理的关键创新

  • VLM以低频率运行(参数大,几个B级别)
  • Action Policy以高频率运行(参数小,几十M级别)
  • VLM的Latent信息传给Action Policy,Action Policy同时接收视觉反馈形成闭环
  • 本质上仍是端到端模型(输入输出直接端到端,梯度可回传)

RT-2(纯VLM输出)

  • 推理频率低(1-3Hz)
  • 无专门Action处理
  • 动态任务效果差
  • Success Rate一般

分频架构(VLM+Action Policy)

  • Action频率高,VLM频率低
  • 专门的Action解码模块
  • 动态追踪任务效果显著提升
  • Success Rate与推理速度同时提高

Figure Helix(2025年2-3月)

Figure发布的最新架构Helix——System 1和System 2,与分频架构基本一致:预训练VLM + 约80M的Transformer Action Module + 分频率处理。没有发论文。

Pi-0(Physical Intelligence,2024年10-11月)

Pi团队的重磅工作

  • 前面是预训练VLM,后面是Diffusion/Flow Matching架构的Action Expert
  • 与分频架构作用一致,但没有做分频率处理
  • 叠衣服Demo——从洗衣机取出衣服并折叠
  • 精细化操作一直是Pi团队(即ALOHA那帮人)的强项

NVIDIA GR00T

NVIDIA发布的机器人模型也属于这一类:VLM + Diffusion Transformer作为Action Policy,并加了Action的Encoder-Decoder做更精细化的处理。同时加入了大量仿真器自动生成的数据。

十、Diffusion Policy路线

Diffusion与Transformer不是对立关系——Transformer是底层网络架构,Diffusion是训练方式。Diffusion的核心优势是生成式能力极强,特别适合生成机器人的动作轨迹。

核心方法

Diffusion Policy

将Diffusion Model的加噪-去噪训练方式用于生成机器人的Action Sequence。输入当前状态(图像等),通过多步去噪过程生成一系列动作。去噪网络可以是CNN/UNet或Transformer。使用时以MPC方式执行:每个时刻生成未来一段动作序列,执行当前帧,下一时刻重新生成。

Diffusion Policy的能力展示

RDT(清华朱军团队)——Scaling Diffusion Policy

将Diffusion Policy放大到1B参数

  • 在RTX等大规模数据集上预训练+Fine-tuning
  • 网络架构:Diffusion Transformer(DiT),每个去噪步骤用一个Transformer Block
  • 提出Unified Action Space:用一个长向量分配给不同本体(单臂、双臂、轮式等)
  • 陈建宇认为Action Head方式可能更好——Unified向量可能"不够用"或需要准备过长
VLA模型架构分类与代表工作

十一、世界模型融入VLA

陈建宇认为对未来的预测能力是构建具身智能很重要的能力之一。人类每时每刻都在做预测——开车时预判行人是否会窜出来,看到杯子在桌边会担心掉落。

GR-1 / GR-2(字节跳动AI Lab)

Transformer + 未来预测

  • 第一阶段:在视频数据上预训练——输入当前帧+语言描述,输出未来帧图像
  • 第二阶段:加入机器人Action数据Fine-tune
  • 比纯Transformer多了一环:输出可以是Image(预测未来),不只是Action
  • GR-2是GR-1的放大版——更大模型、更大数据集,方法不变
  • 字节是国内在VLA方向大公司实验室里做得最好的

Prediction with Action(陈建宇团队)

新架构

Joint Diffusion:同时生成动作和未来预测

在Diffusion架构下,用Joint Denoising同时生成Action和对未来的多模态预测(图像、深度、甚至触觉)。输入可以灵活扩展(语言、视觉、机器人状态、深度相机、触觉等),输出也可以灵活扩展。本质上是将世界模型融入VLA模型

预测能力的具体效果

Video Prediction Policy(续作)

借用预训练好的视频生成模型

  • 类比:VLM路线借用预训练好的语言模型;这里借用预训练好的视频Diffusion模型
  • 步骤:(1)将视频生成网络Fine-tune到机器人域;(2)通过Cross Attention与Diffusion Policy深度融合
  • Zero-shot示例:用凝胶手舀红色液体到蓝色碗里——从未收集过任何数据,模型知道什么是勺子、怎么抓取
  • 工具使用任务:拿锤子敲钉子、拿螺钉枪打螺钉——"完全超脱了Pick-and-Place"
  • 同一个模型架构可以学会上百种任务

十二、统一模型与强化学习前沿

UP-VLA:统一Understanding、Prediction和Action

回到GATO的愿景,但有更好的基础

  • 在VLA基础上,统一VQA(理解能力)、Video Prediction(预测能力)和Action(动作能力)
  • 想法类似GATO,但有预训练好的语言模型/VLM作为基础
  • 各功能互相增强——理解能力帮助动作,预测能力帮助理解
  • 不仅能执行动作,还能描述图像、预测未来几秒的变化

强化学习:突破模仿学习的天花板

陈建宇
之前讲的所有方法,全都是Supervised Learning或模仿学习。我们知道强化学习是非常重要的一种方式——你某一时刻到未来某一时刻,纯靠监督学习的话,性能可能没法提上去了。强化学习可能能帮助我们突破这个瓶颈。

陈建宇团队的RL方法

  • 直接用PPO训练整个网络——不Work,甚至越训越差
  • 解决方案:两步法
    1. 冻住VLM,只用RL训练Action Head——可以Work
    2. 存下成功的Trajectory,放开VLM,用Supervised Learning方式回训
  • 效果:SFT(模仿学习)约50分,RL方法可接近100分
  • 在未见过的任务上优势尤其明显
  • 未来目标:真正让RL直接端到端训练整个网络

类比DeepSeek-R1

这个逻辑与大语言模型的训练范式完全一致:先SFT(模仿学习),再RLHF/RL(强化学习突破上限)。陈建宇明确做了这个类比,只不过当时DeepSeek-R1还未发布。对机器人来说,RL的难度更大——因为机器人的Reward函数不像语言那样容易定义。

十三、技术路线全景对比

路线代表工作核心思路优势局限
LLM/VLM直接驱动SayCan, Inner Monologue, VoxPoser用现有LLM/VLM做规划,传统方法做执行无需训练新模型,开箱即用间接使用,无法真正通用
纯TransformerGATO, RT-1, OCTO, CrossFormer从头训练Transformer做VLA端到端,架构简洁缺少预训练语言/视觉能力
Transformer+预测GR-1, GR-2Transformer + 未来帧预测具备物理世界时序理解预测时序较短
VLM直接输出PaLM-E, RT-2, Open VLA预训练VLM直接输出Action Token继承丰富常识和泛化能力推理慢(1-3Hz),Action处理粗
VLM+Action增强HiRT, Pi-0, Helix, GR00TVLM + 专门Action Policy模块速度快,Action精细系统复杂度增加
Diffusion PolicyDiffusion Policy, RDT用Diffusion生成Action轨迹长时序精细操作强生成式方法推理开销大
世界模型融合PwA, VPPJoint Diffusion同时生成Action和预测理解物理世界,泛化强训练复杂度高
统一+RLUP-VLA, RL for VLA统一所有能力+强化学习突破上限最接近终极目标仍在早期探索

关键共识与争议

已形成的共识

  • 底层Attention机制是通用的
  • 数据Diversity比Size更重要
  • 跨本体数据融合有正向收益
  • 端到端是最终方向
  • 预训练语言/视觉模型应该被利用

尚未收敛的争议

  • Unified Action Space vs Action Head
  • Diffusion vs 直接Supervised Learning
  • 世界模型是否必须融入VLA
  • RL如何端到端训练整个网络
  • VLM冻住还是一起训练
~20篇
陈建宇筛选的VLA经典论文
Google/Pi
VLA领域积累最深的团队
字节
国内大公司VLA做得最好的

十四、陈建宇的学术与创业之路

本科:清华精密仪器系

"什么都学"——机械、电子、控制、嵌入式、单片机。毕设做双足机器人控制。精仪系是国内最早做双足机器人研究的单位之一(20多年前就开始)。

2015年 赴UC Berkeley读博

师从Masayoshi Tomizuka(机电一体化学科开创者、美国院士)。实验室名为Mechatronic System Control——研究软硬一体的机器人系统。前两年做MPC(模型预测控制),后来因AlphaGo转向深度强化学习。

2017-2018年 端到端自动驾驶探索

AlphaGo出来后研究RL做机器人控制,并成为最早研究端到端自动驾驶的研究者之一。但当时技术基础不成熟,只能在仿真中做探索。

2020年 回国任教

拿了Waymo Offer但放弃——不想去大厂,想做更自由的研究。外部因素:疫情期间美国情况不佳。加入清华交叉信息研究院。

2022年底 决定创业

两个驱动力:(1)看到特斯拉、小米发布机器人,预判产业将起来;(2)发现自己不仅对技术感兴趣,对产品、商业化也很想做——"机器人做了十几年,一直停留在实验室,我觉得不应该这样。"

2023年8月 星动纪元成立

软硬件一体开发:人形机器人本体(双足、双手、关节、电机、灵巧手都自研)+ 运动控制RL模型 + 上层VLA大模型。目前Pre-A轮融资进行中。

陈建宇
我能想象出很多很多种机器人的应用方式,很多种都很有趣,我也觉得都很有机会。但如果仅在高校实验室是搞不出来的——涉及大量工程、制造、产品化。我也等不及某个大厂开始做然后我跟他学术合作。所以我想自己去做。

十五、星动纪元:产品与商业化路径

三阶段商业化路径:To A → To B → To C

To A(Academia)——当前阶段

面向高校研究者、企业研究者、创新者。灵巧手已批量销售,国内外高校和公司客户较多,商业闭环已跑通。用户分两类:研究技术改进的科研用户,和考虑新品类应用的制造企业用户。

To B——已开始探索

与制造类、服务类企业合作方共同开发满足商业化场景的机器人产品。合作方提供场景、数据和商业认知。

To C——未来目标

家庭场景对泛化性要求极高,需要技术更加成熟后才能进入。

为什么选择软硬一体

现有产业链不成熟

  • 市场上买不到令人满意的关节、电机、灵巧手——只能自研
  • 机器人本身是软硬一体的系统,软件和硬件需要同步迭代、考虑耦合
  • 端到端趋势对做控制的人有利——子系统越少,分析越简洁

对行业关键问题的判断

Scaling Law成立了吗?

"看到了这样的迹象"——模型和数据的Scaling确实带来性能提升,但Aha Moment还没到(类比语言模型是在DeepSeek-R1时才发现的)。

按场景定义机器人?

"那是上一代机器人做的事情。"不算证明Fail,至少证明没法Scale。新一代必须走通用路线。

沿途下蛋:机器人可能比大模型更顺

陈建宇认为,机器人的"沿途下蛋"(能力提升过程中逐步解锁应用)比大语言模型更快。原因:大语言模型对智能性要求极高(必须接近人类语言水平才有用),但机器人只需要在某个动作上达到人类程度就行——很多动作不需要高智能。现有的零AI工业机器人都能有万台级出货量,新技术带来的能力提升必然解锁更多应用。

十六、启示与延伸思考

1. "人就是最智能的VLA"是一个深刻的研究纲领

陈建宇不是在做修辞——这个判断直接决定了技术路线。如果AGI的终极形态是具身的(像人一样能说话、能看、能做、能开车),那所有模态最终必须统一到一个模型中。当前VLA只是V+L+A三种模态的起点,未来必须加入触觉、力觉、本体感觉等更多模态。这意味着"通用机器人"的定义远比"能叠衣服的机械臂"更宏大。

2. "Diversity is King"可能是整个AI时代最被低估的原则

RT-1的实验清楚地证明了:数据多样性比数据量更重要。这个原则在自动驾驶领域同样适用(Expert Driver数据大量趋同,Corner Case数据极少)。对创业公司的启示是:与其盲目堆量,不如投入更多精力在数据的多样性设计上——不同物体、不同摆放、不同场景、不同本体的数据,价值远高于同质重复。

3. 从SayCan到RT-2的演进揭示了一个通用规律

先用现成工具拼接(SayCan/VoxPoser),再做端到端(RT-2),再加专门模块增强短板(Pi-0/HiRT),再融入世界模型(PwA),再用RL突破上限——这个演进路径与自动驾驶、大语言模型的发展路径高度相似。每个领域都经历了"先借用→再重构→再增强→再RL"的过程。这或许是深度学习时代技术演进的元模式。

4. "一个大脑+多个小脑"可能是跨本体通用的正确范式

CrossFormer的实验证明:共享大部分参数(大脑),为不同本体配不同的Action Head(小脑),效果优于单独训练。陈建宇明确偏好Action Head方式而非Unified Action Space——因为后者面临向量长度预估困难。这个"大脑-小脑"架构可能成为通用机器人的标准范式。

5. RL对机器人的意义可能比对语言模型更大

SFT(模仿学习)只能做到约50分,RL可以推到接近100分——这个提升幅度是巨大的。但直接用PPO训整个网络不Work(甚至越训越差),必须用两步法间接处理。这意味着机器人领域的RL还处于非常早期的阶段,突破方法可能带来Aha Moment级别的性能跃迁。

6. Google/Berkeley/Stanford/Pi这个"超级团队"几乎定义了整个VLA领域

SayCan、GATO、RT-1/2/X、ALOHA、OCTO、CrossFormer、Open VLA、Pi-0——这些里程碑论文基本都出自同一个松散的研究社区:Sergey Levine(Berkeley/Pi)、Chelsea Finn(Stanford)及其学生、Google/DeepMind机器人团队。他们不仅产出了最多最重要的论文,还开源了最关键的数据集和模型。国内在这个方向上,字节做得相对最好。

7. "沿途下蛋"的逻辑对机器人创业至关重要

陈建宇提出了一个关键洞察:机器人不需要等到AGI级别的智能才能商业化。零AI的工业机器人就有万台出货量。新的VLA技术每提升一个台阶,就可能解锁新的应用场景。这与纯数字AI不同——后者需要接近人类语言水平才有用,而机器人只需要在某个具体动作上达到人类水平。To A → To B → To C的路径设计,正是这个逻辑的体现。

8. 世界模型不是独立的研究方向,而应融入VLA

陈建宇的Prediction with Action工作展示了一个重要方向:世界模型(对未来的预测能力)不应该是一个独立模块,而应该Joint训练在VLA模型内部。预测能力反过来帮助做更好的决策——就像人开车时时刻预判行人是否会窜出来。这种"理解世界才能更好行动"的理念,可能是通向真正通用机器人的关键一环。

延伸阅读