深度研究 — #98 逐篇讲解机器人基座模型和<a href="https://arxiv.org/abs/2403.12945" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">VLA</a>经典论文

嘉宾画像与核心命题
具身智能为何此刻爆发
VLA架构：定义与终极目标
第一阶段：LLM/VLM直接驱动机器人
ALOHA系列：低成本精细操作
从GATO到RT系列：Transformer路线
RTX与开源数据集的力量
VLM路线：从PaLM-E到RT-2
Action增强：分频架构与Pi-0
Diffusion Policy路线
世界模型融入VLA
统一模型与强化学习前沿
技术路线全景对比
陈建宇的学术与创业之路
星动纪元：产品与商业化路径
启示与延伸思考

一、嘉宾画像与核心命题

本期嘉宾陈建宇是清华大学交叉信息研究院助理教授、星动纪元创始人，研究方向为具身智能与人形机器人。清华精密仪器系本科（本科毕设即为双足机器人控制），UC Berkeley博士（师从机电一体化学科开创者Masayoshi Tomizuka），2020年回国任教，2023年8月创立星动纪元。

15年

陈建宇接触机器人的时间

Pre-A

星动纪元融资轮次

INTP/INTJ

MBTI（在两者间跳变）

5年

预计"遍布机器人"的时间

陈建宇

人就是一个AGI。而且我认为未来的AGI，它最终的形态就是具身的。到最终某一个时刻，所有的语言大模型、自动驾驶大模型、机器人模型都会unify起来，成为一个终极的具身模型。你可以理解它就像人一样——人可以说话、做各种视觉的事情、做各种action，还可以开车。

核心命题

"人就是最智能的VLA"

这期节目的核心观点是：人类本身就是终极的Vision-Language-Action模型。人可以处理视觉、语言、动作，还有触觉、声音等多种模态，且能泛化到任意场景。所有机器人基座模型的研究，本质上都在逼近"像人一样通用"这个目标。这个判断决定了技术路线的选择——必须走端到端的、统一的Foundation Model路线，而非专用模型的拼接。

二、具身智能为何此刻爆发

陈建宇梳理了AI与机器人交汇的完整历史脉络，解释了为何半个多世纪的机器人研究在此刻迎来爆发。

1956年第一台机器人

机器人诞生，但与AI长期无关。此后数十年，各类轮式机器人、工业机械臂等一波又一波涌现，但均为专用系统。

~2012年 Deep Learning兴起

深度学习最先影响机器人的感知层（Computer Vision），无人车开始用深度学习做视觉感知。但与机器人的控制、决策等部分仍无关联。

2016年 AlphaGo

深度强化学习的标志性事件。AlphaGo证明了神经网络+强化学习可以解决连续空间的行为决策问题——而机器人正是在连续空间中做行为决策。陈建宇博士期间正是因此转向强化学习做机器人控制。

2022-2023年 ChatGPT

证明了一种AI方法可以做到足够通用。"虽然它还不是机器人模型，但它秀出来了我们有某种AI的方法能够做到足够的通用。"这让整个社区开始相信通用机器人模型是可能的。

2023年下半年具身智能爆发

大语言模型火了半年后辐射到机器人领域。数十家机器人/人形机器人创业公司涌现。

为什么之前不行，现在可以

旧范式的根本瓶颈

100种场景 = 100种机器人 + 100套代码：之前的机器人完全专用化，无法Scale
即使有了Robot Learning，仍是一个本体+一个任务=一个模型
工业机器人出货量最多的公司，与手机、PC、汽车相比仍"微不足道"——原因就是完全专用化

新范式的双重突破

模型层面：ChatGPT证明通用模型可行，大家看到了不用专用开发、专用代码的曙光
本体层面：人形机器人是一种非常通用的本体，不需要针对每种任务重新设计形态

技术收敛先于商业收敛

陈建宇判断：技术路线正在逐渐收敛但还未完全收敛；商业化也在同步探索，但大体上是"先技术收敛，再商业收敛"。技术进展会启发商业模式，商业闭环也会反哺数据和技术方向。

三、VLA架构：定义与终极目标

核心概念

什么是VLA

VLA = Vision-Language-Action。在陈建宇的定义中，VLA模型必须是一个端到端的模型，能够同时处理视觉、语言和动作三种模态。虽然字面上只有三种模态，但陈建宇希望将触觉、声音、深度等更多模态都纳入其中——"字母别无限延长了，把这些都加在里面。"

从专用AI到Foundation Model的范式跃迁

旧范式：专用模型

分割一个模型、分类一个模型、VQA一个模型
每个模型收集不同数据、单独训练
每个模型能力都不特别强
机器人：每种本体+每种任务=单独一个模型

新范式：Foundation Model

一个巨大的预训练模型
大量多模态数据训练
下游任务通过Fine-tuning或Prompting
目标：直接Prompt就能泛化到新任务（Zero-shot）

Robot Foundation Model的目标架构

陈建宇将机器人系统分为三个经典模块：Perception（感知）、Decision Making / Planning（决策/规划）、Actuation（执行）。研究的演进路径是逐步用AI替代每个模块，最终实现端到端统一。

机器人AI演进：从模块替代到端到端统一

最核心的科学问题

陈建宇认为通向通用机器人最重要的问题是：能够Scale的模型架构。这既是科学问题也是工程问题。架构决定了数据收集方式、本体形态、下游技术方案等所有其他环节。"这个去决定所有其他下游的各种事情。"

四、第一阶段：LLM/VLM直接驱动机器人

最自然的想法是：既然大语言模型这么强，能不能直接用来驱动机器人？这是研究的第一个阶段——利用现有Foundation Model，与传统机器人方法结合。

规划层替代：SayCan（Google，2022）

Say Can, Not As I Say

语言模型规划出"可以做的事情"（Say）
Value Function评估"机器人能做的事情"（Can）
两者做匹配，规划出既能完成目标、机器人又能执行的任务序列
局限：从最开始规划12345步，然后按步执行，不考虑中间反馈

反馈增强：Inner Monologue

内心独白

执行Action后获取环境反馈（如钥匙插不进去），重新推理和规划
类似CoT（Chain of Thought）的过程
比SayCan多了一步：可以根据执行结果纠正后续计划
局限：反馈在任务完成后才触发，如果中间出问题（如箱子掉了），等到最后才发现

实时反馈：陈建宇团队的改进（2023上半年）

更及时的反馈机制

用VLM作为实时Detector，以约10Hz频率监测任务执行
LLM负责思考和Task Planning，VLM负责感知环境——两者配合使用
例：搬箱子过程中箱子掉了，可以及时发现并重新规划

代码生成：VoxPoser（李飞飞，2023）

让AI写机器人代码

VLM获取空间信息，LLM获取任务推理信息
两者共同写一个程序，调用机器人底层控制
生成Affordance Map（目标点）和Constraint Map（障碍物）
用轨迹优化方法执行——"Coding是赛博世界的环境"

陈建宇

这样的方法比较难让我们达到最终真正的通用。因为你没有去构建一个真正对机器人的单独的一个模型。你还是做的语言模型，只是把它跟机器人的一些工具拼接了一下，是一个间接的使用。

五、ALOHA系列：低成本精细操作的标杆

ALOHA虽然严格来说不是VLA（没有Language模态），但因其开创性影响必须单独介绍。

ALOHA第一代（2023）——ACT架构

关键架构

Action Chunking Transformer（ACT）

标准的Encoder-Decoder Transformer架构。输入：4个摄像头图像通过CNN编码；输出：未来一段时间的Action Sequence。创新点是Temporal Ensemble——将历史多个时刻的规划做加权平均，使轨迹更加平滑（Smooth）。本质上是模型预测控制（MPC）的思想，用模仿学习替代了传统优化方法。

核心亮点：极低成本硬件（约3万美金一套）却能执行非常精细的操作
Chelsea Finn（Stanford）团队的工作
"ALOHA"源自夏威夷语的打招呼
可以夹起电池放入电池盒、双臂配合等精细任务
硬件、算法、系统搭建方案全部开源
第一代在圈内引起关注，但未出圈

Mobile ALOHA第二代（2024.1）——出圈之作

关键创新：人直接推着走

双臂下面加了移动底盘，人直接推着底盘走
手臂通过一一映射的遥操作方式控制——人手怎么动，机械臂就怎么动
比遥控器控制更精准——人有直接的体感反馈
经典Demo：炒虾视频让ALOHA彻底出圈，"感觉谁都知道这个ALOHA"

ALOHA的局限

尽管精细操作能力令人印象深刻，ALOHA仍然是一个模型做一个任务，不能接受语言指令做通用任务。它的价值在于提供了优秀的数据收集方式和低成本硬件范式，但不是最终的通用机器人方案。

六、从GATO到RT系列：Transformer路线

GATO（DeepMind，2022）——超前但时代未到

一个通用Agent的愿景

思想极其超前：一个统一模型做视觉任务、语言对话、VQA、机器人行为控制
直接用一个Transformer把各种模态全部加进去训练
问题：2022年ChatGPT都未出现，技术基础不成熟
每一块性能都不特别好——"当时看到这篇论文觉得有点扯"
但ChatGPT出来后回看，这个方向被证明是对的

RT-1（Google/DeepMind，2022-2023）

维度	具体内容
本质	专门针对机器人的Transformer模型，从GATO回退聚焦
数据	130K episodes，700个task，13台机器人，收集了17个月
性能	见过的任务接近100%成功率，未见过的任务约75%
架构	Transformer前面加CNN处理视觉，底层Attention机制与语言模型一致
关键发现	Diversity is King——数据多样性比数据量更重要

陈建宇

Diversity会比数据的Size要重要很多。你如果同一个任务、同一个物体、甚至同样的摆放位置重复很多遍，那这个其实很多工作是无用的。

OCTO——开源版RT-1

核心创新：可扩展的Action Space

本质上是开源的Generalist Robot Policy
允许在下游Fine-tuning时加入新的Action Space（如从末端执行器控制切换到关节角度控制）
还是Google/Berkeley那帮人主导，包括后来创立Pi的Sergey Levine团队

CrossFormer——跨本体学习

一个大脑，多个小脑

目标：同一个模型控制不同形态的机器人（机械臂、四足、飞行器等）
架构：前端共享参数（大脑），输出端用不同的Action Head（小脑）
结论：跨形态数据融合训练，在部分任务上比单一本体训练效果更好——数据间存在可迁移的共性

七、RTX与开源数据集的力量

RTX论文的特殊之处在于它的作者列表异常庞大——本质上是一个社区级的数据集工程。

60+

来自不同实验室的数据集

多种

不同Embodiment形态

开源

数据集+模型全部开放

RTX的贡献与局限

将美国各实验室的机器人数据汇总，在RT-1/RT-2模型上重新训练
Google开源了自己内部的高质量数据（工程化团队收集，质量较好）
缺陷：Embodiment基本都是机械臂+夹爪，形态单一；很多Lab数据质量一般
成为机器人领域的标配数据集，基本上后续所有工作都会用到

关键发现：Cross-Embodiment的Scaling效应

陈建宇

在各种各样的数据集上训练的通用模型，会比在单一数据集上训练的专用模型要更好。这也是我们想要达到的目标——不仅有一个模型能干多种事情，而且因为数据多，Scaling能提升Performance。

Open VLA——开源版RT-2

填补开源空白

RT-1模型和训练开源了，但RT-2没有开源
Open VLA是开源版RT-2，由学校为主体（还是那帮人参与）
调优后性能甚至比原版RT-2更好，达到SOTA
对社区发展有重要促进作用

八、VLM路线：从PaLM-E到RT-2

与纯Transformer路线不同，VLM路线的核心优势是借用预训练好的语言模型的能力，包括推理、常识、视觉理解等。

PaLM-E（Google，2023）——具身多模态语言模型

VLM + RT-1的分层架构

PaLM-E本质是VLM（562B参数），能做看图说话、任务规划、VQA等
下游接RT-1做具体控制——VLM输出语言指令，RT-1执行动作
优势：能处理复杂推理任务（如"按颜色分拣积木到角落"，需理解颜色、角、归类）
局限：仍是分层架构，VLM和控制器没有端到端训练

RT-2（Google，2023）——VLA的开山之作

里程碑论文

Vision-Language-Action Models

RT-2直接用VLM输出动作Token——不再需要RT-1作为下游控制器。VLM本来就可以输出各种Token，把Token直接映射为机器人动作。训练时采用Co-Finetuning：同时在机器人数据和VLM原始数据上训练，避免在Action上过拟合而丧失视觉/语言理解能力。

RT-2的能力展示

"把香蕉放到德国"——能识别德国国旗
"把可乐移到Taylor Swift旁边"——能识别名人照片
因为VLM在大量互联网数据上预训练，机器人模型也继承了这些常识
在未见过的任务上优势明显——泛化性远超RT-1

VLA技术路线演进与关键论文时间线

RT-2的根本局限

陈建宇复现RT-2后发现：这种方式太缺少对Action的专门处理。VLM运行比较慢（RT-2大约1-3Hz，一秒输出一两次动作），对动态任务和精细操作效果不佳。这直接催生了下一阶段的"Action增强"路线。

九、Action增强：分频架构与Pi-0

RT-2的核心问题是VLM太大太慢，Action处理太粗糙。解决方案：在VLM后面加一个专门的Action Policy模块。

Hierarchical Robot Transformer（陈建宇团队，2024上半年）

分频率处理的关键创新

VLM以低频率运行（参数大，几个B级别）
Action Policy以高频率运行（参数小，几十M级别）
VLM的Latent信息传给Action Policy，Action Policy同时接收视觉反馈形成闭环
本质上仍是端到端模型（输入输出直接端到端，梯度可回传）

RT-2（纯VLM输出）

推理频率低（1-3Hz）
无专门Action处理
动态任务效果差
Success Rate一般

分频架构（VLM+Action Policy）

Action频率高，VLM频率低
专门的Action解码模块
动态追踪任务效果显著提升
Success Rate与推理速度同时提高

Figure Helix（2025年2-3月）

Figure发布的最新架构Helix——System 1和System 2，与分频架构基本一致：预训练VLM + 约80M的Transformer Action Module + 分频率处理。没有发论文。

Pi-0（Physical Intelligence，2024年10-11月）

Pi团队的重磅工作

前面是预训练VLM，后面是Diffusion/Flow Matching架构的Action Expert
与分频架构作用一致，但没有做分频率处理
叠衣服Demo——从洗衣机取出衣服并折叠
精细化操作一直是Pi团队（即ALOHA那帮人）的强项

NVIDIA GR00T

NVIDIA发布的机器人模型也属于这一类：VLM + Diffusion Transformer作为Action Policy，并加了Action的Encoder-Decoder做更精细化的处理。同时加入了大量仿真器自动生成的数据。

十、Diffusion Policy路线

Diffusion与Transformer不是对立关系——Transformer是底层网络架构，Diffusion是训练方式。Diffusion的核心优势是生成式能力极强，特别适合生成机器人的动作轨迹。

核心方法

Diffusion Policy

将Diffusion Model的加噪-去噪训练方式用于生成机器人的Action Sequence。输入当前状态（图像等），通过多步去噪过程生成一系列动作。去噪网络可以是CNN/UNet或Transformer。使用时以MPC方式执行：每个时刻生成未来一段动作序列，执行当前帧，下一时刻重新生成。

Diffusion Policy的能力展示

梯形架子的精确放置——多步、长时序任务
在Pancake上均匀涂抹果酱——过程中还能抗干扰（人移动Pancake）
虽然模型很小、没有语言模型，但能执行复杂的长时序精细操作

RDT（清华朱军团队）——Scaling Diffusion Policy

将Diffusion Policy放大到1B参数

在RTX等大规模数据集上预训练+Fine-tuning
网络架构：Diffusion Transformer（DiT），每个去噪步骤用一个Transformer Block
提出Unified Action Space：用一个长向量分配给不同本体（单臂、双臂、轮式等）
陈建宇认为Action Head方式可能更好——Unified向量可能"不够用"或需要准备过长

VLA模型架构分类与代表工作

十一、世界模型融入VLA

陈建宇认为对未来的预测能力是构建具身智能很重要的能力之一。人类每时每刻都在做预测——开车时预判行人是否会窜出来，看到杯子在桌边会担心掉落。

GR-1 / GR-2（字节跳动AI Lab）

Transformer + 未来预测

第一阶段：在视频数据上预训练——输入当前帧+语言描述，输出未来帧图像
第二阶段：加入机器人Action数据Fine-tune
比纯Transformer多了一环：输出可以是Image（预测未来），不只是Action
GR-2是GR-1的放大版——更大模型、更大数据集，方法不变
字节是国内在VLA方向大公司实验室里做得最好的

Prediction with Action（陈建宇团队）

新架构

Joint Diffusion：同时生成动作和未来预测

在Diffusion架构下，用Joint Denoising同时生成Action和对未来的多模态预测（图像、深度、甚至触觉）。输入可以灵活扩展（语言、视觉、机器人状态、深度相机、触觉等），输出也可以灵活扩展。本质上是将世界模型融入VLA模型。

预测能力的具体效果

开冰箱门：能预测门打开的物理过程，甚至脑补冰箱里可能有什么
被遮挡物体：当障碍物移开后，能猜测后面可能是什么
深度预测：能准确预测未来的深度图
在未见过的任务上优势更明显——预测能力帮助更好的泛化理解

Video Prediction Policy（续作）

借用预训练好的视频生成模型

类比：VLM路线借用预训练好的语言模型；这里借用预训练好的视频Diffusion模型
步骤：(1)将视频生成网络Fine-tune到机器人域；(2)通过Cross Attention与Diffusion Policy深度融合
Zero-shot示例：用凝胶手舀红色液体到蓝色碗里——从未收集过任何数据，模型知道什么是勺子、怎么抓取
工具使用任务：拿锤子敲钉子、拿螺钉枪打螺钉——"完全超脱了Pick-and-Place"
同一个模型架构可以学会上百种任务

十二、统一模型与强化学习前沿

UP-VLA：统一Understanding、Prediction和Action

回到GATO的愿景，但有更好的基础

在VLA基础上，统一VQA（理解能力）、Video Prediction（预测能力）和Action（动作能力）
想法类似GATO，但有预训练好的语言模型/VLM作为基础
各功能互相增强——理解能力帮助动作，预测能力帮助理解
不仅能执行动作，还能描述图像、预测未来几秒的变化

强化学习：突破模仿学习的天花板

陈建宇

之前讲的所有方法，全都是Supervised Learning或模仿学习。我们知道强化学习是非常重要的一种方式——你某一时刻到未来某一时刻，纯靠监督学习的话，性能可能没法提上去了。强化学习可能能帮助我们突破这个瓶颈。

陈建宇团队的RL方法

直接用PPO训练整个网络——不Work，甚至越训越差
解决方案：两步法
1. 冻住VLM，只用RL训练Action Head——可以Work
2. 存下成功的Trajectory，放开VLM，用Supervised Learning方式回训
效果：SFT（模仿学习）约50分，RL方法可接近100分
在未见过的任务上优势尤其明显
未来目标：真正让RL直接端到端训练整个网络

类比DeepSeek-R1

这个逻辑与大语言模型的训练范式完全一致：先SFT（模仿学习），再RLHF/RL（强化学习突破上限）。陈建宇明确做了这个类比，只不过当时DeepSeek-R1还未发布。对机器人来说，RL的难度更大——因为机器人的Reward函数不像语言那样容易定义。

十三、技术路线全景对比

路线	代表工作	核心思路	优势	局限
LLM/VLM直接驱动	SayCan, Inner Monologue, VoxPoser	用现有LLM/VLM做规划，传统方法做执行	无需训练新模型，开箱即用	间接使用，无法真正通用
纯Transformer	GATO, RT-1, OCTO, CrossFormer	从头训练Transformer做VLA	端到端，架构简洁	缺少预训练语言/视觉能力
Transformer+预测	GR-1, GR-2	Transformer + 未来帧预测	具备物理世界时序理解	预测时序较短
VLM直接输出	PaLM-E, RT-2, Open VLA	预训练VLM直接输出Action Token	继承丰富常识和泛化能力	推理慢(1-3Hz)，Action处理粗
VLM+Action增强	HiRT, Pi-0, Helix, GR00T	VLM + 专门Action Policy模块	速度快，Action精细	系统复杂度增加
Diffusion Policy	Diffusion Policy, RDT	用Diffusion生成Action轨迹	长时序精细操作强	生成式方法推理开销大
世界模型融合	PwA, VPP	Joint Diffusion同时生成Action和预测	理解物理世界，泛化强	训练复杂度高
统一+RL	UP-VLA, RL for VLA	统一所有能力+强化学习突破上限	最接近终极目标	仍在早期探索

关键共识与争议

已形成的共识

底层Attention机制是通用的
数据Diversity比Size更重要
跨本体数据融合有正向收益
端到端是最终方向
预训练语言/视觉模型应该被利用

尚未收敛的争议

Unified Action Space vs Action Head
Diffusion vs 直接Supervised Learning
世界模型是否必须融入VLA
RL如何端到端训练整个网络
VLM冻住还是一起训练

~20篇

陈建宇筛选的VLA经典论文

Google/Pi

VLA领域积累最深的团队

字节

国内大公司VLA做得最好的

十四、陈建宇的学术与创业之路

本科：清华精密仪器系

"什么都学"——机械、电子、控制、嵌入式、单片机。毕设做双足机器人控制。精仪系是国内最早做双足机器人研究的单位之一（20多年前就开始）。

2015年赴UC Berkeley读博

师从Masayoshi Tomizuka（机电一体化学科开创者、美国院士）。实验室名为Mechatronic System Control——研究软硬一体的机器人系统。前两年做MPC（模型预测控制），后来因AlphaGo转向深度强化学习。

2017-2018年端到端自动驾驶探索

AlphaGo出来后研究RL做机器人控制，并成为最早研究端到端自动驾驶的研究者之一。但当时技术基础不成熟，只能在仿真中做探索。

2020年回国任教

拿了Waymo Offer但放弃——不想去大厂，想做更自由的研究。外部因素：疫情期间美国情况不佳。加入清华交叉信息研究院。

2022年底决定创业

两个驱动力：(1)看到特斯拉、小米发布机器人，预判产业将起来；(2)发现自己不仅对技术感兴趣，对产品、商业化也很想做——"机器人做了十几年，一直停留在实验室，我觉得不应该这样。"

2023年8月星动纪元成立

软硬件一体开发：人形机器人本体（双足、双手、关节、电机、灵巧手都自研）+ 运动控制RL模型 + 上层VLA大模型。目前Pre-A轮融资进行中。

陈建宇

我能想象出很多很多种机器人的应用方式，很多种都很有趣，我也觉得都很有机会。但如果仅在高校实验室是搞不出来的——涉及大量工程、制造、产品化。我也等不及某个大厂开始做然后我跟他学术合作。所以我想自己去做。

十五、星动纪元：产品与商业化路径

三阶段商业化路径：To A → To B → To C

To A（Academia）——当前阶段

面向高校研究者、企业研究者、创新者。灵巧手已批量销售，国内外高校和公司客户较多，商业闭环已跑通。用户分两类：研究技术改进的科研用户，和考虑新品类应用的制造企业用户。

To B——已开始探索

与制造类、服务类企业合作方共同开发满足商业化场景的机器人产品。合作方提供场景、数据和商业认知。

To C——未来目标

家庭场景对泛化性要求极高，需要技术更加成熟后才能进入。

为什么选择软硬一体

现有产业链不成熟

市场上买不到令人满意的关节、电机、灵巧手——只能自研
机器人本身是软硬一体的系统，软件和硬件需要同步迭代、考虑耦合
端到端趋势对做控制的人有利——子系统越少，分析越简洁

对行业关键问题的判断

Scaling Law成立了吗？

"看到了这样的迹象"——模型和数据的Scaling确实带来性能提升，但Aha Moment还没到（类比语言模型是在DeepSeek-R1时才发现的）。

按场景定义机器人？

"那是上一代机器人做的事情。"不算证明Fail，至少证明没法Scale。新一代必须走通用路线。

沿途下蛋：机器人可能比大模型更顺

陈建宇认为，机器人的"沿途下蛋"（能力提升过程中逐步解锁应用）比大语言模型更快。原因：大语言模型对智能性要求极高（必须接近人类语言水平才有用），但机器人只需要在某个动作上达到人类程度就行——很多动作不需要高智能。现有的零AI工业机器人都能有万台级出货量，新技术带来的能力提升必然解锁更多应用。

十六、启示与延伸思考

1. "人就是最智能的VLA"是一个深刻的研究纲领

陈建宇不是在做修辞——这个判断直接决定了技术路线。如果AGI的终极形态是具身的（像人一样能说话、能看、能做、能开车），那所有模态最终必须统一到一个模型中。当前VLA只是V+L+A三种模态的起点，未来必须加入触觉、力觉、本体感觉等更多模态。这意味着"通用机器人"的定义远比"能叠衣服的机械臂"更宏大。

2. "Diversity is King"可能是整个AI时代最被低估的原则

RT-1的实验清楚地证明了：数据多样性比数据量更重要。这个原则在自动驾驶领域同样适用（Expert Driver数据大量趋同，Corner Case数据极少）。对创业公司的启示是：与其盲目堆量，不如投入更多精力在数据的多样性设计上——不同物体、不同摆放、不同场景、不同本体的数据，价值远高于同质重复。

3. 从SayCan到RT-2的演进揭示了一个通用规律

先用现成工具拼接（SayCan/VoxPoser），再做端到端（RT-2），再加专门模块增强短板（Pi-0/HiRT），再融入世界模型（PwA），再用RL突破上限——这个演进路径与自动驾驶、大语言模型的发展路径高度相似。每个领域都经历了"先借用→再重构→再增强→再RL"的过程。这或许是深度学习时代技术演进的元模式。

4. "一个大脑+多个小脑"可能是跨本体通用的正确范式

CrossFormer的实验证明：共享大部分参数（大脑），为不同本体配不同的Action Head（小脑），效果优于单独训练。陈建宇明确偏好Action Head方式而非Unified Action Space——因为后者面临向量长度预估困难。这个"大脑-小脑"架构可能成为通用机器人的标准范式。

5. RL对机器人的意义可能比对语言模型更大

SFT（模仿学习）只能做到约50分，RL可以推到接近100分——这个提升幅度是巨大的。但直接用PPO训整个网络不Work（甚至越训越差），必须用两步法间接处理。这意味着机器人领域的RL还处于非常早期的阶段，突破方法可能带来Aha Moment级别的性能跃迁。

6. Google/Berkeley/Stanford/Pi这个"超级团队"几乎定义了整个VLA领域

SayCan、GATO、RT-1/2/X、ALOHA、OCTO、CrossFormer、Open VLA、Pi-0——这些里程碑论文基本都出自同一个松散的研究社区：Sergey Levine（Berkeley/Pi）、Chelsea Finn（Stanford）及其学生、Google/DeepMind机器人团队。他们不仅产出了最多最重要的论文，还开源了最关键的数据集和模型。国内在这个方向上，字节做得相对最好。

7. "沿途下蛋"的逻辑对机器人创业至关重要

陈建宇提出了一个关键洞察：机器人不需要等到AGI级别的智能才能商业化。零AI的工业机器人就有万台出货量。新的VLA技术每提升一个台阶，就可能解锁新的应用场景。这与纯数字AI不同——后者需要接近人类语言水平才有用，而机器人只需要在某个具体动作上达到人类水平。To A → To B → To C的路径设计，正是这个逻辑的体现。

8. 世界模型不是独立的研究方向，而应融入VLA

陈建宇的Prediction with Action工作展示了一个重要方向：世界模型（对未来的预测能力）不应该是一个独立模块，而应该Joint训练在VLA模型内部。预测能力反过来帮助做更好的决策——就像人开车时时刻预判行人是否会窜出来。这种"理解世界才能更好行动"的理念，可能是通向真正通用机器人的关键一环。

机器人基座模型与VLA经典论文全解

目录