← 返回张小珺主页
一、嘉宾画像与核心命题
本期嘉宾陈建宇是清华大学交叉信息研究院助理教授、星动纪元创始人,研究方向为具身智能与人形机器人。清华精密仪器系本科(本科毕设即为双足机器人控制),UC Berkeley博士(师从机电一体化学科开创者Masayoshi Tomizuka),2020年回国任教,2023年8月创立星动纪元。
陈建宇
人就是一个AGI。而且我认为未来的AGI,它最终的形态就是具身的。到最终某一个时刻,所有的语言大模型、自动驾驶大模型、机器人模型都会unify起来,成为一个终极的具身模型。你可以理解它就像人一样——人可以说话、做各种视觉的事情、做各种action,还可以开车。
核心命题
"人就是最智能的VLA"
这期节目的核心观点是:人类本身就是终极的Vision-Language-Action模型。人可以处理视觉、语言、动作,还有触觉、声音等多种模态,且能泛化到任意场景。所有机器人基座模型的研究,本质上都在逼近"像人一样通用"这个目标。这个判断决定了技术路线的选择——必须走端到端的、统一的Foundation Model路线,而非专用模型的拼接。
二、具身智能为何此刻爆发
陈建宇梳理了AI与机器人交汇的完整历史脉络,解释了为何半个多世纪的机器人研究在此刻迎来爆发。
1956年 第一台机器人
机器人诞生,但与AI长期无关。此后数十年,各类轮式机器人、工业机械臂等一波又一波涌现,但均为专用系统。
~2012年 Deep Learning兴起
深度学习最先影响机器人的感知层(Computer Vision),无人车开始用深度学习做视觉感知。但与机器人的控制、决策等部分仍无关联。
深度强化学习的标志性事件。AlphaGo证明了神经网络+强化学习可以解决连续空间的行为决策问题——而机器人正是在连续空间中做行为决策。陈建宇博士期间正是因此转向强化学习做机器人控制。
证明了一种AI方法可以做到足够通用。"虽然它还不是机器人模型,但它秀出来了我们有某种AI的方法能够做到足够的通用。"这让整个社区开始相信通用机器人模型是可能的。
2023年下半年 具身智能爆发
大语言模型火了半年后辐射到机器人领域。数十家机器人/人形机器人创业公司涌现。
为什么之前不行,现在可以
旧范式的根本瓶颈
- 100种场景 = 100种机器人 + 100套代码:之前的机器人完全专用化,无法Scale
- 即使有了Robot Learning,仍是一个本体+一个任务=一个模型
- 工业机器人出货量最多的公司,与手机、PC、汽车相比仍"微不足道"——原因就是完全专用化
新范式的双重突破
- 模型层面:ChatGPT证明通用模型可行,大家看到了不用专用开发、专用代码的曙光
- 本体层面:人形机器人是一种非常通用的本体,不需要针对每种任务重新设计形态
技术收敛先于商业收敛
陈建宇判断:技术路线正在逐渐收敛但还未完全收敛;商业化也在同步探索,但大体上是"先技术收敛,再商业收敛"。技术进展会启发商业模式,商业闭环也会反哺数据和技术方向。
三、VLA架构:定义与终极目标
核心概念
什么是VLA
VLA = Vision-Language-Action。在陈建宇的定义中,VLA模型必须是一个端到端的模型,能够同时处理视觉、语言和动作三种模态。虽然字面上只有三种模态,但陈建宇希望将触觉、声音、深度等更多模态都纳入其中——"字母别无限延长了,把这些都加在里面。"
从专用AI到Foundation Model的范式跃迁
旧范式:专用模型
- 分割一个模型、分类一个模型、VQA一个模型
- 每个模型收集不同数据、单独训练
- 每个模型能力都不特别强
- 机器人:每种本体+每种任务=单独一个模型
新范式:Foundation Model
- 一个巨大的预训练模型
- 大量多模态数据训练
- 下游任务通过Fine-tuning或Prompting
- 目标:直接Prompt就能泛化到新任务(Zero-shot)
Robot Foundation Model的目标架构
陈建宇将机器人系统分为三个经典模块:Perception(感知)、Decision Making / Planning(决策/规划)、Actuation(执行)。研究的演进路径是逐步用AI替代每个模块,最终实现端到端统一。
最核心的科学问题
陈建宇认为通向通用机器人最重要的问题是:能够Scale的模型架构。这既是科学问题也是工程问题。架构决定了数据收集方式、本体形态、下游技术方案等所有其他环节。"这个去决定所有其他下游的各种事情。"
四、第一阶段:LLM/VLM直接驱动机器人
最自然的想法是:既然大语言模型这么强,能不能直接用来驱动机器人?这是研究的第一个阶段——利用现有Foundation Model,与传统机器人方法结合。
规划层替代:SayCan(Google,2022)
Say Can, Not As I Say
- 语言模型规划出"可以做的事情"(Say)
- Value Function评估"机器人能做的事情"(Can)
- 两者做匹配,规划出既能完成目标、机器人又能执行的任务序列
- 局限:从最开始规划12345步,然后按步执行,不考虑中间反馈
反馈增强:Inner Monologue
内心独白
- 执行Action后获取环境反馈(如钥匙插不进去),重新推理和规划
- 类似CoT(Chain of Thought)的过程
- 比SayCan多了一步:可以根据执行结果纠正后续计划
- 局限:反馈在任务完成后才触发,如果中间出问题(如箱子掉了),等到最后才发现
实时反馈:陈建宇团队的改进(2023上半年)
更及时的反馈机制
- 用VLM作为实时Detector,以约10Hz频率监测任务执行
- LLM负责思考和Task Planning,VLM负责感知环境——两者配合使用
- 例:搬箱子过程中箱子掉了,可以及时发现并重新规划
代码生成:VoxPoser(李飞飞,2023)
让AI写机器人代码
- VLM获取空间信息,LLM获取任务推理信息
- 两者共同写一个程序,调用机器人底层控制
- 生成Affordance Map(目标点)和Constraint Map(障碍物)
- 用轨迹优化方法执行——"Coding是赛博世界的环境"
陈建宇
这样的方法比较难让我们达到最终真正的通用。因为你没有去构建一个真正对机器人的单独的一个模型。你还是做的语言模型,只是把它跟机器人的一些工具拼接了一下,是一个间接的使用。
五、ALOHA系列:低成本精细操作的标杆
ALOHA虽然严格来说不是VLA(没有Language模态),但因其开创性影响必须单独介绍。
ALOHA第一代(2023)——ACT架构
关键架构
标准的Encoder-Decoder Transformer架构。输入:4个摄像头图像通过CNN编码;输出:未来一段时间的Action Sequence。创新点是Temporal Ensemble——将历史多个时刻的规划做加权平均,使轨迹更加平滑(Smooth)。本质上是模型预测控制(MPC)的思想,用模仿学习替代了传统优化方法。
- 核心亮点:极低成本硬件(约3万美金一套)却能执行非常精细的操作
- Chelsea Finn(Stanford)团队的工作
- "ALOHA"源自夏威夷语的打招呼
- 可以夹起电池放入电池盒、双臂配合等精细任务
- 硬件、算法、系统搭建方案全部开源
- 第一代在圈内引起关注,但未出圈
Mobile ALOHA第二代(2024.1)——出圈之作
关键创新:人直接推着走
- 双臂下面加了移动底盘,人直接推着底盘走
- 手臂通过一一映射的遥操作方式控制——人手怎么动,机械臂就怎么动
- 比遥控器控制更精准——人有直接的体感反馈
- 经典Demo:炒虾视频让ALOHA彻底出圈,"感觉谁都知道这个ALOHA"
ALOHA的局限
尽管精细操作能力令人印象深刻,ALOHA仍然是一个模型做一个任务,不能接受语言指令做通用任务。它的价值在于提供了优秀的数据收集方式和低成本硬件范式,但不是最终的通用机器人方案。
六、从GATO到RT系列:Transformer路线
GATO(DeepMind,2022)——超前但时代未到
一个通用Agent的愿景
- 思想极其超前:一个统一模型做视觉任务、语言对话、VQA、机器人行为控制
- 直接用一个Transformer把各种模态全部加进去训练
- 问题:2022年ChatGPT都未出现,技术基础不成熟
- 每一块性能都不特别好——"当时看到这篇论文觉得有点扯"
- 但ChatGPT出来后回看,这个方向被证明是对的
RT-1(Google/DeepMind,2022-2023)
| 维度 | 具体内容 |
| 本质 | 专门针对机器人的Transformer模型,从GATO回退聚焦 |
| 数据 | 130K episodes,700个task,13台机器人,收集了17个月 |
| 性能 | 见过的任务接近100%成功率,未见过的任务约75% |
| 架构 | Transformer前面加CNN处理视觉,底层Attention机制与语言模型一致 |
| 关键发现 | Diversity is King——数据多样性比数据量更重要 |
陈建宇
Diversity会比数据的Size要重要很多。你如果同一个任务、同一个物体、甚至同样的摆放位置重复很多遍,那这个其实很多工作是无用的。
OCTO——开源版RT-1
核心创新:可扩展的Action Space
- 本质上是开源的Generalist Robot Policy
- 允许在下游Fine-tuning时加入新的Action Space(如从末端执行器控制切换到关节角度控制)
- 还是Google/Berkeley那帮人主导,包括后来创立Pi的Sergey Levine团队
CrossFormer——跨本体学习
一个大脑,多个小脑
- 目标:同一个模型控制不同形态的机器人(机械臂、四足、飞行器等)
- 架构:前端共享参数(大脑),输出端用不同的Action Head(小脑)
- 结论:跨形态数据融合训练,在部分任务上比单一本体训练效果更好——数据间存在可迁移的共性
七、RTX与开源数据集的力量
RTX论文的特殊之处在于它的作者列表异常庞大——本质上是一个社区级的数据集工程。
RTX的贡献与局限
- 将美国各实验室的机器人数据汇总,在RT-1/RT-2模型上重新训练
- Google开源了自己内部的高质量数据(工程化团队收集,质量较好)
- 缺陷:Embodiment基本都是机械臂+夹爪,形态单一;很多Lab数据质量一般
- 成为机器人领域的标配数据集,基本上后续所有工作都会用到
关键发现:Cross-Embodiment的Scaling效应
陈建宇
在各种各样的数据集上训练的通用模型,会比在单一数据集上训练的专用模型要更好。这也是我们想要达到的目标——不仅有一个模型能干多种事情,而且因为数据多,Scaling能提升Performance。
Open VLA——开源版RT-2
填补开源空白
- RT-1模型和训练开源了,但RT-2没有开源
- Open VLA是开源版RT-2,由学校为主体(还是那帮人参与)
- 调优后性能甚至比原版RT-2更好,达到SOTA
- 对社区发展有重要促进作用
八、VLM路线:从PaLM-E到RT-2
与纯Transformer路线不同,VLM路线的核心优势是借用预训练好的语言模型的能力,包括推理、常识、视觉理解等。
PaLM-E(Google,2023)——具身多模态语言模型
VLM + RT-1的分层架构
- PaLM-E本质是VLM(562B参数),能做看图说话、任务规划、VQA等
- 下游接RT-1做具体控制——VLM输出语言指令,RT-1执行动作
- 优势:能处理复杂推理任务(如"按颜色分拣积木到角落",需理解颜色、角、归类)
- 局限:仍是分层架构,VLM和控制器没有端到端训练
RT-2(Google,2023)——VLA的开山之作
里程碑论文
Vision-Language-Action Models
RT-2直接用VLM输出动作Token——不再需要RT-1作为下游控制器。VLM本来就可以输出各种Token,把Token直接映射为机器人动作。训练时采用Co-Finetuning:同时在机器人数据和VLM原始数据上训练,避免在Action上过拟合而丧失视觉/语言理解能力。
RT-2的能力展示
- "把香蕉放到德国"——能识别德国国旗
- "把可乐移到Taylor Swift旁边"——能识别名人照片
- 因为VLM在大量互联网数据上预训练,机器人模型也继承了这些常识
- 在未见过的任务上优势明显——泛化性远超RT-1
RT-2的根本局限
陈建宇复现RT-2后发现:这种方式太缺少对Action的专门处理。VLM运行比较慢(RT-2大约1-3Hz,一秒输出一两次动作),对动态任务和精细操作效果不佳。这直接催生了下一阶段的"Action增强"路线。
九、Action增强:分频架构与Pi-0
RT-2的核心问题是VLM太大太慢,Action处理太粗糙。解决方案:在VLM后面加一个专门的Action Policy模块。
Hierarchical Robot Transformer(陈建宇团队,2024上半年)
分频率处理的关键创新
- VLM以低频率运行(参数大,几个B级别)
- Action Policy以高频率运行(参数小,几十M级别)
- VLM的Latent信息传给Action Policy,Action Policy同时接收视觉反馈形成闭环
- 本质上仍是端到端模型(输入输出直接端到端,梯度可回传)
RT-2(纯VLM输出)
- 推理频率低(1-3Hz)
- 无专门Action处理
- 动态任务效果差
- Success Rate一般
分频架构(VLM+Action Policy)
- Action频率高,VLM频率低
- 专门的Action解码模块
- 动态追踪任务效果显著提升
- Success Rate与推理速度同时提高
Figure Helix(2025年2-3月)
Figure发布的最新架构Helix——System 1和System 2,与分频架构基本一致:预训练VLM + 约80M的Transformer Action Module + 分频率处理。没有发论文。
Pi团队的重磅工作
- 前面是预训练VLM,后面是Diffusion/Flow Matching架构的Action Expert
- 与分频架构作用一致,但没有做分频率处理
- 叠衣服Demo——从洗衣机取出衣服并折叠
- 精细化操作一直是Pi团队(即ALOHA那帮人)的强项
NVIDIA发布的机器人模型也属于这一类:VLM + Diffusion Transformer作为Action Policy,并加了Action的Encoder-Decoder做更精细化的处理。同时加入了大量仿真器自动生成的数据。
Diffusion与Transformer不是对立关系——Transformer是底层网络架构,Diffusion是训练方式。Diffusion的核心优势是生成式能力极强,特别适合生成机器人的动作轨迹。
核心方法
Diffusion Policy
将Diffusion Model的加噪-去噪训练方式用于生成机器人的Action Sequence。输入当前状态(图像等),通过多步去噪过程生成一系列动作。去噪网络可以是CNN/UNet或Transformer。使用时以MPC方式执行:每个时刻生成未来一段动作序列,执行当前帧,下一时刻重新生成。
Diffusion Policy的能力展示
- 梯形架子的精确放置——多步、长时序任务
- 在Pancake上均匀涂抹果酱——过程中还能抗干扰(人移动Pancake)
- 虽然模型很小、没有语言模型,但能执行复杂的长时序精细操作
RDT(清华朱军团队)——Scaling Diffusion Policy
将Diffusion Policy放大到1B参数
- 在RTX等大规模数据集上预训练+Fine-tuning
- 网络架构:Diffusion Transformer(DiT),每个去噪步骤用一个Transformer Block
- 提出Unified Action Space:用一个长向量分配给不同本体(单臂、双臂、轮式等)
- 陈建宇认为Action Head方式可能更好——Unified向量可能"不够用"或需要准备过长
十一、世界模型融入VLA
陈建宇认为对未来的预测能力是构建具身智能很重要的能力之一。人类每时每刻都在做预测——开车时预判行人是否会窜出来,看到杯子在桌边会担心掉落。
GR-1 / GR-2(字节跳动AI Lab)
Transformer + 未来预测
- 第一阶段:在视频数据上预训练——输入当前帧+语言描述,输出未来帧图像
- 第二阶段:加入机器人Action数据Fine-tune
- 比纯Transformer多了一环:输出可以是Image(预测未来),不只是Action
- GR-2是GR-1的放大版——更大模型、更大数据集,方法不变
- 字节是国内在VLA方向大公司实验室里做得最好的
Prediction with Action(陈建宇团队)
新架构
Joint Diffusion:同时生成动作和未来预测
在Diffusion架构下,用Joint Denoising同时生成Action和对未来的多模态预测(图像、深度、甚至触觉)。输入可以灵活扩展(语言、视觉、机器人状态、深度相机、触觉等),输出也可以灵活扩展。本质上是将世界模型融入VLA模型。
预测能力的具体效果
- 开冰箱门:能预测门打开的物理过程,甚至脑补冰箱里可能有什么
- 被遮挡物体:当障碍物移开后,能猜测后面可能是什么
- 深度预测:能准确预测未来的深度图
- 在未见过的任务上优势更明显——预测能力帮助更好的泛化理解
Video Prediction Policy(续作)
借用预训练好的视频生成模型
- 类比:VLM路线借用预训练好的语言模型;这里借用预训练好的视频Diffusion模型
- 步骤:(1)将视频生成网络Fine-tune到机器人域;(2)通过Cross Attention与Diffusion Policy深度融合
- Zero-shot示例:用凝胶手舀红色液体到蓝色碗里——从未收集过任何数据,模型知道什么是勺子、怎么抓取
- 工具使用任务:拿锤子敲钉子、拿螺钉枪打螺钉——"完全超脱了Pick-and-Place"
- 同一个模型架构可以学会上百种任务
十二、统一模型与强化学习前沿
UP-VLA:统一Understanding、Prediction和Action
回到GATO的愿景,但有更好的基础
- 在VLA基础上,统一VQA(理解能力)、Video Prediction(预测能力)和Action(动作能力)
- 想法类似GATO,但有预训练好的语言模型/VLM作为基础
- 各功能互相增强——理解能力帮助动作,预测能力帮助理解
- 不仅能执行动作,还能描述图像、预测未来几秒的变化
强化学习:突破模仿学习的天花板
陈建宇
之前讲的所有方法,全都是Supervised Learning或模仿学习。我们知道强化学习是非常重要的一种方式——你某一时刻到未来某一时刻,纯靠监督学习的话,性能可能没法提上去了。强化学习可能能帮助我们突破这个瓶颈。
陈建宇团队的RL方法
- 直接用PPO训练整个网络——不Work,甚至越训越差
- 解决方案:两步法
- 冻住VLM,只用RL训练Action Head——可以Work
- 存下成功的Trajectory,放开VLM,用Supervised Learning方式回训
- 效果:SFT(模仿学习)约50分,RL方法可接近100分
- 在未见过的任务上优势尤其明显
- 未来目标:真正让RL直接端到端训练整个网络
这个逻辑与大语言模型的训练范式完全一致:先SFT(模仿学习),再RLHF/RL(强化学习突破上限)。陈建宇明确做了这个类比,只不过当时DeepSeek-R1还未发布。对机器人来说,RL的难度更大——因为机器人的Reward函数不像语言那样容易定义。
十三、技术路线全景对比
| 路线 | 代表工作 | 核心思路 | 优势 | 局限 |
| LLM/VLM直接驱动 | SayCan, Inner Monologue, VoxPoser | 用现有LLM/VLM做规划,传统方法做执行 | 无需训练新模型,开箱即用 | 间接使用,无法真正通用 |
| 纯Transformer | GATO, RT-1, OCTO, CrossFormer | 从头训练Transformer做VLA | 端到端,架构简洁 | 缺少预训练语言/视觉能力 |
| Transformer+预测 | GR-1, GR-2 | Transformer + 未来帧预测 | 具备物理世界时序理解 | 预测时序较短 |
| VLM直接输出 | PaLM-E, RT-2, Open VLA | 预训练VLM直接输出Action Token | 继承丰富常识和泛化能力 | 推理慢(1-3Hz),Action处理粗 |
| VLM+Action增强 | HiRT, Pi-0, Helix, GR00T | VLM + 专门Action Policy模块 | 速度快,Action精细 | 系统复杂度增加 |
| Diffusion Policy | Diffusion Policy, RDT | 用Diffusion生成Action轨迹 | 长时序精细操作强 | 生成式方法推理开销大 |
| 世界模型融合 | PwA, VPP | Joint Diffusion同时生成Action和预测 | 理解物理世界,泛化强 | 训练复杂度高 |
| 统一+RL | UP-VLA, RL for VLA | 统一所有能力+强化学习突破上限 | 最接近终极目标 | 仍在早期探索 |
关键共识与争议
已形成的共识
- 底层Attention机制是通用的
- 数据Diversity比Size更重要
- 跨本体数据融合有正向收益
- 端到端是最终方向
- 预训练语言/视觉模型应该被利用
尚未收敛的争议
- Unified Action Space vs Action Head
- Diffusion vs 直接Supervised Learning
- 世界模型是否必须融入VLA
- RL如何端到端训练整个网络
- VLM冻住还是一起训练
十四、陈建宇的学术与创业之路
本科:清华精密仪器系
"什么都学"——机械、电子、控制、嵌入式、单片机。毕设做双足机器人控制。精仪系是国内最早做双足机器人研究的单位之一(20多年前就开始)。
2015年 赴UC Berkeley读博
师从Masayoshi Tomizuka(机电一体化学科开创者、美国院士)。实验室名为Mechatronic System Control——研究软硬一体的机器人系统。前两年做MPC(模型预测控制),后来因AlphaGo转向深度强化学习。
2017-2018年 端到端自动驾驶探索
AlphaGo出来后研究RL做机器人控制,并成为最早研究端到端自动驾驶的研究者之一。但当时技术基础不成熟,只能在仿真中做探索。
2020年 回国任教
拿了Waymo Offer但放弃——不想去大厂,想做更自由的研究。外部因素:疫情期间美国情况不佳。加入清华交叉信息研究院。
2022年底 决定创业
两个驱动力:(1)看到特斯拉、小米发布机器人,预判产业将起来;(2)发现自己不仅对技术感兴趣,对产品、商业化也很想做——"机器人做了十几年,一直停留在实验室,我觉得不应该这样。"
2023年8月 星动纪元成立
软硬件一体开发:人形机器人本体(双足、双手、关节、电机、灵巧手都自研)+ 运动控制RL模型 + 上层VLA大模型。目前Pre-A轮融资进行中。
陈建宇
我能想象出很多很多种机器人的应用方式,很多种都很有趣,我也觉得都很有机会。但如果仅在高校实验室是搞不出来的——涉及大量工程、制造、产品化。我也等不及某个大厂开始做然后我跟他学术合作。所以我想自己去做。
十五、星动纪元:产品与商业化路径
三阶段商业化路径:To A → To B → To C
To A(Academia)——当前阶段
面向高校研究者、企业研究者、创新者。灵巧手已批量销售,国内外高校和公司客户较多,商业闭环已跑通。用户分两类:研究技术改进的科研用户,和考虑新品类应用的制造企业用户。
To B——已开始探索
与制造类、服务类企业合作方共同开发满足商业化场景的机器人产品。合作方提供场景、数据和商业认知。
To C——未来目标
家庭场景对泛化性要求极高,需要技术更加成熟后才能进入。
为什么选择软硬一体
现有产业链不成熟
- 市场上买不到令人满意的关节、电机、灵巧手——只能自研
- 机器人本身是软硬一体的系统,软件和硬件需要同步迭代、考虑耦合
- 端到端趋势对做控制的人有利——子系统越少,分析越简洁
对行业关键问题的判断
"看到了这样的迹象"——模型和数据的Scaling确实带来性能提升,但Aha Moment还没到(类比语言模型是在DeepSeek-R1时才发现的)。
按场景定义机器人?
"那是上一代机器人做的事情。"不算证明Fail,至少证明没法Scale。新一代必须走通用路线。
沿途下蛋:机器人可能比大模型更顺
陈建宇认为,机器人的"沿途下蛋"(能力提升过程中逐步解锁应用)比大语言模型更快。原因:大语言模型对智能性要求极高(必须接近人类语言水平才有用),但机器人只需要在某个动作上达到人类程度就行——很多动作不需要高智能。现有的零AI工业机器人都能有万台级出货量,新技术带来的能力提升必然解锁更多应用。
十六、启示与延伸思考
1. "人就是最智能的VLA"是一个深刻的研究纲领
陈建宇不是在做修辞——这个判断直接决定了技术路线。如果AGI的终极形态是具身的(像人一样能说话、能看、能做、能开车),那所有模态最终必须统一到一个模型中。当前VLA只是V+L+A三种模态的起点,未来必须加入触觉、力觉、本体感觉等更多模态。这意味着"通用机器人"的定义远比"能叠衣服的机械臂"更宏大。
2. "Diversity is King"可能是整个AI时代最被低估的原则
RT-1的实验清楚地证明了:数据多样性比数据量更重要。这个原则在自动驾驶领域同样适用(Expert Driver数据大量趋同,Corner Case数据极少)。对创业公司的启示是:与其盲目堆量,不如投入更多精力在数据的多样性设计上——不同物体、不同摆放、不同场景、不同本体的数据,价值远高于同质重复。
3. 从SayCan到RT-2的演进揭示了一个通用规律
先用现成工具拼接(SayCan/VoxPoser),再做端到端(RT-2),再加专门模块增强短板(Pi-0/HiRT),再融入世界模型(PwA),再用RL突破上限——这个演进路径与自动驾驶、大语言模型的发展路径高度相似。每个领域都经历了"先借用→再重构→再增强→再RL"的过程。这或许是深度学习时代技术演进的元模式。
4. "一个大脑+多个小脑"可能是跨本体通用的正确范式
CrossFormer的实验证明:共享大部分参数(大脑),为不同本体配不同的Action Head(小脑),效果优于单独训练。陈建宇明确偏好Action Head方式而非Unified Action Space——因为后者面临向量长度预估困难。这个"大脑-小脑"架构可能成为通用机器人的标准范式。
5. RL对机器人的意义可能比对语言模型更大
SFT(模仿学习)只能做到约50分,RL可以推到接近100分——这个提升幅度是巨大的。但直接用PPO训整个网络不Work(甚至越训越差),必须用两步法间接处理。这意味着机器人领域的RL还处于非常早期的阶段,突破方法可能带来Aha Moment级别的性能跃迁。
6. Google/Berkeley/Stanford/Pi这个"超级团队"几乎定义了整个VLA领域
SayCan、GATO、RT-1/2/X、ALOHA、OCTO、CrossFormer、Open VLA、Pi-0——这些里程碑论文基本都出自同一个松散的研究社区:Sergey Levine(Berkeley/Pi)、Chelsea Finn(Stanford)及其学生、Google/DeepMind机器人团队。他们不仅产出了最多最重要的论文,还开源了最关键的数据集和模型。国内在这个方向上,字节做得相对最好。
7. "沿途下蛋"的逻辑对机器人创业至关重要
陈建宇提出了一个关键洞察:机器人不需要等到AGI级别的智能才能商业化。零AI的工业机器人就有万台出货量。新的VLA技术每提升一个台阶,就可能解锁新的应用场景。这与纯数字AI不同——后者需要接近人类语言水平才有用,而机器人只需要在某个具体动作上达到人类水平。To A → To B → To C的路径设计,正是这个逻辑的体现。
8. 世界模型不是独立的研究方向,而应融入VLA
陈建宇的Prediction with Action工作展示了一个重要方向:世界模型(对未来的预测能力)不应该是一个独立模块,而应该Joint训练在VLA模型内部。预测能力反过来帮助做更好的决策——就像人开车时时刻预判行人是否会窜出来。这种"理解世界才能更好行动"的理念,可能是通向真正通用机器人的关键一环。
延伸阅读
- EP.106 和王鹤聊具身智能——学术界对"机器人泡沫"的看法
- EP.109 机器人遭遇数据荒——仿真与合成数据、Alexandr Wang
- EP.118 对李想的第二次3小时访谈——CEO大模型、VLA
- EP.121 对DeepMind谭捷的访谈——跨本体、世界模型、Gemini Robotics
- EP.138 对罗福莉的访谈——OpenClaw、Agent范式、后训练
- EP.143 对何小鹏的第二次访谈——物理AI、人形机器人Iron、缝合怪