← 返回目录
一、嘉宾背景:从图形学到机器人
谭捷是Google DeepMind机器人团队的高级研究科学家兼技术负责人,加入团队近十年。他的研究轨迹从计算机图形学出发,横跨动画仿真、深度强化学习,最终聚焦于将基础模型应用于机器人领域。
学术与职业路径
上海交大毕业
本科/硕士毕业后在上海做了一个短期创业,类似"库加勒",做图形学方向。
Georgia Tech 博士
师从Karen Liu(后转至Stanford),研究方向为Physics Based Character Animation——用数学和物理方法在仿真环境中让虚拟角色自然行走。
Lytro光场相机
博士毕业后在硅谷加入光场相机创业公司Lytro,工作约一年半。
2015年 加入Google Brain
团队当时只有约10人做Robotics。后与DeepMind合并,成为Google DeepMind Robotics Team,目前团队约150人。
谭捷
机器人就是在真实世界里做图形学,或者图形学是在simulation里面做机器人。
图形学与机器人的深层关联
谭捷指出,Berkeley教授Sergey Levine也是从图形学转向机器人的。两个领域的核心相似性在于:图形学中所有东西都在simulation里,可以获取机器人的所有信息(关节、力等),因此天然适合用AI手段解决控制问题。这种从仿真到现实的思路,后来成为机器人领域最重要的范式之一。
二、两次范式转换:强化学习与大模型
谭捷将过去十年机器人领域的进展归纳为两次关键的Paradigm Shift。
第一次:强化学习 (2018)
- 谭捷在Google的第一篇论文Sim-to-Real:用深度强化学习解决四足机器人敏捷运动
- 灵感来源:AlphaGo,使用PPO算法
- 开创了强化学习+sim2real在机器人步态控制上的应用
- 五年内从"波士顿动力独有的黑科技"变成"高中生都能做"
第二次:大模型 (近两年)
- 机器人获得了common sense和语言理解能力
- 任何人都可以用自然语言指挥机器人
- 从"需要PhD才能做"到"prompt engineering所有人都能做"
- 最近1.5年硅谷所有公司投入巨资
核心类比
大脑与小脑
强化学习 = 小脑(执行层:走路、控制平衡、手部manipulation)。大模型 = 大脑(思维层:推理、做计划、理解语言)。机器人需要大脑和小脑都具备才能真正智能化。
技术普及的加速规律
谭捷
当一个技术越来越容易用的时候,那个技术很快就会普及。以前用MPC你需要一个PhD才能理解那个数学。现在很多高中生都可以网上下一个强化学习的包比如PPO,然后从NV那拿一个Isaac Gym,然后train一下deploy一下。
从MPC到PPO到Prompt Engineering的降门槛曲线
这一观察揭示了技术扩散的核心规律:MPC(需要PhD)-> 强化学习PPO(高中生可用)-> 大模型Prompt Engineering(所有人可用)。每一次门槛降低都伴随着大规模产业变革。谭捷判断大模型的出现"可能很快会解决很多不仅是robotics,是各个行业的问题"。
三、机器人领域的发展阶段判断
谭捷对机器人当前发展阶段给出了清醒而审慎的评估。
进展很快,但gap很大
当前能做到的
- 单一任务或一系列接近的任务可以做得很好(如Dyna的折衣服demo)
- 简单的pick and place成功率可达90%-100%
- 基于强化学习的locomotion已基本解决
当前做不到的
- 真正的泛化能力(generalization)还差得很远
- 精细操作(如拉拉链)成功率仅30%-40%,现实中不可用
- 需要额外获取信息的复杂推理任务
- 灵巧手的manipulation几乎"nothing works"
从demo到落地的时间鸿沟
谭捷
从想法到prototype可能六个月。从论文到有胆量做live demo可能一两年。从live demo到真正落地可能五到十年。你就想自动驾驶,从那个demo到真正落地隔了十年并不是一个非常夸张的事情。
四、Gemini Robotics 1.5:Thinking与VLA
谭捷详细介绍了Gemini Robotics 1.5的两个核心突破。
突破一:将Thinking加入VLA模型
技术创新
Thinking Trace + Robot Action 交替输出
传统VLA模型:图像+语言输入 -> 直接输出马达角度。新模型在输出动作之前,先输出文本形式的思考过程(Thinking Trace),再输出动作,然后继续思考、继续行动。这使得复杂的多步骤任务可以被分解执行。
示例:按颜色分类衣服
- 机器人先"想":这件衣服是什么颜色
- 再"想":对应的那一堆在哪里
- 然后输出Action:抓取并放置
- 再继续思考下一步应该做什么
机器人Thinking vs 大模型Thinking的关键差异
| 维度 | 大语言模型 | 机器人VLA |
| Thinking时长 | 可以想20秒 | 每步最多0.5秒 |
| Inference频率 | 无实时约束 | 每0.5-1秒需要做决策 |
| 模型大小 | 非常大 | 受实时性限制,不能太大 |
| Token Budget | 充裕 | 极度受限 |
| 复杂度上限 | 可做长链推理 | 仅支持几步的简单分解 |
谭捷
如果你交给机器人一个任务,如果他每一步都要想20秒,你就崩溃了。所以他可能每一步想的只有0.5秒。
Thinking带来的第二个好处:透明度
机器人可以向人表达"我下一步想干什么"和"为什么这么干"。这在安全性和人机交互方面都有重要价值——人知道机器人在怎么想,会更安心。
Thinking容易出的错:过拟合
Thinking Trace的标注瓶颈
训练时需要标注"机器人是怎么想的",如果标注过于单一,模型只会在训练过见过的任务上产生合理的Thinking Trace。面对未见过的任务,其思考过程会"非常奇怪",做出完全不合理的行为。这是overfit问题在Thinking层面的新表现。
五、跨本体迁移:数据瓶颈的破局
Gemini Robotics 1.5的第二个重大突破是Cross-Embodiment Transfer(跨本体迁移),谭捷称之为"质变"。
问题的本质
为什么机器人数据如此稀缺
- 机器人A采的数据只能用于机器人A
- 换了摄像头位置、多了一个自由度,之前数据全部作废
- 不同构型的机器人数据不能互用
- 每个机器人都需要单独采集数据,总量更少
Motion Transfer的实验发现
谭捷描述了一个令他团队"非常激动人心"的实验结果:
关键实验
Aloha从未见过垂直场景,却能做到
Aloha是一个桌面机器人,所有训练数据都是在平面上的操作。它从未见过3D垂直场景(如书架)。Franca是工业级机器人,在垂直工作台上采集了大量数据。当两者数据混合训练后,Aloha突然能在垂直场景中操作——尽管它从未见过这类数据。
三个测试机器人分别是:Aloha(简单双臂桌面机器人)、Franca(工业级powerful机器人)、Unitronic人形机器人。它们构型很不一样,但都是双臂的。
跨本体迁移的限制
泛化的边界
- 不是"新机器人不用训练就能做"——而是在已有训练数据的机器人上,没见过的任务(但别人见过)也能完成
- 是任务层面的泛化,不是机器人本体层面的泛化
- Embodiment Gap越大,迁移越难:单臂夹爪到双臂人形非常困难
- 夹爪到灵巧手的迁移也比夹爪到夹爪难得多
- 如果某个机器人已有大量数据,跨本体带来的正向增量会很小
谭捷
Motion Transfer... It's very secret.
六、快慢双模型架构与端到端之争
Gemini Robotics 1.5采用了ER(Embodied Reasoning)+ VLA的双模型结构,谭捷认为这是过渡方案。
慢模型 ER
- 做长时间的Thinking和推理
- 可以做Web Search、查Calendar、查天气
- 可以先想20秒,制定计划
- 与用户确认计划是否合理
- 本质是大脑的慢思考
快模型 VLA
- 输出Robot Action,执行具体操作
- 每秒做5-10次决策
- 必须非常快速
- 模型不能太大
- 本质是大脑的快思考/本能
为什么是过渡而非终局
双模型的根本问题
- 两个模型之间用语言交流,而语言是low bandwidth的交流方式
- 语言会丢掉很多信息——一个统一模型内部不需要额外interface
- 当前受限于算力:统一模型必须非常大(要做reasoning),无法实时运行
- 再过几年算力不再是问题时,unified model是最佳方案
谭捷的端到端信仰
谭捷
有的时候你为了解决一些现实中的问题,你会有一些shortcut。但是至少从我过去的这个经验告诉我,也许你直接投入最终你相信的那个端到端的大模型,最后那个可能会胜出。
谭捷用自己的亲身经历佐证:早年他也做过"传统控制+强化学习调参"的混合方案,效果立竿见影,但最终整个领域走向了纯端到端的强化学习。历史证明,shortcut可能反而浪费时间。
自动驾驶的"端到端"并不彻底
谭捷指出一个常被忽视的事实:自动驾驶的"端到端"其实并不包含planning——路径规划仍然用传统方法(Google Map/百度地图),只有执行层是端到端的。这与机器人需要的真正端到端(从感知到规划到执行全统一)有本质区别。
七、数据金字塔:机器人的核心瓶颈
谭捷反复强调:如果只解决一个最重要的问题就能带来飞跃,那就是数据问题。
机器人数据金字塔
| 层级 | 数据类型 | 特点 | 用途 |
| 底层 | 互联网数据 | 量极大、scalable,但与机器人gap大 | 预训练:学习物理直觉 |
| 中下层 | Egocentric Video(第一视角视频) | YouTube上大量存在,采集容易(戴眼镜/camera) | 但人与robot形态不同,尚不知如何有效利用 |
| 中层 | Simulation数据 | 与robot形态更接近,有action标注,但存在sim2real gap | 过渡训练,用算力换精度 |
| 顶层 | Robot-specific摇操数据 | 质量最高但成本极高、量最少 | 后训练:精细任务的高质量学习 |
为什么数据是第一瓶颈
谭捷
我确信如果就现在的数据量,完全没有办法saturate模型的能力。所以现在你还没有发现第二个瓶颈是什么。
与语言模型数据的根本差异
- 语言模型的数据是free的——互联网上已有海量文本
- 语言是一个相对narrow的domain
- Robotics是在一个极度复杂的instruction-environment空间中操作
- 需要极大量的diverse数据,但这些数据现在不存在
数据质量的评判困境
Data Foundry的尴尬处境
新兴产业Data Foundry采集了大量数据卖给大厂,但机器人领域没有标准化的数据质量评判方法。研究者只能凭经验判断(数据够不够smooth、有没有踩过等)。结果:Data Foundry说"你们模型没训好",模型团队说"你们数据没采好",双方无法达成一致。这本身是一个亟待解决的科研问题。
八、仿真数据 vs 真实数据:信仰之争
谭捷明确表示:终局不可能完全靠摇操的真实数据解决机器人问题。这在机器人学界是一个核心分歧。
真实数据派的逻辑
- 没有sim-to-real gap
- 加数据立刻看到效果提升
- 路径清晰、可验证
- 但:成本极高、不scalable
- 最终必然撞上玻璃天花板
仿真/Scalable数据派的逻辑
- 可以用算力生成无穷无尽的数据
- 初期效果可能不明显(在noise范围内)
- 需要基础研究突破
- 但:一旦突破就没有玻璃天花板
- 谭捷的信仰:"scalable data"
谭捷
很多research都是信仰问题。我信仰的是scalable data——包括仿真数据、包括人带着camera采集的数据、包括视频生成模型生成的数据。这些东西都是可以用算力来给你无穷无尽的数据的。
仿真的定义正在模糊
从物理仿真到生成式仿真
- 传统仿真:Bullet、MuJoCo、Isaac Gym——在计算机中解物理方程
- 新仿真:视频生成模型(Veo、Sora2)——生成的视频如果物理正确,也是一种仿真
- 谭捷判断:不远的将来,传统物理仿真会被生成式模型仿真取代
生成式仿真的优势
传统仿真要生成500个不同的家庭场景,需要一个个手工建模。生成式仿真只需500个不同的文字prompt,瞬间生成完全不同的场景。但当前存在两大瓶颈:幻觉(如体操翻滚时多出腿)和非物理现象。
泛化性是coverage问题,不是真实vs虚拟的问题
谭捷
真实数据没有sim-to-real gap,但是泛化性是数据的coverage导致的,并不是因为它是真实数据还是虚拟数据。如果你从来没有采集过在厨房烧饭的数据,就很难你的模型会烧饭。
九、世界模型:VLA之后的下一个范式
谭捷认为VLA目前是效果最好的模型,但业界正在热议的下一个范式是World Model。
核心概念
世界模型的定义与现状
世界模型:给定当前帧+机器人的动作,预测下一帧。关键在于:输入动作可以改变生成的结果。目前绝大多数视频生成模型(如Veo)不接受机器人动作输入,因此还不是世界模型。但Genie更接近——用户可以通过按键改变下一帧的生成。
为什么世界模型可能超越VLA
语言的信息损失问题
- Language是"有信息损失的表达方式"
- 例如:转笔时每个手指的动作,用语言几乎无法描述
- 很多好的表达方式应该是visual的
- 世界模型生成的是下一帧图像,而非文字——信息保真度更高
VLA、世界模型与强化学习的关系
| 架构 | 输入 | 输出 | 现状 |
| VLA | Vision + Language | Action | 当前效果最好,探索已相对converge |
| World Model (VLV) | Vision + Language | 下一帧Vision | 前沿方向,硅谷非常流行 |
| VLA + RL | Vision + Language + Reward | Action | "做出来可厉害了"但不是终局 |
| 未来统一 | Vision + Language | Vision -> Action | 先预测下一帧,再基于视觉生成动作 |
世界模型做得最好的是谁
谭捷认为DeepMind做得不错,OpenAI(Sora)也做得不错,另外还有很多小公司。他对Sora2的评价是"从Sora到Sora2肯定是质的飞跃",但Sora2和Veo3之间"没有太本质或让人特别惊艳的地方"。
十、触觉与多模态:从夹爪到灵巧手
谭捷分享了一段关于触觉的认知变化,是他个人心路历程中印象深刻的部分。
触觉认知的三次翻转
最初:相信触觉重要
直觉上认为触觉(tactile sensing)对机器人非常重要,因为人每天都通过皮肤感受触摸。
Aloha论文冲击:转向纯视觉
Stanford的Aloha论文证明:完全通过视觉摇操,机器人可以做非常复杂的事情(如从皮包里拿出信用卡这样极薄的物体)。"狠狠打了我的脸"——开始认为视觉可以解决95%的问题。
灵巧手时代:重回触觉
用灵巧手做"剪刀"实验时,因为没有触觉反馈,无法判断何时开合,手指在剪刀环中空转却无法控制。"当你有灵巧手做复杂行为时,触觉必不可少。"
核心发现:触觉的重要性与硬件演进阶段绑定
在夹爪时代,视觉确实可以解决95%的问题——因为夹爪动作简单,远距离视觉就能判断开合状态。但在灵巧手时代,五指的复杂动作使得纯视觉不足以提供精确的力反馈信息。谭捷的结论:觉得触觉不重要的人,可能只是因为当前硬件的发展阶段还没有到。
关于马斯克"纯视觉"论的反驳
谭捷
通过视觉学习东西,和通过视觉解决问题,是两个不同的问题。机器人看YouTube视频学会任务——我非常同意。但完全通过视觉解决所有问题——当我们说通用人形机器人有五指灵巧手、能做人所有能做的任务的时候,触觉必不可少。
十一、通用 vs 专用:Generalist终将胜出
谭捷在通用机器人与专用机器人的路线之争上有明确立场。
为什么通用路线会赢
大模型已经证明的规律
- 以前的语言模型都是specialized——英翻中一个模型、QA另一个模型
- 当出现真正的generalist model时,specialist model完全不能与之竞争
- 这个规律将在机器人领域重演
谭捷
当一个generalist真正成型的话,specialist其实很难生存。因为我一个机器人可以做你的事情,但我还可以做100个其他不同的事情。
但通用路线需要"信仰"支撑
大佬效应与资源汇聚
- 做通用人形机器人和做专用机器人,两条路并无对错
- 但一个visionary的大佬(如Elon Musk)灌输概念后,吸引追随者、资金、人才
- 最终这条路径因为资源集中而成为被解决的路径
- 类似Waymo vs Tesla的策略分歧——Waymo直奔L4,Tesla从L2渐进
如果只bet一种
极端推论:通用机器人甚至可以替代自动驾驶
谭捷做了一个极端推演:如果有了超越人类智能的通用人形机器人,理论上它可以坐在驾驶座上开车,消费者就不需要买有自动驾驶功能的更贵的车了。虽然这个场景"不一定会实现",但它揭示了一个逻辑:generalist一旦成熟,大量specialist方案将失去存在意义。
十二、Google DeepMind:从10人到150人的组织进化
谭捷作为团队的"变老机"员工,亲历了Google Robotics从松散的学术小组到集团军作战的组织变革。
10人
2015年Google Brain Robotics
150人
当前Google DeepMind Robotics
120人
Gemini Robotics 1代作者
160-180人
Gemini Robotics 1.5作者
两个时代的对比
早期:松散管理
- 每个researcher独当一面
- "You can do whatever you like"
- 像"very well paid PhD"
- 资源分配不是问题
- 但个人impact有限,很难做大事
当前:集团军作战
- 需要大团队齐心协力
- 分工明确:infra、research、evaluation、data collection、maintenance
- 需要强算力和强协调
- "真的需要一个非常大的团队才能把这样一件事情做好"
自上而下 + 自下而上的双轨
Gemini Robotics项目
- 自上而下:确定方向、timeline、资源分配
- What是自上而下决定的
- How经常是自下而上的——如Motion Transfer就是3-4个小团队各自探索、互相兼容后整合
大公司病的真实挑战
谭捷
我想试一下这个新的机器人,以前在谷歌可能需要超过30个business days,从你表达意愿到发出purchase order。这都非常非常的慢。我不得不跟很多内部团队说:这个时代你是等不起的。
谭捷的另一个核心工作是Research Iteration Speed——对抗大公司的流程阻力。数据使用需要过due diligence、legal compliance,可能需要几周才能用上一个新数据集。好在DeepMind管理层对robotics非常重视,开了很多special case来加速。
大力是必要条件,但非充分条件
被问及"Google现在相信大力出奇迹吗",谭捷的回答精确而克制:大力(scale up)是necessary condition——不scale up很难有奇迹发生。但大力不是sufficient condition——光堆算力堆数据而缺乏创新是不够的。
十三、硅谷AI人才战争与华人崛起
Meta的搅局
谭捷确认Meta对硅谷AI人才市场造成了巨大扰动,将AI人才价格"超高了"。
AI人才高薪的三种解释
- 供需论:所有大公司都AI First,需求暴增但供给(尤其顶级人才)极其有限
- 价值论:算力极贵,用好算力产生的价值远大于人才cost
- 替代论:挖人或acqui-hire比重新建团队便宜
留人的方法
谭捷
最优质的人真正care的不一定是钱。他们相信机器人行业很快会有一个质的变革。如果这个变革发生,他们希望在the driver seat。一个有使命感的人,他不会容忍说I'm on a wrong ship。
华人在硅谷AI界的崛起
谭捷团队的华人比例
- 2015年加入时:唯一的华人
- 现在:团队50%-60%是华人
- 原因:华人数学好、吃苦耐劳、talent又能吃苦
谭捷 转述一位白人PhD
他说他真的希望我们team能多招点华人。他说他学到一个词叫"牛马"。他特别喜欢自己做牛做马。
华人打破"管理层天花板"的契机
过去华人在硅谷大公司管理层占比低,主要原因是表达能力和文化适应。但AI时代的核心竞争力是技术实力和勤奋,这恰恰是华人的优势。谭捷判断华人"毫无疑问会在硅谷大公司占据越来越重要的位置"。他同时指出,很多华人也在不断adapt西方文化和规则,印度人在表达和外向性上的优势正在被追平。
十四、机器人五阶段论与时间线预测
谭捷提出了机器人发展的五阶段模型。
Stage 1: Automation(已实现)
车厂中的固定编程机器人,所有动作都是预设的规则和路径。
Stage 2: Teleoperated Robot(正在发生)
硬件完善但无大脑,通过摇操完成任务。Tesla在很多场景中使用摇操,但有时难以分辨是摇操还是自主。
Stage 3: Narrow Generalist(2-3年后)
智能且自主,但只在特定领域工作。类比自动驾驶——智能但不做所有事情。
Stage 4: True Generalist(5-10年后)
可以做家庭里所有事情,与人类能力相当。人形机器人真正进入家庭的节点。
Stage 5: Superhuman Capability
因为强化学习和机器人自身的物理优势(存储、power density等),在很多领域超越人类智能和体能。
机器人像几岁的小孩
发展极度不均衡
- Locomotion:已超越成年人——"那个人形跑的比我快"
- 夹爪Manipulation:像2-3岁小孩——"抓的不是很稳但能大概理解指令"
- 灵巧手Manipulation:nothing works
- 整体评价:"发展的非常不同步不均"
落地顺序判断
先产业后家庭
- 5年内:在制造、物流、超市等传统产业落地,有泛化能力而非一成不变的自动化
- 10年内:开始广泛进入家庭
- 家庭落地需要更长时间,因为场景更复杂、安全要求更高
十五、泡沫、安全与冷静判断
行业过度乐观的警告
谭捷
绝大多数不在机器人行业里的人,对机器人的发展是overestimate的。大家习惯于把最好的结果拿出来拍一个video,那个video可能只是代表了我拍了10遍里面最好的那个结果。
泡沫的条件分析
- 如果发展速度持续加快 + 落地持续发生 -> 可能不是泡沫
- 如果人形机器人要进入家庭 -> 那还挺遥远
- "能干活的humanoid机器人现在是一片荒漠"
- 投资人也经常overestimate整个行业的发展
安全问题
谭捷对AI安全的立场
需要时时刻刻记住AI safety和机器人safety。Google DeepMind有Responsibility and Safety Council审查所有模型的社会影响和安全后果。在worst case scenario中,如果机器人能力超越了对AI安全的理解,"应该停下机器人能力的发展,让AI safety catch up,然后再齐头并进"。当AI能够自我迭代时,人类面临生存问题。
对中美差异的观察
中国优势
- 硬件发展特别快(宇树、智元、星海图等)
- 供应链、制造、本体、甚至一些控制做得相当好
- 为全世界提供便宜又优质的机器人硬件
- 生活便捷度令谭捷印象深刻
硅谷优势
- 长期信仰文化——即使没有初期结果也愿意投入10年
- AI智能发展更快
- 中国相对追求短期目标和快速验证
- 马斯克式的visionary推动力
谭捷
很多可能国内的企业家投资人希望说,我先给你一点点钱,然后你踩十几个小时数据给我看结果。但是可能那开始初期的钱是远远不够的。在技术上真的需要一个信仰。
十六、关键数据汇总
| 指标 | 数据 |
| 谭捷加入Google时间 | 约2015年,团队仅10人 |
| 当前团队规模 | 约150人 |
| Gemini Robotics 1.5作者数 | 160-180人 |
| 华人占比 | 50%-60% |
| 简单抓放成功率 | 90%-100% |
| 精细操作成功率 | 30%-40% |
| 到GPT-3/4时刻 | 2-3年 |
| 真正落地时间 | 5-10年 |
| 家庭广泛落地 | 10年 |
| 谭捷每周工作时长 | 70-80小时 |
| CORO上机器人做未见任务 | 25个task完成10个 |
| 跨本体测试机器人数 | 3种(Aloha/Franca/Unitronic) |
| 夹爪时代视觉解决比例 | 约95% |
| VLA Inference频率 | 每0.5-1秒 |
十七、启示与延伸思考
1. 机器人智能仍然深度依赖大模型基座,尚未独立
尽管国内有声音强调"具身智能基座模型的独立性",谭捷从Google DeepMind的实践出发明确指出:当前机器人大模型本质上是在多模态大模型上做fine-tuning,加入action数据输出。几乎没有公司从头pretrain机器人专属大模型——因为cost和data都不允许。Gemini的vision encoder提供了"come for free"的visual generalization。这意味着在可预见的将来,拥有强大基座模型的大公司在机器人智能上有结构性优势。
2. 跨本体迁移可能是解决数据瓶颈的关键突破口
Cross-embodiment transfer不是一个渐进式改良,而是谭捷所说的"质变"。它从根本上改变了数据的经济学:不同机器人采集的数据可以互相利用,数据的边际价值不再局限于单一本体。如果这条路走通,机器人领域的数据飞轮有可能真正转起来。但当前限制也很明确:只限于"形态差距不大的双臂机器人"之间的任务层面迁移,离真正的跨形态通用性还有距离。
3. "信仰"在前沿研究中是一个被低估的变量
谭捷多次使用"信仰"一词:仿真数据vs真实数据是信仰问题,长期投入vs短期验证是信仰问题。硅谷的核心优势不在于技术本身,而在于愿意为尚未证明的方向持续投入10年的文化。这与中国"先给一点钱看结果"的方式形成鲜明对比。对于需要大规模数据和长期积累的机器人领域,这种文化差异可能产生路径分化。
4. 触觉的重要性与硬件阶段绑定,当前被低估
谭捷的剪刀实验揭示了一个被广泛忽视的问题:纯视觉方案在夹爪时代看起来够用,是因为硬件能力太弱、任务太简单。一旦进入灵巧手时代,触觉变得"必不可少"。这意味着当前围绕"纯视觉是否足够"的争论可能是阶段性的伪命题——答案取决于我们在讨论哪一代硬件。
5. 双模型架构是算力限制的产物,终将被统一模型取代
ER+VLA的快慢双模型结构在当前阶段有实用价值,但谭捷坦承这是过渡方案。核心问题是两个模型之间用语言交流导致信息损失。这与自动驾驶从分模块到端到端的演进完全一致。关键变量是算力:当inference算力足够便宜和快速时,一个足够大的unified model将同时处理推理和执行。
6. 生成式仿真即将颠覆传统物理仿真
视频生成模型(Veo、Sora2)作为新型"仿真"的崛起,可能是机器人数据问题的终极解决方案之一。相比传统仿真需要手工建模500个场景,生成式仿真只需500个prompt。当前瓶颈(幻觉和非物理现象)是暂时的。谭捷承认自己此前低估了视频生成的发展速度——他2023年还认为2030年才能有应用级的视频生成。
7. demo与现实的鸿沟是机器人行业最大的认知陷阱
谭捷反复强调"overestimate"的问题:demo视频通常是拍了10遍中最好的那次,投资人和公众据此判断"明年就能买到家用机器人"。他一年前团队连让机器人抓起圣诞袜都做不到,而今天机器人在CORO展上对25个未见过的任务完成了10个。进步巨大但gap也巨大——这种"快速进步中的巨大gap"恰恰是泡沫滋生的温床。
8. Google的路线更像Waymo——与中国硬件创业公司互补
谭捷自己也意识到,Google做机器人大脑的路径类似Waymo——先解决最终的智能问题。而中国硬件创业公司(宇树、智元等)有硬件和数据采集优势,更接近Tesla的数据飞轮路线。但关键区别是:Tesla的车已经"有用"所以数据飞轮能转起来,而中国机器人的硬件"还没有达到一个bar使得它是有用的"。在地缘政治之外,中美在这个领域天然互补。
延伸阅读
- EP.98 逐篇讲解机器人基座模型和VLA经典论文 — 物理AI技术基础
- EP.106 和王鹤聊具身智能 — 仿真数据驱动派的代表观点
- EP.109 和谢晨聊仿真与合成数据 — 数据问题的深入讨论
- EP.120 小鹏刘先明首次访谈 — 产业界视角的AI转型
- EP.143 何小鹏第二次访谈 — 物理AI、缝合怪、机器人创业的产业视角