深度研究 — #121 对DeepMind谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

← 返回目录

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

嘉宾背景：从图形学到机器人
两次范式转换：强化学习与大模型
机器人领域的发展阶段判断
Gemini Robotics 1.5：Thinking与VLA
跨本体迁移：数据瓶颈的破局
快慢双模型架构与端到端之争
数据金字塔：机器人的核心瓶颈
仿真数据 vs 真实数据：信仰之争
世界模型：VLA之后的下一个范式
触觉与多模态：从夹爪到灵巧手
通用 vs 专用：Generalist终将胜出
Google DeepMind：从10人到150人的组织进化
硅谷AI人才战争与华人崛起
机器人五阶段论与时间线预测
泡沫、安全与冷静判断
关键数据汇总
启示与延伸思考

一、嘉宾背景：从图形学到机器人

谭捷是Google DeepMind机器人团队的高级研究科学家兼技术负责人，加入团队近十年。他的研究轨迹从计算机图形学出发，横跨动画仿真、深度强化学习，最终聚焦于将基础模型应用于机器人领域。

学术与职业路径

上海交大毕业

本科/硕士毕业后在上海做了一个短期创业，类似"库加勒"，做图形学方向。

Georgia Tech 博士

师从Karen Liu（后转至Stanford），研究方向为Physics Based Character Animation——用数学和物理方法在仿真环境中让虚拟角色自然行走。

Lytro光场相机

博士毕业后在硅谷加入光场相机创业公司Lytro，工作约一年半。

2015年加入Google Brain

团队当时只有约10人做Robotics。后与DeepMind合并，成为Google DeepMind Robotics Team，目前团队约150人。

谭捷

机器人就是在真实世界里做图形学，或者图形学是在simulation里面做机器人。

图形学与机器人的深层关联

谭捷指出，Berkeley教授Sergey Levine也是从图形学转向机器人的。两个领域的核心相似性在于：图形学中所有东西都在simulation里，可以获取机器人的所有信息（关节、力等），因此天然适合用AI手段解决控制问题。这种从仿真到现实的思路，后来成为机器人领域最重要的范式之一。

二、两次范式转换：强化学习与大模型

谭捷将过去十年机器人领域的进展归纳为两次关键的Paradigm Shift。

第一次：强化学习 (2018)

谭捷在Google的第一篇论文Sim-to-Real：用深度强化学习解决四足机器人敏捷运动
灵感来源：AlphaGo，使用PPO算法
开创了强化学习+sim2real在机器人步态控制上的应用
五年内从"波士顿动力独有的黑科技"变成"高中生都能做"

第二次：大模型 (近两年)

机器人获得了common sense和语言理解能力
任何人都可以用自然语言指挥机器人
从"需要PhD才能做"到"prompt engineering所有人都能做"
最近1.5年硅谷所有公司投入巨资

核心类比

大脑与小脑

强化学习 = 小脑（执行层：走路、控制平衡、手部manipulation）。大模型 = 大脑（思维层：推理、做计划、理解语言）。机器人需要大脑和小脑都具备才能真正智能化。

技术普及的加速规律

谭捷

当一个技术越来越容易用的时候，那个技术很快就会普及。以前用MPC你需要一个PhD才能理解那个数学。现在很多高中生都可以网上下一个强化学习的包比如PPO，然后从NV那拿一个Isaac Gym，然后train一下deploy一下。

从MPC到PPO到Prompt Engineering的降门槛曲线

这一观察揭示了技术扩散的核心规律：MPC（需要PhD）-> 强化学习PPO（高中生可用）-> 大模型Prompt Engineering（所有人可用）。每一次门槛降低都伴随着大规模产业变革。谭捷判断大模型的出现"可能很快会解决很多不仅是robotics，是各个行业的问题"。

三、机器人领域的发展阶段判断

谭捷对机器人当前发展阶段给出了清醒而审慎的评估。

进展很快，但gap很大

当前能做到的

单一任务或一系列接近的任务可以做得很好（如Dyna的折衣服demo）
简单的pick and place成功率可达90%-100%
基于强化学习的locomotion已基本解决

当前做不到的

真正的泛化能力（generalization）还差得很远
精细操作（如拉拉链）成功率仅30%-40%，现实中不可用
需要额外获取信息的复杂推理任务
灵巧手的manipulation几乎"nothing works"

90%+

简单抓放成功率

30-40%

精细操作成功率

2-3年

到GPT-3/4时刻

5-10年

真正落地时间

从demo到落地的时间鸿沟

谭捷

从想法到prototype可能六个月。从论文到有胆量做live demo可能一两年。从live demo到真正落地可能五到十年。你就想自动驾驶，从那个demo到真正落地隔了十年并不是一个非常夸张的事情。

机器人从研究到落地的时间鸿沟

四、Gemini Robotics 1.5：Thinking与VLA

谭捷详细介绍了Gemini Robotics 1.5的两个核心突破。

突破一：将Thinking加入VLA模型

技术创新

Thinking Trace + Robot Action 交替输出

传统VLA模型：图像+语言输入 -> 直接输出马达角度。新模型在输出动作之前，先输出文本形式的思考过程（Thinking Trace），再输出动作，然后继续思考、继续行动。这使得复杂的多步骤任务可以被分解执行。

示例：按颜色分类衣服

机器人先"想"：这件衣服是什么颜色
再"想"：对应的那一堆在哪里
然后输出Action：抓取并放置
再继续思考下一步应该做什么

机器人Thinking vs 大模型Thinking的关键差异

维度	大语言模型	机器人VLA
Thinking时长	可以想20秒	每步最多0.5秒
Inference频率	无实时约束	每0.5-1秒需要做决策
模型大小	非常大	受实时性限制，不能太大
Token Budget	充裕	极度受限
复杂度上限	可做长链推理	仅支持几步的简单分解

谭捷

如果你交给机器人一个任务，如果他每一步都要想20秒，你就崩溃了。所以他可能每一步想的只有0.5秒。

Thinking带来的第二个好处：透明度

机器人可以向人表达"我下一步想干什么"和"为什么这么干"。这在安全性和人机交互方面都有重要价值——人知道机器人在怎么想，会更安心。

Thinking容易出的错：过拟合

Thinking Trace的标注瓶颈

训练时需要标注"机器人是怎么想的"，如果标注过于单一，模型只会在训练过见过的任务上产生合理的Thinking Trace。面对未见过的任务，其思考过程会"非常奇怪"，做出完全不合理的行为。这是overfit问题在Thinking层面的新表现。

五、跨本体迁移：数据瓶颈的破局

Gemini Robotics 1.5的第二个重大突破是Cross-Embodiment Transfer（跨本体迁移），谭捷称之为"质变"。

问题的本质

为什么机器人数据如此稀缺

机器人A采的数据只能用于机器人A
换了摄像头位置、多了一个自由度，之前数据全部作废
不同构型的机器人数据不能互用
每个机器人都需要单独采集数据，总量更少

Motion Transfer的实验发现

谭捷描述了一个令他团队"非常激动人心"的实验结果：

关键实验

Aloha从未见过垂直场景，却能做到

Aloha是一个桌面机器人，所有训练数据都是在平面上的操作。它从未见过3D垂直场景（如书架）。Franca是工业级机器人，在垂直工作台上采集了大量数据。当两者数据混合训练后，Aloha突然能在垂直场景中操作——尽管它从未见过这类数据。

测试机器人种类

6-7

自由度范围

三个测试机器人分别是：Aloha（简单双臂桌面机器人）、Franca（工业级powerful机器人）、Unitronic人形机器人。它们构型很不一样，但都是双臂的。

跨本体迁移的限制

泛化的边界

不是"新机器人不用训练就能做"——而是在已有训练数据的机器人上，没见过的任务（但别人见过）也能完成
是任务层面的泛化，不是机器人本体层面的泛化
Embodiment Gap越大，迁移越难：单臂夹爪到双臂人形非常困难
夹爪到灵巧手的迁移也比夹爪到夹爪难得多
如果某个机器人已有大量数据，跨本体带来的正向增量会很小

谭捷

Motion Transfer... It's very secret.

跨本体迁移：数据共享与任务泛化

六、快慢双模型架构与端到端之争

Gemini Robotics 1.5采用了ER（Embodied Reasoning）+ VLA的双模型结构，谭捷认为这是过渡方案。

慢模型 ER

做长时间的Thinking和推理
可以做Web Search、查Calendar、查天气
可以先想20秒，制定计划
与用户确认计划是否合理
本质是大脑的慢思考

快模型 VLA

输出Robot Action，执行具体操作
每秒做5-10次决策
必须非常快速
模型不能太大
本质是大脑的快思考/本能

为什么是过渡而非终局

双模型的根本问题

两个模型之间用语言交流，而语言是low bandwidth的交流方式
语言会丢掉很多信息——一个统一模型内部不需要额外interface
当前受限于算力：统一模型必须非常大（要做reasoning），无法实时运行
再过几年算力不再是问题时，unified model是最佳方案

谭捷的端到端信仰

谭捷

有的时候你为了解决一些现实中的问题，你会有一些shortcut。但是至少从我过去的这个经验告诉我，也许你直接投入最终你相信的那个端到端的大模型，最后那个可能会胜出。

谭捷用自己的亲身经历佐证：早年他也做过"传统控制+强化学习调参"的混合方案，效果立竿见影，但最终整个领域走向了纯端到端的强化学习。历史证明，shortcut可能反而浪费时间。

自动驾驶的"端到端"并不彻底

谭捷指出一个常被忽视的事实：自动驾驶的"端到端"其实并不包含planning——路径规划仍然用传统方法（Google Map/百度地图），只有执行层是端到端的。这与机器人需要的真正端到端（从感知到规划到执行全统一）有本质区别。

七、数据金字塔：机器人的核心瓶颈

谭捷反复强调：如果只解决一个最重要的问题就能带来飞跃，那就是数据问题。

机器人数据金字塔

层级	数据类型	特点	用途
底层	互联网数据	量极大、scalable，但与机器人gap大	预训练：学习物理直觉
中下层	Egocentric Video（第一视角视频）	YouTube上大量存在，采集容易（戴眼镜/camera）	但人与robot形态不同，尚不知如何有效利用
中层	Simulation数据	与robot形态更接近，有action标注，但存在sim2real gap	过渡训练，用算力换精度
顶层	Robot-specific摇操数据	质量最高但成本极高、量最少	后训练：精细任务的高质量学习

机器人数据金字塔：量与质的权衡

为什么数据是第一瓶颈

谭捷

我确信如果就现在的数据量，完全没有办法saturate模型的能力。所以现在你还没有发现第二个瓶颈是什么。

与语言模型数据的根本差异

语言模型的数据是free的——互联网上已有海量文本
语言是一个相对narrow的domain
Robotics是在一个极度复杂的instruction-environment空间中操作
需要极大量的diverse数据，但这些数据现在不存在

数据质量的评判困境

Data Foundry的尴尬处境

新兴产业Data Foundry采集了大量数据卖给大厂，但机器人领域没有标准化的数据质量评判方法。研究者只能凭经验判断（数据够不够smooth、有没有踩过等）。结果：Data Foundry说"你们模型没训好"，模型团队说"你们数据没采好"，双方无法达成一致。这本身是一个亟待解决的科研问题。

八、仿真数据 vs 真实数据：信仰之争

谭捷明确表示：终局不可能完全靠摇操的真实数据解决机器人问题。这在机器人学界是一个核心分歧。

真实数据派的逻辑

没有sim-to-real gap
加数据立刻看到效果提升
路径清晰、可验证
但：成本极高、不scalable
最终必然撞上玻璃天花板

仿真/Scalable数据派的逻辑

可以用算力生成无穷无尽的数据
初期效果可能不明显（在noise范围内）
需要基础研究突破
但：一旦突破就没有玻璃天花板
谭捷的信仰："scalable data"

谭捷

很多research都是信仰问题。我信仰的是scalable data——包括仿真数据、包括人带着camera采集的数据、包括视频生成模型生成的数据。这些东西都是可以用算力来给你无穷无尽的数据的。

仿真的定义正在模糊

从物理仿真到生成式仿真

传统仿真：Bullet、MuJoCo、Isaac Gym——在计算机中解物理方程
新仿真：视频生成模型（Veo、Sora2）——生成的视频如果物理正确，也是一种仿真
谭捷判断：不远的将来，传统物理仿真会被生成式模型仿真取代

生成式仿真的优势

传统仿真要生成500个不同的家庭场景，需要一个个手工建模。生成式仿真只需500个不同的文字prompt，瞬间生成完全不同的场景。但当前存在两大瓶颈：幻觉（如体操翻滚时多出腿）和非物理现象。

泛化性是coverage问题，不是真实vs虚拟的问题

谭捷

真实数据没有sim-to-real gap，但是泛化性是数据的coverage导致的，并不是因为它是真实数据还是虚拟数据。如果你从来没有采集过在厨房烧饭的数据，就很难你的模型会烧饭。

九、世界模型：VLA之后的下一个范式

谭捷认为VLA目前是效果最好的模型，但业界正在热议的下一个范式是World Model。

核心概念

世界模型的定义与现状

世界模型：给定当前帧+机器人的动作，预测下一帧。关键在于：输入动作可以改变生成的结果。目前绝大多数视频生成模型（如Veo）不接受机器人动作输入，因此还不是世界模型。但Genie更接近——用户可以通过按键改变下一帧的生成。

为什么世界模型可能超越VLA

语言的信息损失问题

Language是"有信息损失的表达方式"
例如：转笔时每个手指的动作，用语言几乎无法描述
很多好的表达方式应该是visual的
世界模型生成的是下一帧图像，而非文字——信息保真度更高

VLA、世界模型与强化学习的关系

架构	输入	输出	现状
VLA	Vision + Language	Action	当前效果最好，探索已相对converge
World Model (VLV)	Vision + Language	下一帧Vision	前沿方向，硅谷非常流行
VLA + RL	Vision + Language + Reward	Action	"做出来可厉害了"但不是终局
未来统一	Vision + Language	Vision -> Action	先预测下一帧，再基于视觉生成动作

世界模型做得最好的是谁

谭捷认为DeepMind做得不错，OpenAI（Sora）也做得不错，另外还有很多小公司。他对Sora2的评价是"从Sora到Sora2肯定是质的飞跃"，但Sora2和Veo3之间"没有太本质或让人特别惊艳的地方"。

十、触觉与多模态：从夹爪到灵巧手

谭捷分享了一段关于触觉的认知变化，是他个人心路历程中印象深刻的部分。

触觉认知的三次翻转

最初：相信触觉重要

直觉上认为触觉（tactile sensing）对机器人非常重要，因为人每天都通过皮肤感受触摸。

Aloha论文冲击：转向纯视觉

Stanford的Aloha论文证明：完全通过视觉摇操，机器人可以做非常复杂的事情（如从皮包里拿出信用卡这样极薄的物体）。"狠狠打了我的脸"——开始认为视觉可以解决95%的问题。

灵巧手时代：重回触觉

用灵巧手做"剪刀"实验时，因为没有触觉反馈，无法判断何时开合，手指在剪刀环中空转却无法控制。"当你有灵巧手做复杂行为时，触觉必不可少。"

核心发现：触觉的重要性与硬件演进阶段绑定

在夹爪时代，视觉确实可以解决95%的问题——因为夹爪动作简单，远距离视觉就能判断开合状态。但在灵巧手时代，五指的复杂动作使得纯视觉不足以提供精确的力反馈信息。谭捷的结论：觉得触觉不重要的人，可能只是因为当前硬件的发展阶段还没有到。

关于马斯克"纯视觉"论的反驳

谭捷

通过视觉学习东西，和通过视觉解决问题，是两个不同的问题。机器人看YouTube视频学会任务——我非常同意。但完全通过视觉解决所有问题——当我们说通用人形机器人有五指灵巧手、能做人所有能做的任务的时候，触觉必不可少。

十一、通用 vs 专用：Generalist终将胜出

谭捷在通用机器人与专用机器人的路线之争上有明确立场。

为什么通用路线会赢

大模型已经证明的规律

以前的语言模型都是specialized——英翻中一个模型、QA另一个模型
当出现真正的generalist model时，specialist model完全不能与之竞争
这个规律将在机器人领域重演

谭捷

当一个generalist真正成型的话，specialist其实很难生存。因为我一个机器人可以做你的事情，但我还可以做100个其他不同的事情。

但通用路线需要"信仰"支撑

大佬效应与资源汇聚

做通用人形机器人和做专用机器人，两条路并无对错
但一个visionary的大佬（如Elon Musk）灌输概念后，吸引追随者、资金、人才
最终这条路径因为资源集中而成为被解决的路径
类似Waymo vs Tesla的策略分歧——Waymo直奔L4，Tesla从L2渐进

如果只bet一种

端到端

唯一架构选择

人形

唯一形态选择

Scalable Data

唯一数据信仰

极端推论：通用机器人甚至可以替代自动驾驶

谭捷做了一个极端推演：如果有了超越人类智能的通用人形机器人，理论上它可以坐在驾驶座上开车，消费者就不需要买有自动驾驶功能的更贵的车了。虽然这个场景"不一定会实现"，但它揭示了一个逻辑：generalist一旦成熟，大量specialist方案将失去存在意义。

十二、Google DeepMind：从10人到150人的组织进化

谭捷作为团队的"变老机"员工，亲历了Google Robotics从松散的学术小组到集团军作战的组织变革。

10人

2015年Google Brain Robotics

150人

当前Google DeepMind Robotics

120人

Gemini Robotics 1代作者

160-180人

Gemini Robotics 1.5作者

两个时代的对比

早期：松散管理

每个researcher独当一面
"You can do whatever you like"
像"very well paid PhD"
资源分配不是问题
但个人impact有限，很难做大事

当前：集团军作战

需要大团队齐心协力
分工明确：infra、research、evaluation、data collection、maintenance
需要强算力和强协调
"真的需要一个非常大的团队才能把这样一件事情做好"

自上而下 + 自下而上的双轨

Gemini Robotics项目

自上而下：确定方向、timeline、资源分配
What是自上而下决定的
How经常是自下而上的——如Motion Transfer就是3-4个小团队各自探索、互相兼容后整合

大公司病的真实挑战

谭捷

我想试一下这个新的机器人，以前在谷歌可能需要超过30个business days，从你表达意愿到发出purchase order。这都非常非常的慢。我不得不跟很多内部团队说：这个时代你是等不起的。

谭捷的另一个核心工作是Research Iteration Speed——对抗大公司的流程阻力。数据使用需要过due diligence、legal compliance，可能需要几周才能用上一个新数据集。好在DeepMind管理层对robotics非常重视，开了很多special case来加速。

大力是必要条件，但非充分条件

被问及"Google现在相信大力出奇迹吗"，谭捷的回答精确而克制：大力（scale up）是necessary condition——不scale up很难有奇迹发生。但大力不是sufficient condition——光堆算力堆数据而缺乏创新是不够的。

十三、硅谷AI人才战争与华人崛起

Meta的搅局

谭捷确认Meta对硅谷AI人才市场造成了巨大扰动，将AI人才价格"超高了"。

AI人才高薪的三种解释

供需论：所有大公司都AI First，需求暴增但供给（尤其顶级人才）极其有限
价值论：算力极贵，用好算力产生的价值远大于人才cost
替代论：挖人或acqui-hire比重新建团队便宜

留人的方法

谭捷

最优质的人真正care的不一定是钱。他们相信机器人行业很快会有一个质的变革。如果这个变革发生，他们希望在the driver seat。一个有使命感的人，他不会容忍说I'm on a wrong ship。

华人在硅谷AI界的崛起

谭捷团队的华人比例

2015年加入时：唯一的华人
现在：团队50%-60%是华人
原因：华人数学好、吃苦耐劳、talent又能吃苦

谭捷转述一位白人PhD

他说他真的希望我们team能多招点华人。他说他学到一个词叫"牛马"。他特别喜欢自己做牛做马。

华人打破"管理层天花板"的契机

过去华人在硅谷大公司管理层占比低，主要原因是表达能力和文化适应。但AI时代的核心竞争力是技术实力和勤奋，这恰恰是华人的优势。谭捷判断华人"毫无疑问会在硅谷大公司占据越来越重要的位置"。他同时指出，很多华人也在不断adapt西方文化和规则，印度人在表达和外向性上的优势正在被追平。

十四、机器人五阶段论与时间线预测

谭捷提出了机器人发展的五阶段模型。

Stage 1: Automation（已实现）

车厂中的固定编程机器人，所有动作都是预设的规则和路径。

Stage 2: Teleoperated Robot（正在发生）

硬件完善但无大脑，通过摇操完成任务。Tesla在很多场景中使用摇操，但有时难以分辨是摇操还是自主。

Stage 3: Narrow Generalist（2-3年后）

智能且自主，但只在特定领域工作。类比自动驾驶——智能但不做所有事情。

Stage 4: True Generalist（5-10年后）

可以做家庭里所有事情，与人类能力相当。人形机器人真正进入家庭的节点。

Stage 5: Superhuman Capability

因为强化学习和机器人自身的物理优势（存储、power density等），在很多领域超越人类智能和体能。

机器人发展五阶段与时间线

机器人像几岁的小孩

发展极度不均衡

Locomotion：已超越成年人——"那个人形跑的比我快"
夹爪Manipulation：像2-3岁小孩——"抓的不是很稳但能大概理解指令"
灵巧手Manipulation：nothing works
整体评价："发展的非常不同步不均"

落地顺序判断

先产业后家庭

5年内：在制造、物流、超市等传统产业落地，有泛化能力而非一成不变的自动化
10年内：开始广泛进入家庭
家庭落地需要更长时间，因为场景更复杂、安全要求更高

十五、泡沫、安全与冷静判断

行业过度乐观的警告

谭捷

绝大多数不在机器人行业里的人，对机器人的发展是overestimate的。大家习惯于把最好的结果拿出来拍一个video，那个video可能只是代表了我拍了10遍里面最好的那个结果。

泡沫的条件分析

如果发展速度持续加快 + 落地持续发生 -> 可能不是泡沫
如果人形机器人要进入家庭 -> 那还挺遥远
"能干活的humanoid机器人现在是一片荒漠"
投资人也经常overestimate整个行业的发展

安全问题

谭捷对AI安全的立场

需要时时刻刻记住AI safety和机器人safety。Google DeepMind有Responsibility and Safety Council审查所有模型的社会影响和安全后果。在worst case scenario中，如果机器人能力超越了对AI安全的理解，"应该停下机器人能力的发展，让AI safety catch up，然后再齐头并进"。当AI能够自我迭代时，人类面临生存问题。

对中美差异的观察

中国优势

硬件发展特别快（宇树、智元、星海图等）
供应链、制造、本体、甚至一些控制做得相当好
为全世界提供便宜又优质的机器人硬件
生活便捷度令谭捷印象深刻

硅谷优势

长期信仰文化——即使没有初期结果也愿意投入10年
AI智能发展更快
中国相对追求短期目标和快速验证
马斯克式的visionary推动力

谭捷

很多可能国内的企业家投资人希望说，我先给你一点点钱，然后你踩十几个小时数据给我看结果。但是可能那开始初期的钱是远远不够的。在技术上真的需要一个信仰。

十六、关键数据汇总

指标	数据
谭捷加入Google时间	约2015年，团队仅10人
当前团队规模	约150人
Gemini Robotics 1.5作者数	160-180人
华人占比	50%-60%
简单抓放成功率	90%-100%
精细操作成功率	30%-40%
到GPT-3/4时刻	2-3年
真正落地时间	5-10年
家庭广泛落地	10年
谭捷每周工作时长	70-80小时
CORO上机器人做未见任务	25个task完成10个
跨本体测试机器人数	3种（Aloha/Franca/Unitronic）
夹爪时代视觉解决比例	约95%
VLA Inference频率	每0.5-1秒

十七、启示与延伸思考

1. 机器人智能仍然深度依赖大模型基座，尚未独立

尽管国内有声音强调"具身智能基座模型的独立性"，谭捷从Google DeepMind的实践出发明确指出：当前机器人大模型本质上是在多模态大模型上做fine-tuning，加入action数据输出。几乎没有公司从头pretrain机器人专属大模型——因为cost和data都不允许。Gemini的vision encoder提供了"come for free"的visual generalization。这意味着在可预见的将来，拥有强大基座模型的大公司在机器人智能上有结构性优势。

2. 跨本体迁移可能是解决数据瓶颈的关键突破口

Cross-embodiment transfer不是一个渐进式改良，而是谭捷所说的"质变"。它从根本上改变了数据的经济学：不同机器人采集的数据可以互相利用，数据的边际价值不再局限于单一本体。如果这条路走通，机器人领域的数据飞轮有可能真正转起来。但当前限制也很明确：只限于"形态差距不大的双臂机器人"之间的任务层面迁移，离真正的跨形态通用性还有距离。

3. "信仰"在前沿研究中是一个被低估的变量

谭捷多次使用"信仰"一词：仿真数据vs真实数据是信仰问题，长期投入vs短期验证是信仰问题。硅谷的核心优势不在于技术本身，而在于愿意为尚未证明的方向持续投入10年的文化。这与中国"先给一点钱看结果"的方式形成鲜明对比。对于需要大规模数据和长期积累的机器人领域，这种文化差异可能产生路径分化。

4. 触觉的重要性与硬件阶段绑定，当前被低估

谭捷的剪刀实验揭示了一个被广泛忽视的问题：纯视觉方案在夹爪时代看起来够用，是因为硬件能力太弱、任务太简单。一旦进入灵巧手时代，触觉变得"必不可少"。这意味着当前围绕"纯视觉是否足够"的争论可能是阶段性的伪命题——答案取决于我们在讨论哪一代硬件。

5. 双模型架构是算力限制的产物，终将被统一模型取代

ER+VLA的快慢双模型结构在当前阶段有实用价值，但谭捷坦承这是过渡方案。核心问题是两个模型之间用语言交流导致信息损失。这与自动驾驶从分模块到端到端的演进完全一致。关键变量是算力：当inference算力足够便宜和快速时，一个足够大的unified model将同时处理推理和执行。

6. 生成式仿真即将颠覆传统物理仿真

视频生成模型（Veo、Sora2）作为新型"仿真"的崛起，可能是机器人数据问题的终极解决方案之一。相比传统仿真需要手工建模500个场景，生成式仿真只需500个prompt。当前瓶颈（幻觉和非物理现象）是暂时的。谭捷承认自己此前低估了视频生成的发展速度——他2023年还认为2030年才能有应用级的视频生成。

7. demo与现实的鸿沟是机器人行业最大的认知陷阱

谭捷反复强调"overestimate"的问题：demo视频通常是拍了10遍中最好的那次，投资人和公众据此判断"明年就能买到家用机器人"。他一年前团队连让机器人抓起圣诞袜都做不到，而今天机器人在CORO展上对25个未见过的任务完成了10个。进步巨大但gap也巨大——这种"快速进步中的巨大gap"恰恰是泡沫滋生的温床。

8. Google的路线更像Waymo——与中国硬件创业公司互补

谭捷自己也意识到，Google做机器人大脑的路径类似Waymo——先解决最终的智能问题。而中国硬件创业公司（宇树、智元等）有硬件和数据采集优势，更接近Tesla的数据飞轮路线。但关键区别是：Tesla的车已经"有用"所以数据飞轮能转起来，而中国机器人的硬件"还没有达到一个bar使得它是有用的"。在地缘政治之外，中美在这个领域天然互补。

对DeepMind谭捷的访谈：机器人、跨本体、世界模型

目录