谢晨是一位从Cruise自动驾驶仿真起步,历经英伟达自动驾驶仿真负责人、蔚来仿真负责人,最终创业专注于"仿真与合成数据"的技术创业者。本期播客的核心论题极为明确:具身智能正遭遇数据荒,仿真与合成数据是破局的关键路径。
谢晨的论点建立在一个关键前提上:自动驾驶因为汽车平台已被发明上百年,路上有千万辆车持续回传数据,所以真实数据占主体(70%以上)。而具身智能的机器人平台尚未大规模部署,没有百万级机器人在街上跑,因此合成数据必须挑大梁。这不是技术偏好,而是产业阶段决定的必然选择。
谢晨以在Cruise的实操经验为基础,详细拆解了合成数据的完整生产管线。
从真实世界的观察场景出发,通过统计、人工或AI手段泛化场景,生成更多变体,再经过传感器仿真,以车/机器人的视角输出数据,配合自动化标注和人在环的质检,最终形成可用于模型训练的数据集。
从真实世界观察到的场景出发(如路上遇到自行车插入),基于统计或AI手段泛化:不同种类的行人、不同衣服、不同样貌、不同形态(大人小孩老人),不同天气、不同光照。把一个真实问题幻化成成千上万个问题。
静态资产(自行车、车辆、地面、树木等)与动态场景(行人运动轨迹、交通流)的组合,构成完整的仿真世界。
将生成的场景以车/机器人的第一视角观察并输出,包含相机、激光雷达等多传感器模拟。
从早期的2D机器视觉标注(人、车的框框和语义),到越来越多的3D乃至4D标注,包含语义信息。
基于自动化手段和人在环手段验证数据质量。谢晨强调这是他们当时发现的"极其关键的一个环节",直接决定数据能否真正为模型所用。
谢晨从第一性原理出发,提出了两类评价标准。
谢晨坦承,从第一性原理上,合成数据和真实数据之间一定会存在缺口(gap)。但关键不是消灭gap,而是两个问题:(1)知道gap在什么量级时数据就有用了;(2)如何不断减少这个gap。前者需要自己做全栈算法和落地验证,后者需要在Real-to-Sim、仿真引擎、Sim-to-Real每个环节上持续突破。
谢晨在Cruise的6个月攻关中,发现了合成数据的核心价值。当时的背景是:Cruise基于旧金山固定区域运营,每天拿到的数据量有限,但旧金山有大量流浪汉、上坡下坡、浓雾等边角场景——这些场景分布稀少但严重影响算法表现。
每一个长尾场景(corner case)理想状态下需要配1,000到10,000个合成数据。从全貌来看,Cruise当时大概30%左右使用合成数据。
| 维度 | 自动驾驶(L2+) | 具身智能 |
|---|---|---|
| 平台历史 | 汽车已被发明100+年 | 人形机器人平台刚刚诞生 |
| 数据来源 | 千万辆车在路上跑,持续回传数据 | 没有百万级机器人在运行 |
| 数据成本 | 司机(买车人)替车企采集,仅需计算和带宽费用 | 需要专门搭建场景、采集设备 |
| 真实 vs 合成 | 真实数据占最大比例,合成数据针对长尾提升 | 合成数据必须占主体,真实数据为辅 |
| 结论 | 真实数据为主 + 30%合成数据 | 情况完全相反——合成数据为主 |
谢晨明确指出:具身智能的仿真难度远远高于自动驾驶,主要体现在三个维度。
视觉数据可以从照片和视频获取——路上的车、街道、路面、树木都可以生成。但物理交互的数据(力学参数、摩擦系数、铰链特性等)连底层数据都没有,因此也不可能有AI算法去生成。必须首先采集这类数据,并放到仿真中去——这是谢晨公司做的大量Real-to-Sim工作,且不是视觉的Real-to-Sim,而是物理的Real-to-Sim。
Real-to-Sim(真实到仿真)是谢晨反复强调的关键环节。其底层含义是将真实世界的场景、资产、物理参数映射到仿真环境中——不是视觉重建,而是物理重建。
谢晨观察到一个被广泛忽略的问题:很多机器人在真实世界的模型很好,但在仿真中有很多问题。他遇到很多客户的情况是:机器人的手在真实世界可以拿起1-2公斤的东西,但放到仿真里只能拿起0.1公斤。有些团队花了六个月以上还没调好。物理环境和机器人本身都需要被精确对齐。
谢晨提出了一个生动的愿景:好的仿真应该像饮用水一样,人人都可以获取。但现实是"大家产生了大量的仿真,但这些水喝了是会拉肚子的"。
在此基础上还需要:足够高效的并行能力(服务RL)、完善的评价回环(Sim-to-Real验证)。当所有这些都做到后,才是一个"足够好的仿真"。
在Cruise把仿真做到极致,掌握了L4全无人自动驾驶对仿真的核心需求——闭环仿真、强化学习、智能体交互。
负责整个英伟达自动驾驶仿真。到英伟达后有两个关键发现:(1)Orin芯片的前三大客户是蔚小理,而非Waymo和Cruise;(2)大公司执行力不够高,做半年到一年的事情在英伟达可能要花更长时间。
入职前就与李斌(彬哥)约定将来会创业。大约一年内攻破最核心的问题,有效支持了ET7等二代车型基于仿真的大规模评测落地。然后花半年做过渡,并将百度仿真负责人拉过去接替。
最早写的PPT就是"Simulation for Robotics"。但融资时投资人普遍问的不是"什么是仿真",而是"什么是机器人"——"你指的是扫地机器人吗?"那时做人形机器人的公司屈指可数。
谢晨在英伟达发现Orin芯片的前三大客户是蔚小理,而Waymo和Cruise一年只有几百到上千辆的量,根本赶不上中国量产电动车的规模。他瞬间意识到"自动驾驶的下一代的机会、量产的机会一定在中国",这成为他回国创业的核心驱动力之一。德国和日本车企"比较抠",多用高通芯片,真正带动英伟达最高算力芯片的就是蔚小理这类公司。
谢晨对Meta以约300亿美金收购Scale AI给出了极为深入的分析。
谢晨认为Meta看到了一个核心点:未来10万亿公司的入场券一定要掌握AI数据的能力。类比:如果10年前能穿越时空,微软的CEO一定会买英伟达(算力是AI核心能力)。小扎正是看到了同样的逻辑——往未来10年看,Meta要成为10万亿级公司,必须拥有AI的基础原料——数据。
谢晨将全球具身智能产业链划分为四大类公司。
| 层级 | 代表公司 | 核心角色 | 特点 |
|---|---|---|---|
| 硬件公司 | 宇树科技 | 发明机器人本体平台 | 宇树面向学术圈和研究圈,奠定使用标准;还包括灵巧手公司、数据采集硬件公司 |
| Foundation Model | Physical Intelligence(Pi)、SKILD、英伟达GEAR、DeepMind | 基础模型/大脑 | 最终需要10万张以上GPU、大量数据、全球最好人才;大厂极有优势 |
| 垂域落地(软硬结合) | Figure、Tesla Optimus、The Bot Company、Dynarobotics | 在具体场景落地的软硬结合公司 | Figure在工厂场景,Optimus依赖工业场景和xAI大脑,新创公司从机械臂+餐馆/家庭切入 |
| 仿真中心 | 谢晨的公司、Genesis | 以仿真为中心的端到端平台 | Real-to-Sim + 仿真引擎 + Sim-to-Real,做"游乐场"(Playground) |
宇树首先面向国际学术界,导致学术论文都基于宇树机器人发表,毕业生到产业界后把使用习惯带过去,从而奠定了"大家使用机器人的标准"。谢晨认为这是一个极核心的生态策略。
Physical Intelligence(Pi)可能是全球在具身算法上做得最好的公司,但它有一个尴尬的处境:对外宣称不相信仿真,内部却强烈认为需要仿真。Pi花了很长时间招仿真Lead,至今未果。谢晨表示Pi面过的候选人"全都是我好朋友,而且我都劝他们不要加入"——因为最优秀的仿真人才不愿去一个公开宣称不信仿真的公司。这是Pi规模化落地的最大隐患。
由英伟达GEAR的co-lead朱毅可(李飞飞的学生、Texas Austin教授)在博士期间提出。模型训练所用数据分为三层:底层最大是互联网数据(预训练),中间层是合成数据/仿真,顶层最小是真实数据。目的是解决真实数据不足的问题。
谢晨通过服务硅谷和国内最顶尖的客户发现:无论各家对外怎么说(有些甚至公开宣称"合成数据有毒"),内部真正使用的基本都是数据金字塔。
DeepMind花了很多钱收购不热门的游戏——因为大部分游戏商只有几款火的游戏,不火的游戏没人买。DeepMind让游戏agent在不同游戏中产生第一视角数据,放到大模型中提升跨宇宙(cross-universe)、跨本体(cross-embodiment)的能力。底层逻辑是:人可以从真实世界跳到游戏世界仍然会玩,但机器人不行——提升跨宇宙能力可以增强真实世界的泛化性。
谢晨详细解析了全球具身智能仿真器的演进路径。
| 仿真器 | 背后公司 | 优势 | 问题 |
|---|---|---|---|
| Isaac Sim | 英伟达 | 底层PhysX物理引擎 + Omniverse渲染 | PhysX"年久失修",最早为游戏设计非具身智能;代码基于CUDA,难懂难维护 |
| MuJoCo | Google(收购) | Physics Solver + API,学术界广泛使用 | 渲染弱;原版在CPU上跑;JAX版本(MJX)没人愿意用JAX维护 |
谢晨在英伟达时,黄仁勋在内部说"NVIDIA is a simulation company"。英伟达从游戏起家,游戏本质就是仿真——只不过服务人的体验。现在的仿真服务物理AI,需要足够准确以支持机器人在真实世界落地。底层逻辑一脉相承,只是目标不同。
谢晨给出了对整个具身智能产业成熟度的判断。
具身智能还没找到"越加数据、算法就越好"的规模化配方。类比特斯拉FSD:在端到端打通之前,不断加数据并没有让算法持续提升。打通端到端后,数据量和算法质量才建立了正向关系。具身智能还在寻找这个突破点。
谢晨认为公司从第一天开始就需要服务客户、提供价值、拿回收入——这才是正向的reward model。他指出现在具身智能产业的核心问题是"没有客户"——有Demo,客户可能是投资人,但没有正向的付费客户每天"敲打你"。他的公司在自动驾驶领域被"敲打惯了",服务的是国内最卷的自动驾驶行业,这锻炼了团队的执行力和质量管控。
谢晨对中美两国在具身智能产业上的结构性差异给出了清晰的分析框架。
| 领域 | 代表客户 |
|---|---|
| 自动驾驶(国际) | 博世、英伟达、Wave(软银10亿美金投资的VLA公司) |
| 自动驾驶(国内) | 长安、吉利、比亚迪等主机厂 |
| 具身智能(国际) | Figure(全球具身估值最高300亿美金)、英伟达GEAR、DeepMind、多所顶尖高校 |
| 具身智能(国内) | 智源、银河通用等 |
谢晨认为他们最大的优势不是技术最强(虽然技术确实很强),而是"其他人连需求是什么都不知道"。当客户有了好的解决方案后,没有必要跟别人讨论需求。需求不是泛泛的"数据/仿真需求",而是其中的核心标准定义。这个信息不对称来自他们深度服务全球最顶尖机构的经验积累。
大模型有互联网文本、自动驾驶有上路车辆——两者的真实数据获取成本极低。但具身智能既没有百万级机器人在真实世界运行,也没有廉价的物理交互数据源。这意味着合成数据不是"锦上添花",而是产业能否起飞的基础设施。谢晨团队成为Figure、英伟达GEAR、DeepMind"唯一仿真供应商"的事实,印证了这一判断。
照片和视频可以用AI轻松生成街道、车辆、树木——视觉数据到处都有。但物理交互数据(力学参数、铰链特性、摩擦系数、碰撞体属性)连底层数据都缺失,AI无法凭空生成。这是具身智能仿真的真正瓶颈,也是谢晨公司的核心壁垒所在。一个仿真冰箱在全世界普遍"门都开不开"这个现实,比任何论文都更能说明问题。
Pi可能是全球最好的具身算法公司,但对外说不信仿真、内部又强烈需要仿真;用Airbnb租旧金山公寓采集数据但没有规模化思维;最好的仿真人才不愿加入因为公司公开否定仿真。这个矛盾折射的是一个更深层的产业规律:学术突破和产业规模化需要完全不同的组织DNA。
谢晨对这笔交易的分析超越了简单的acqui-hire叙事。他指出的核心逻辑是:Meta过去不是Scale的Top 3客户,因此永远拿不到最好的数据生产者,永远训不出最好的模型。这是一个结构性劣势——不是花更多钱就能解决的。收购Scale + 给Alexandr Wang Chief AI Officer头衔,是小扎对"10万亿公司需要掌握AI数据能力"这个判断的全力下注。
黄仁勋把仿真计算机与数据中心计算机、端侧计算机并列为"三个计算机问题"。英伟达不仅做Isaac Sim仿真器,还在与MuJoCo团队联合开发下一代完全开源的Newton物理引擎。这个动作的战略含义是:仿真不是一个工具,而是下一代计算范式的基础设施。
谢晨的分析暗示了一个可能的全球分工:美国有模型层优势(算力、人才、付费文化),中国有硬件和制造优势。但这不是简单的"设计vs制造"——中国也需要大脑能力。字节、小米、理想等公司可能会做大脑,也可能基于国际基础模型做fine-tune。这个分工格局尚未定型,但付费文化的差异是一个深层的结构性因素。
谢晨分享了一个"比较deep的insight":大家一提仿真就想到仿真器(物理引擎),认为必须先做仿真器才能做好仿真。但历史上仿真器经常是闭源的、迭代慢的,价值传导困难。谢晨的公司是"最后才做仿真器"——因为仿真不成功的第一个原因是缺乏高质量资产和场景,其次是API和工具链,最后才是仿真器。这个认知颠覆了行业的普遍理解。
不确定性:Scaling Law配方尚未找到,任何路线都可能走弯路。确定性:人才密度远超早期自动驾驶,资本充裕,大模型的insight已经传导。谢晨乐观估计1-2年能找到Scaling Law,如果成立,2027-2028年将是具身智能的ChatGPT Moment。但他同时提醒:过分关注融资而非Progress的"错误reward model"可能拖慢这个进程。
谢晨认为Karpathy之所以强大,底层是算法和工程的结合。他同时指出特斯拉自动驾驶团队只有240人——行业可能过分扩张了规模,导致核心大算法突破被模块级提升淹没。这个观察对具身智能同样适用:用超级聪明的少数人做超级困难的事,可能比大团队铺人更有效。