← 返回目录
深度研究 Deep Dive

机器人遭遇数据荒?仿真与合成数据的全景解析

#109 与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang
张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 嘉宾背景与核心论题
  2. 仿真与合成数据的底层管线
  3. 数据质量的评价体系
  4. 自动驾驶中的合成数据实践
  5. 具身智能 vs 自动驾驶:仿真难度的跃迁
  6. Real-to-Sim:物理重建的核心挑战
  7. 什么是"好仿真":饮用水级标准
  8. 谢晨的职业轨迹:Cruise-英伟达-蔚来-创业
  9. Meta收购Scale:300亿背后的逻辑
  10. 具身智能产业链四层结构
  11. 数据金字塔与技术路线殊途同归
  12. 仿真器竞争格局:Isaac Sim、MuJoCo与Newton
  13. Scaling Law尚未到来:行业处于GPT-1阶段
  14. 中美具身智能的结构性差异
  15. 创业心路:从无人知晓到全球标准
  16. 启示与延伸思考

一、嘉宾背景与核心论题

谢晨是一位从Cruise自动驾驶仿真起步,历经英伟达自动驾驶仿真负责人蔚来仿真负责人,最终创业专注于"仿真与合成数据"的技术创业者。本期播客的核心论题极为明确:具身智能正遭遇数据荒,仿真与合成数据是破局的关键路径

1%
银河通用真实数据占比(EP.106王鹤)
30%
自动驾驶合成数据占比(Cruise经验)
>99%
具身智能长尾场景合成数据配比
谢晨
真正要去推动具身智能的发展,咱们必须首先依赖于大量的合成数据,而其次才依赖于相对少量的真实数据。否则这件事的商业模式就不可能成功。

核心立场

谢晨的论点建立在一个关键前提上:自动驾驶因为汽车平台已被发明上百年,路上有千万辆车持续回传数据,所以真实数据占主体(70%以上)。而具身智能的机器人平台尚未大规模部署,没有百万级机器人在街上跑,因此合成数据必须挑大梁。这不是技术偏好,而是产业阶段决定的必然选择

二、仿真与合成数据的底层管线

谢晨以在Cruise的实操经验为基础,详细拆解了合成数据的完整生产管线。

核心流程

合成数据生产管线

从真实世界的观察场景出发,通过统计、人工或AI手段泛化场景,生成更多变体,再经过传感器仿真,以车/机器人的视角输出数据,配合自动化标注和人在环的质检,最终形成可用于模型训练的数据集。

第一步:场景采集与泛化

从真实世界观察到的场景出发(如路上遇到自行车插入),基于统计或AI手段泛化:不同种类的行人、不同衣服、不同样貌、不同形态(大人小孩老人),不同天气、不同光照。把一个真实问题幻化成成千上万个问题。

第二步:资产构建

静态资产(自行车、车辆、地面、树木等)与动态场景(行人运动轨迹、交通流)的组合,构成完整的仿真世界。

第三步:传感器仿真

将生成的场景以车/机器人的第一视角观察并输出,包含相机、激光雷达等多传感器模拟。

第四步:自动化标注

从早期的2D机器视觉标注(人、车的框框和语义),到越来越多的3D乃至4D标注,包含语义信息。

第五步:质检(极其关键)

基于自动化手段和人在环手段验证数据质量。谢晨强调这是他们当时发现的"极其关键的一个环节",直接决定数据能否真正为模型所用。

场景泛化的具体实例

行人窜出场景的合成扩增

  • 扩充不同种类行人(衣着、样貌、形态、年龄)
  • 变换周围场景(相同车道 / 对向车道)
  • 变换交通状况
  • 变换天气和光照
  • 在仿真中跑算法一万遍,验证感知/预测/全栈是否会遇到问题
  • 发现问题后,将数据回馈给感知模型或预测模型进行提升

三、数据质量的评价体系

谢晨从第一性原理出发,提出了两类评价标准。

绝对评价:真实性

  • 将合成数据与真实数据对标
  • 检验光线光照、色彩的准确度
  • 验证传感器噪音的拟真度
  • 标注信息的精确性

效用性评价:对模型的价值

  • 数据能否最终有效服务模型训练
  • 类比"浓咖啡 vs 冰咖啡"——信息密度的差异
  • 追求用更少的数据给模型更多价值
  • 谢晨判断未来趋势会越来越偏向效用性
谢晨
我认为后面的数据可能会越来越重视它的效用性的评价。这样会让它的信息密度增量越来越高,来基于越来越少的数据给到模型越来越多的价值。

Sim-to-Real Gap:永恒的挑战

谢晨坦承,从第一性原理上,合成数据和真实数据之间一定会存在缺口(gap)。但关键不是消灭gap,而是两个问题:(1)知道gap在什么量级时数据就有用了;(2)如何不断减少这个gap。前者需要自己做全栈算法和落地验证,后者需要在Real-to-Sim、仿真引擎、Sim-to-Real每个环节上持续突破。

四、自动驾驶中的合成数据实践

Cruise的合成数据起源

谢晨在Cruise的6个月攻关中,发现了合成数据的核心价值。当时的背景是:Cruise基于旧金山固定区域运营,每天拿到的数据量有限,但旧金山有大量流浪汉、上坡下坡、浓雾等边角场景——这些场景分布稀少但严重影响算法表现。

合成数据在L4自动驾驶中解决的两个问题

  • 小样本问题:边角场景数据不足,无法训练稳定模型
  • 安全验证问题:缺少数据导致无法发现和验证系统级安全问题

每一个长尾场景(corner case)理想状态下需要配1,000到10,000个合成数据。从全貌来看,Cruise当时大概30%左右使用合成数据。

自动驾驶 vs 具身智能的数据逻辑翻转

维度自动驾驶(L2+)具身智能
平台历史汽车已被发明100+年人形机器人平台刚刚诞生
数据来源千万辆车在路上跑,持续回传数据没有百万级机器人在运行
数据成本司机(买车人)替车企采集,仅需计算和带宽费用需要专门搭建场景、采集设备
真实 vs 合成真实数据占最大比例,合成数据针对长尾提升合成数据必须占主体,真实数据为辅
结论真实数据为主 + 30%合成数据情况完全相反——合成数据为主
自动驾驶 vs 具身智能:数据构成对比

五、具身智能 vs 自动驾驶:仿真难度的跃迁

谢晨明确指出:具身智能的仿真难度远远高于自动驾驶,主要体现在三个维度。

难度跃迁

三大维度的差异

  • 跨本体(Cross-Embodiment):自动驾驶的车型差异很小(都是四个轮子),但机器人本体差异极大——人形、机械臂、四足、轮式——同一套模型需要跨本体泛化。
  • 物理交互 vs 视觉感知:自动驾驶底层是视觉游戏(不要撞到前面的东西),车唯一的物理交互就是地面。而具身智能的物理交互是最核心的——打咖啡、拿吸管、开冰箱、敲键盘——交互的物理种类远超自动驾驶。
  • 强化学习(RL)的需求:自动驾驶主要是模仿学习(LogSim回放),具身智能对RL的需求远远高于自动驾驶,需要闭环仿真、大规模并行、感知在环的RL训练。
谢晨
车和地面,世界上能有多少种不同种类的地面?其实相对来说比较小。但是对于具身智能来讲,咱们每天生活中打一杯咖啡、拿一吸管、开一个冰箱、敲个键盘,交互的物理种类太多了。

物理数据的根本性缺失

视觉数据到处都有,物理数据几乎没有

视觉数据可以从照片和视频获取——路上的车、街道、路面、树木都可以生成。但物理交互的数据(力学参数、摩擦系数、铰链特性等)连底层数据都没有,因此也不可能有AI算法去生成。必须首先采集这类数据,并放到仿真中去——这是谢晨公司做的大量Real-to-Sim工作,且不是视觉的Real-to-Sim,而是物理的Real-to-Sim

从模仿学习到强化学习的演进

学习范式的变迁

  • 模仿学习:开环数据,采集第一人称视角的轨迹,训练机器人模仿动作。但泛化性低——能拿高瓶子,但换矮瓶子就可能失败。
  • 强化学习:历史上机器人以RL起家(下肢运动),但现在需要全身尤其是手的RL,且要有视觉在环。类似DeepSeek的路径:先基础模型预训练,再基于RL做fine-tune。
  • 这要求仿真必须是闭环的、高效的、可大规模并行的,难度远高于自动驾驶仿真。
具身智能仿真三大难点维度

六、Real-to-Sim:物理重建的核心挑战

Real-to-Sim(真实到仿真)是谢晨反复强调的关键环节。其底层含义是将真实世界的场景、资产、物理参数映射到仿真环境中——不是视觉重建,而是物理重建

冰箱实例:细节决定一切

仿真一个冰箱需要的物理参数

  • 转轴和铰链:不同角度下拉开冰箱门需要多大的力
  • 磁吸力:一开始需要较大的力拉开,随角度增大力逐渐减小
  • 碰撞体:门、抽屉都是独立碰撞体,可与机器人的手产生碰撞和力的交互
  • 重量和力学模拟:必须足够精确
  • 品种多样性:不能只有一种冰箱,需要符合分布的多种冰箱
谢晨
现在整个世界上普遍的仿真资产——冰箱——都是没法开门的。可能就看了一个,这有一个冰箱,冰箱门都开不开,然后可能看起来就跟"我的世界"里头的东西一样,视觉精度都不够,并且连物理的最基础信息都没有。

被忽略的机器人仿真精度问题

真实世界 vs 仿真世界的机器人差距

谢晨观察到一个被广泛忽略的问题:很多机器人在真实世界的模型很好,但在仿真中有很多问题。他遇到很多客户的情况是:机器人的手在真实世界可以拿起1-2公斤的东西,但放到仿真里只能拿起0.1公斤。有些团队花了六个月以上还没调好。物理环境和机器人本身都需要被精确对齐。

RL并行效率的瓶颈

感知在环的RL面临的效率问题

  • 需要看到足够精确的场景环境,且机器人在其中交互
  • 在单卡上能并行跑的environment(环境)数量很有限
  • 整体total FPS(帧率)很低
  • 这是"可能硅谷最领先的一些机构正在预研的点"——不是普遍现象
  • 普遍大家还是在用没有感知在环的情况下做RL

七、什么是"好仿真":饮用水级标准

谢晨提出了一个生动的愿景:好的仿真应该像饮用水一样,人人都可以获取。但现实是"大家产生了大量的仿真,但这些水喝了是会拉肚子的"。

定义

好仿真的四个要素

  • 高质量的Real-to-Sim:把真实物理世界的参数准确拿回来放到仿真中
  • 足够高质量的资产和场景:没有好的原料就不可能造出好的仿真
  • 准确的仿真引擎(Solver):与场景资产和机器人配合,产生足够正确的仿真输出
  • 完善的API和工具链:输出数据要有丰富的metadata,可以直接服务算法训练

在此基础上还需要:足够高效的并行能力(服务RL)、完善的评价回环(Sim-to-Real验证)。当所有这些都做到后,才是一个"足够好的仿真"。

谢晨
我的vision是什么?我认为好的仿真就应该像饮用水一样,应该是一个人人都可以获取的事。所有做机器人的人都可以获取的事。有点类似于加州的自来水,你打开水龙头接一杯水就可以喝。但是现在的仿真是什么?大家产生了大量的仿真,但是这些水其实喝了是会拉肚子的。

八、谢晨的职业轨迹:Cruise-英伟达-蔚来-创业

Cruise:L4自动驾驶仿真

在Cruise把仿真做到极致,掌握了L4全无人自动驾驶对仿真的核心需求——闭环仿真、强化学习、智能体交互。

英伟达:L2量产自动驾驶仿真

负责整个英伟达自动驾驶仿真。到英伟达后有两个关键发现:(1)Orin芯片的前三大客户是蔚小理,而非Waymo和Cruise;(2)大公司执行力不够高,做半年到一年的事情在英伟达可能要花更长时间。

蔚来:一年半攻关核心问题

入职前就与李斌(彬哥)约定将来会创业。大约一年内攻破最核心的问题,有效支持了ET7等二代车型基于仿真的大规模评测落地。然后花半年做过渡,并将百度仿真负责人拉过去接替。

创业:Simulation for Robotics

最早写的PPT就是"Simulation for Robotics"。但融资时投资人普遍问的不是"什么是仿真",而是"什么是机器人"——"你指的是扫地机器人吗?"那时做人形机器人的公司屈指可数。

英伟达的关键洞察

自动驾驶的未来在中国

谢晨在英伟达发现Orin芯片的前三大客户是蔚小理,而Waymo和Cruise一年只有几百到上千辆的量,根本赶不上中国量产电动车的规模。他瞬间意识到"自动驾驶的下一代的机会、量产的机会一定在中国",这成为他回国创业的核心驱动力之一。德国和日本车企"比较抠",多用高通芯片,真正带动英伟达最高算力芯片的就是蔚小理这类公司。

L4 vs L2仿真的核心不同

L4仿真(Cruise等)

  • 早期就需要用到强化学习
  • 需要把能力提升到接近甚至超越人的水平
  • 强调闭环仿真和agents(智能体)
  • 极端场景下的能力突破

L2仿真(量产)

  • 底层是模仿学习——尽量拟人
  • 并不太在意接管
  • 更多是LogSim(日志回放大规模验证)
  • 后期才逐渐做闭环

九、Meta收购Scale:300亿背后的逻辑

谢晨对Meta以约300亿美金收购Scale AI给出了极为深入的分析。

~300亿
Scale AI收购估值(美元)
~150亿
Meta实际支付金额(美元)
Chief AI Officer
Alexandr Wang在Meta的新头衔

三层分析框架

第一层:10万亿公司的入场券

谢晨认为Meta看到了一个核心点:未来10万亿公司的入场券一定要掌握AI数据的能力。类比:如果10年前能穿越时空,微软的CEO一定会买英伟达(算力是AI核心能力)。小扎正是看到了同样的逻辑——往未来10年看,Meta要成为10万亿级公司,必须拥有AI的基础原料——数据。

第二层:Alexandr Wang为什么愿意卖

  • Scale马上就要上市,上市后3-5年10倍完全没有问题
  • 但Wang是一个"极其aggressive、极其push"的人,Scale是"硅谷最狼性的公司"
  • Scale从300亿变成3000亿,他的贡献是2700亿;但加入Meta把公司从1-2万亿变成10万亿,他的impact是8-9万亿
  • 他追求的是个人impact,不是钱

第三层:人才网络的战略价值

  • Scale的数据越卖越贵,因为用到的人越来越好——人驱动的数据是核心
  • Meta不是Scale的Top 3客户,因此得不到最好的数据生产者,所以模型表现不佳
  • Wang通过服务OpenAIDeepMind、Meta等客户,完全掌握了行业最核心的AI人才网络
  • Wang到Meta后立刻把核心人才挖过去了——"她对Meta的贡献已经开始了"
谢晨
假设十年以后小扎想退休了,谁会接班?我认为大概率会是Alexandr Wang。

十、具身智能产业链四层结构

谢晨将全球具身智能产业链划分为四大类公司。

层级代表公司核心角色特点
硬件公司宇树科技发明机器人本体平台宇树面向学术圈和研究圈,奠定使用标准;还包括灵巧手公司、数据采集硬件公司
Foundation ModelPhysical Intelligence(Pi)、SKILD、英伟达GEAR、DeepMind基础模型/大脑最终需要10万张以上GPU、大量数据、全球最好人才;大厂极有优势
垂域落地(软硬结合)Figure、Tesla Optimus、The Bot Company、Dynarobotics在具体场景落地的软硬结合公司Figure在工厂场景,Optimus依赖工业场景和xAI大脑,新创公司从机械臂+餐馆/家庭切入
仿真中心谢晨的公司、Genesis以仿真为中心的端到端平台Real-to-Sim + 仿真引擎 + Sim-to-Real,做"游乐场"(Playground)
具身智能产业链四层结构与资金流向

宇树科技的独特优势

通过学术界建立生态壁垒

宇树首先面向国际学术界,导致学术论文都基于宇树机器人发表,毕业生到产业界后把使用习惯带过去,从而奠定了"大家使用机器人的标准"。谢晨认为这是一个极核心的生态策略。

Pi的仿真困境

对外说不信仿真,对内强烈需要

Physical Intelligence(Pi)可能是全球在具身算法上做得最好的公司,但它有一个尴尬的处境:对外宣称不相信仿真,内部却强烈认为需要仿真。Pi花了很长时间招仿真Lead,至今未果。谢晨表示Pi面过的候选人"全都是我好朋友,而且我都劝他们不要加入"——因为最优秀的仿真人才不愿去一个公开宣称不信仿真的公司。这是Pi规模化落地的最大隐患。

Pi的真实数据采集方式

谢晨
Pi现在是怎么采集数据的?它用Airbnb租了旧金山所有的公寓,然后在里头让人去采数据。你就想它要花多少钱。但是本质来讲,这些公寓远远不够。它其实并没有太多去想规模化。

十一、数据金字塔与技术路线殊途同归

核心概念

数据金字塔(Data Pyramid)

由英伟达GEAR的co-lead朱毅可(李飞飞的学生、Texas Austin教授)在博士期间提出。模型训练所用数据分为三层:底层最大是互联网数据(预训练),中间层是合成数据/仿真,顶层最小是真实数据。目的是解决真实数据不足的问题。

谢晨通过服务硅谷和国内最顶尖的客户发现:无论各家对外怎么说(有些甚至公开宣称"合成数据有毒"),内部真正使用的基本都是数据金字塔

好数据 = 两件事的乘积

多样性的场景

  • 酒店、餐馆、家庭、工厂等不同环境
  • 场景的核心问题是租赁/建设成本
  • 现有遥操场大多是table-top(桌面摆物),场景单一
  • 合成数据的优势:场景"租金"本质是算力

高质量的人的示范

  • 早期:人提供模仿学习的示范
  • 现在:人制定考题,让模型用RL能力解题
  • 类似好老师出题诱导学生突破
  • 数据越卖越贵的底层原因:用到的人越来越好
谢晨
我觉得好数据是两个事的乘积:第一个事是多样性的场景,第二个事是高质量的人的示范。

游戏数据的意外价值

DeepMind用不火的游戏训练跨宇宙能力

DeepMind花了很多钱收购不热门的游戏——因为大部分游戏商只有几款火的游戏,不火的游戏没人买。DeepMind让游戏agent在不同游戏中产生第一视角数据,放到大模型中提升跨宇宙(cross-universe)、跨本体(cross-embodiment)的能力。底层逻辑是:人可以从真实世界跳到游戏世界仍然会玩,但机器人不行——提升跨宇宙能力可以增强真实世界的泛化性。

谢晨
终局的模型应该是cross-universe, cross-embodiment——跨宇宙、跨世界、跨本体。

十二、仿真器竞争格局:Isaac Sim、MuJoCo与Newton

谢晨详细解析了全球具身智能仿真器的演进路径。

仿真的四个组成部分

1
Physics Solver(物理引擎)
2
Rendering(渲染)
3
Sim-Ready Assets/Scenes(资产与场景)
4
API & Framework(工具链)

两大仿真器的融合之路

仿真器背后公司优势问题
Isaac Sim英伟达底层PhysX物理引擎 + Omniverse渲染PhysX"年久失修",最早为游戏设计非具身智能;代码基于CUDA,难懂难维护
MuJoCoGoogle(收购)Physics Solver + API,学术界广泛使用渲染弱;原版在CPU上跑;JAX版本(MJX)没人愿意用JAX维护

Newton:下一代统一物理引擎

  • 英伟达和MuJoCo团队正在共同开发MuJoCo Warp——基于英伟达的Warp(GPU加速语言)重写MuJoCo的物理引擎
  • MuJoCo Warp将并入英伟达的下一代物理引擎Newton
  • Newton将是完全开源的
  • 谢晨的公司基于Warp也自研了大量底层物理引擎,是这个生态的重要部分,可以同时给两边贡献代码

英伟达的"三个计算机"问题

谢晨 引述黄仁勋
老黄一直在讲"There is a three computer problem"。第一个计算机是数据中心(大模型)——英伟达已经拿下;第二个是端侧计算机(物理AI——车、机器人);第三个就是Simulation。老黄把仿真的计算机市场与前两个并列——意味着这会是万到十万亿级的市场。

黄仁勋的仿真信念

谢晨在英伟达时,黄仁勋在内部说"NVIDIA is a simulation company"。英伟达从游戏起家,游戏本质就是仿真——只不过服务人的体验。现在的仿真服务物理AI,需要足够准确以支持机器人在真实世界落地。底层逻辑一脉相承,只是目标不同。

十三、Scaling Law尚未到来:行业处于GPT-1阶段

谢晨给出了对整个具身智能产业成熟度的判断。

GPT-1
具身智能当前所处阶段
1-2年
乐观估计找到Scaling Law的时间
核心判断

Scaling Law Moment尚未到来

具身智能还没找到"越加数据、算法就越好"的规模化配方。类比特斯拉FSD:在端到端打通之前,不断加数据并没有让算法持续提升。打通端到端后,数据量和算法质量才建立了正向关系。具身智能还在寻找这个突破点。

为什么不需要悲观

三个乐观理由

  • 人才密度远超早期自动驾驶:Pi的Sergei/Chelsea、英伟达的朱毅可/Jim Fan、SKILD的Deepak/Abhinav——一创始就具备了Andrej Karpathy级别的人才,而特斯拉自动驾驶创立好几年后才有Karpathy加入
  • 资本关注度远超当年:具身智能是目前硅谷和国内最吸引投资人的产业
  • 大模型的insight传导:特斯拉找到Scaling Law不是自己想出来的——团队从GPT-2获得信念:只要scale Transformer、数据、算力,就能做出来。具身智能团队也获得了这些insight

行业泡沫的隐忧

谢晨
我看到一个问题——大家过分关注在融钱上,或者过分关注融了多少钱、拿了什么估值,而没有关注到Progress。当团队的Focus是不停拿到新的钱,它的reward model就变成了出去演讲、做Demo、吸引投资人。

正确的Reward Model

谢晨认为公司从第一天开始就需要服务客户、提供价值、拿回收入——这才是正向的reward model。他指出现在具身智能产业的核心问题是"没有客户"——有Demo,客户可能是投资人,但没有正向的付费客户每天"敲打你"。他的公司在自动驾驶领域被"敲打惯了",服务的是国内最卷的自动驾驶行业,这锻炼了团队的执行力和质量管控。

十四、中美具身智能的结构性差异

谢晨对中美两国在具身智能产业上的结构性差异给出了清晰的分析框架。

美国:存在模型层机会

  • 文化上强调行业分工和生态(Ecosystem)
  • 英伟达做芯片但把解决方案开放给产业
  • 用户愿意付费——GPT Premium $200/月仍有大量用户
  • RoboTaxi一程可收$100+
  • 产业链价值传导效率高

中国:端到端软硬结合为主

  • 软件付费文化弱,大模型免费服务用户
  • 出租车费远低于美国
  • 公司更多强调端到端服务客户
  • 商业模式更多以卖硬件形式提供
  • 公司集聚在硬件+围绕硬件的软硬结合

中国的大脑(基础模型)谁来做?

谢晨的判断

  • 银河通用等专注具身的公司
  • 字节跳动:有大量算力储备和AI人才,适合做大脑
  • 小米、理想等车企:可能后面也会做大脑
  • 国际合作路径:使用Pi等国际基础模型 + 自有垂域数据 + 合成数据fine-tune + 硬件落地

遥操路线的局限性

谢晨对遥操真实数据路线的审慎判断

  • 国内主机厂已极度自动化,遥操产生价值且赚钱的机会不大
  • 全球主机厂(德国、日本、美国)可能存在机会,但存在跨州/跨国禁令工会政治等障碍
  • 酒店、零售等场景的遥操ROI不够高
  • 特斯拉可能是唯一能走通遥操路线的公司——利用内部工厂场景和跨州方案
  • 从全局看,遥操真实数据为主的路线不太可能比合成数据为主的路线更快

十五、创业心路:从无人知晓到全球标准

谢晨公司的核心竞争力

三大核心能力

  • 仿真资产和场景:基于物理(非视觉)快速重建高质量资产的能力。全球最好的机构所用的仿真基础原料"都是我们产生的",且"我们不是仿真供应商之一,我们是唯一的仿真供应商"。
  • 底层仿真器自研:利用MuJoCo和Isaac Sim同时又自研大量Physics Solver,与两大生态都是合作关系(两家都是客户也是partner)。
  • Sim-to-Real落地:在人形(G1、H1)、机械臂(Franka等)、轮式等核心形体上持续做Sim-to-Real验证,形成闭环反馈给仿真迭代。

客户覆盖

领域代表客户
自动驾驶(国际)博世、英伟达、Wave(软银10亿美金投资的VLA公司)
自动驾驶(国内)长安、吉利、比亚迪等主机厂
具身智能(国际)Figure(全球具身估值最高300亿美金)、英伟达GEAR、DeepMind、多所顶尖高校
具身智能(国内)智源、银河通用等

学习的空杯心态

谢晨
我后面把自己放到了一个足够谦卑的状态。我认为我就是一个小白。所以我是先从具身智能的本科生开始学习——约北大清华最优秀的本科生,再约博士生,再约导师,再和硅谷朋友交流。逐步发现了问题在哪里,重新定义了我们的产品来服务他们。

最大的竞争优势:掌握需求

谢晨认为他们最大的优势不是技术最强(虽然技术确实很强),而是"其他人连需求是什么都不知道"。当客户有了好的解决方案后,没有必要跟别人讨论需求。需求不是泛泛的"数据/仿真需求",而是其中的核心标准定义。这个信息不对称来自他们深度服务全球最顶尖机构的经验积累。

愿景:从厂商到标准

谢晨
如果说我们是全世界第一的具身仿真厂商,这已经不能满足我们的预期了。我们希望是全世界具身仿真的标准。

十六、启示与延伸思考

1. 具身智能的数据逻辑与大模型/自动驾驶截然不同

大模型有互联网文本、自动驾驶有上路车辆——两者的真实数据获取成本极低。但具身智能既没有百万级机器人在真实世界运行,也没有廉价的物理交互数据源。这意味着合成数据不是"锦上添花",而是产业能否起飞的基础设施。谢晨团队成为Figure、英伟达GEAR、DeepMind"唯一仿真供应商"的事实,印证了这一判断。

2. "视觉重建"和"物理重建"是两个完全不同的世界

照片和视频可以用AI轻松生成街道、车辆、树木——视觉数据到处都有。但物理交互数据(力学参数、铰链特性、摩擦系数、碰撞体属性)连底层数据都缺失,AI无法凭空生成。这是具身智能仿真的真正瓶颈,也是谢晨公司的核心壁垒所在。一个仿真冰箱在全世界普遍"门都开不开"这个现实,比任何论文都更能说明问题。

3. Pi的困境是"学术驱动 vs 产业落地"矛盾的缩影

Pi可能是全球最好的具身算法公司,但对外说不信仿真、内部又强烈需要仿真;用Airbnb租旧金山公寓采集数据但没有规模化思维;最好的仿真人才不愿加入因为公司公开否定仿真。这个矛盾折射的是一个更深层的产业规律:学术突破和产业规模化需要完全不同的组织DNA

4. Meta收购Scale的真正赌注是"数据主权"

谢晨对这笔交易的分析超越了简单的acqui-hire叙事。他指出的核心逻辑是:Meta过去不是Scale的Top 3客户,因此永远拿不到最好的数据生产者,永远训不出最好的模型。这是一个结构性劣势——不是花更多钱就能解决的。收购Scale + 给Alexandr Wang Chief AI Officer头衔,是小扎对"10万亿公司需要掌握AI数据能力"这个判断的全力下注。

5. "三个计算机"框架暗示仿真是万亿级市场

黄仁勋把仿真计算机与数据中心计算机、端侧计算机并列为"三个计算机问题"。英伟达不仅做Isaac Sim仿真器,还在与MuJoCo团队联合开发下一代完全开源的Newton物理引擎。这个动作的战略含义是:仿真不是一个工具,而是下一代计算范式的基础设施

6. 中美在具身智能的分工正在形成:大脑在美国,制造在中国?

谢晨的分析暗示了一个可能的全球分工:美国有模型层优势(算力、人才、付费文化),中国有硬件和制造优势。但这不是简单的"设计vs制造"——中国也需要大脑能力。字节、小米、理想等公司可能会做大脑,也可能基于国际基础模型做fine-tune。这个分工格局尚未定型,但付费文化的差异是一个深层的结构性因素。

7. "仿真不等于仿真器"——一个被广泛误解的认知

谢晨分享了一个"比较deep的insight":大家一提仿真就想到仿真器(物理引擎),认为必须先做仿真器才能做好仿真。但历史上仿真器经常是闭源的、迭代慢的,价值传导困难。谢晨的公司是"最后才做仿真器"——因为仿真不成功的第一个原因是缺乏高质量资产和场景,其次是API和工具链,最后才是仿真器。这个认知颠覆了行业的普遍理解。

8. 行业处于GPT-1阶段意味着巨大的不确定性和确定性并存

不确定性:Scaling Law配方尚未找到,任何路线都可能走弯路。确定性:人才密度远超早期自动驾驶,资本充裕,大模型的insight已经传导。谢晨乐观估计1-2年能找到Scaling Law,如果成立,2027-2028年将是具身智能的ChatGPT Moment。但他同时提醒:过分关注融资而非Progress的"错误reward model"可能拖慢这个进程。

9. Andrej Karpathy的"算法+工程"范式正在具身智能复现

谢晨认为Karpathy之所以强大,底层是算法和工程的结合。他同时指出特斯拉自动驾驶团队只有240人——行业可能过分扩张了规模,导致核心大算法突破被模块级提升淹没。这个观察对具身智能同样适用:用超级聪明的少数人做超级困难的事,可能比大团队铺人更有效。

延伸阅读