← 返回张小珺主页
深度研究 Deep Dive

数据的综述:新时代的石油

#134 和谢晨聊数据的历史、版图、金字塔、定价与Recipe
2026.3.30 · 02:38:22 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 谢晨其人:从北大物理到仿真信仰
  2. 数据即教育:一个第一性原理的定义
  3. 数据产业的四个时代
  4. 大模型 vs 机器人:两端截然不同的数据困境
  5. 三个团队的角逐:LLM、世界模型与VLA
  6. 数据金字塔:结构、配比与以仿真为中心的闭环
  7. 仿真不是玩具:从加速器到必备条件
  8. 特斯拉数据闭环为何在机器人领域失效
  9. 四方博弈:大脑商、本体商、数据商与场景商
  10. 真机派 vs 仿真派:一场路线之争
  11. 数据的定价:从几十到上千人民币一小时
  12. 谁在角逐机器人大脑:六家关键玩家
  13. Data Engine而非Data Factory
  14. 启示与延伸思考

一、谢晨其人:从北大物理到仿真信仰

谢晨(Steve),光轮智能创始人兼CEO。北大物理本科(年级前五),哥伦比亚大学商学院量化金融博士。经历涵盖电商动态定价(J.com/沃尔玛)、产品经理、L4自动驾驶仿真(Cruise)、英伟达自动驾驶仿真、蔚来自动驾驶仿真。2023年与联创严海波共同创立光轮智能。

2018年 · Cruise

加入Cruise负责自动驾驶仿真。仿真从"投资人demo工具"变为真正支持算法训练的能力。"第一步做的事不是提升仿真,而是评价仿真。"三个月内交付成果。

2021年 · 英伟达

加入英伟达负责自动驾驶仿真。发现Aurine最大客户不是Waymo和Cruise,而是"蔚小理"——意识到自动驾驶下一代在中国。六个月后携家回国。

2021-2023年 · 蔚来

从主机厂角度实践仿真,搭建数据闭环系统。越来越感到:自动驾驶的仿真是加速器,而机器人的仿真是先决条件。

2023年 · 创立光轮智能

出发点:用仿真加速机器人产业,成为整个机器人产业的数据基建与数据引擎。

谢晨
我擅长的是基于一个更加颠覆性的技术科技,打造一个产品,并且用这个产品去真正的支撑一个产业。

谢晨的特质:寻找"前提条件"而非"锦上添花"

谢晨反复强调一个区分:他要做的不是"加速器"式的锦上添花,而是"前提条件"式的不可或缺。这个判断框架贯穿了他从物理学到金融到自动驾驶到机器人仿真的整个职业选择逻辑。他在北大物理、博士期间均有创业经历(国际交流团、狗友社交应用),但都因"不够颠覆性"而放弃。

二、数据即教育:一个第一性原理的定义

谢晨从第一性原理出发,将数据对于智能类比为教育对于人——数据不是静态的燃料,而是一个不断演进的教育系统。

核心定义

数据的三阶段演化

数据从一个静态数据集,演变为一个工厂级生产流程,再进化为一个评测驱动的教育系统。每一个阶段对应不同的"教育范式":

阶段数据形态教育类比代表
1.0 静态数据集图片+标注,一次性交付填鸭式教育,买教材给学生ImageNet(李飞飞
2.0 工业化生产工厂级流程、质量管控、大规模人力量贩式教育,标准化课堂Scale AI(自动驾驶标注)
3.0 评测驱动高阶专家出题、反馈、因材施教师者:传道授业解惑Surge、Mccord(大模型后训练)
4.0 系统驱动仿真环境+评测+RL自我学习自我修炼:环境+成功标准+试错光轮智能(机器人仿真)
谢晨
数据可能更多的应该被定义为——它是一个能够帮助你去学习的信号,以及相应的经验的传授。所以它从一个静态的数据,慢慢变成一个教育的系统。

从"标准答案"到"从错误中学习"

谢晨提出了一个反直觉的发现:早期数据要求"完美正确",但新一代数据中,最有效的数据是"先失败再成功"的数据

做Pizza的例子

最早客户要求完美执行整个长程任务。后来迭代发现:机器人拿蘑菇时没抓牢、掉到桌上、再捡起来放回pizza——这种"纠正数据"(负样本)训练效果远优于完美数据。模型的泛化能力提升后,它更能从错误中学习,更接近人的学习过程。

"数据即模型"的辩证

谢晨对"数据即模型、模型即应用"的观点有保留:他认为短期内成立(零样本能力不足时必须补充对应数据),但长期不成立——模型架构本身需要提升泛化能力。本质上,不够聪明的模型才需要"见过什么才会什么"。他更认同"系统级能力持续提升"而非"知识即模型"。

三、数据产业的四个时代

谢晨将数据产业的演变与AI模型学习范式的发展对应起来:

数据产业演进:从静态数据集到智能教育引擎

关键人物与公司

数据产业的里程碑

  • 李飞飞 — 定义了AI数据。ImageNet既是训练集也是评测集,服务机器视觉,开创了"静态数据集"时代
  • Scale AI — 赢了两次:先是自动驾驶标注的工业化(工厂级流程),再是GPT-2时代的RLHF数据(评测驱动)。自称"Data Foundry",对标台积电晶圆厂
  • Surge / Mccord — 湾区新兴数据商,为大模型提供后训练与评测数据,时薪100美金以上的高阶专家(工程师、数学金牌、律师、医生)

标注人员的变迁:人数不减,时薪剧增

一个反直觉的现象:数据标注行业的人数并没有减少。自动驾驶标注基地可能有数十万人在工作。但人员结构发生了根本变化——从低成本的画框标注员,到时薪100美金以上的领域专家。谢晨类比:越有能力的人,学习意愿越强,摄取数据量不减反增。

~10万+
中国数据标注从业者(估计)
$100+/h
大模型后训练专家时薪
~100人
光轮智能全职工程团队

四、大模型 vs 机器人:两端截然不同的数据困境

数据、算力、算法是驱动AI的三驾马车。大模型和机器人面对的数据问题本质不同,且差距悬殊。

大模型(LLM)的数据现状

  • 预训练数据已到顶——互联网数据基本吃完
  • 核心挑战在后训练+评测
  • 需要越来越高阶的老师提供言传身教
  • 评测有"免费信号"——用户交互本身就是影子模式
  • 从Chatbot到Agent阶段,数据缺口重新出现

机器人(具身智能)的数据现状

  • 预训练数据严重不足——是一片荒漠
  • 评测能力严重缺失——无法规模化
  • 没有"免费影子模式"——不像车有百万辆在路上
  • 结构性难度比大模型高几个数量级
  • 物理世界的交互、力学、多样性远超数字世界
谢晨
如果足够多的数据是100分,大模型可能到了60分,但在后训练和评测还有很大空间。对于机器人,假设100万台机器人的数据是起点60分,现在连1万台都没有——可能0.6分都不到。
~60分
大模型数据充足度
<0.6分
机器人数据充足度
26%
Behaviour最高成功率(100道题)

Agent:物理世界与数字世界的镜像

一个被忽视的共性

谢晨指出:机器人是物理世界的Agent,大模型Agent是数字世界的Agent。两者遇到的问题惊人相似——都需要环境(仿真/虚拟网站)、经验传授评价信号。大模型Agent的关键数据产品叫"RL-inf"——服务强化学习的虚拟环境(虚拟滴滴、虚拟京东、虚拟编程环境)。机器人需要的是物理世界的等价物。

五、三个团队的角逐:LLM、世界模型VLA

谢晨揭示了大厂内部做机器人大脑的三个团队之间的关系——它们并非孤立运作,而是形成了共生、协作与分化的复杂格局。

团队核心能力对数据的需求与仿真的关系
大语言模型(LLM)数字世界基座能力后训练+评测数据间接(提供基座给VLA)
世界模型物理世界理解与预测物理场景、光照、物理约束用仿真数据提升grounding
VLA物理世界行动执行行动轨迹、跨本体数据用仿真做评测+RL微调
关键发现

大模型团队也在做VLA

不只是机器人公司和自动驾驶团队在做VLA——大模型团队也在做DeepMind(谭捷)、英伟达、OpenAI等都在做VLA,他们通往的是通用智能而非某个垂直场景。他们用最简单的机械臂(而非人形)来验证零样本泛化能力,关注的是"在10种任务上训练后,能否做另外5个没见过的任务"。

世界模型与VLA的共生

评价系统的趋同

李飞飞的Behaviour Challenge同时可用于评价VLA和世界模型(Enact)。如果评价系统越来越一致,两者可能长期趋同。谢晨判断:世界模型可能是云端大脑,VLA是端侧大脑,两者以"底座趋同、部署分化"的形式共生。

三个团队的数据需求分化

六个月前三个团队的数据需求相近,但最近发生了质的变化:大模型客户最关注零样本泛化能力(相信Scaling Out),而机器人客户更关注具体场景的执行。前者用"本体无关"的仿真+人类数据,后者需要针对具体本体(轮式、足式、灵巧手)的数据。

六、数据金字塔:结构、配比与以仿真为中心的闭环

数据金字塔(Data Pyramid)由李飞飞的学生朱易克教授提出,是理解机器人数据的核心框架。谢晨在实践中对其进行了重要修正。

机器人数据金字塔:从真机到互联网数据

金字塔三层结构

顶层:真实本体数据(最少、最贵、最准)

  • 真实机器人遥操作采集的数据
  • 最准确、最好用,但最难规模化
  • 无法规模化机器人数量,也无法规模化场景

中层:仿真数据(规模化能力强)

  • 基于物理仿真环境生成
  • 优势:规模化极好
  • 挑战:Sim2Real差距(但随着预训练数据增大,差距正在缩小)
  • 细分为"人驱动"(质量高、规模有限)和"算法驱动"(质量稍低、规模极大)

底层:互联网+人类数据(最多、本体无关)

  • 人类第一视角数据(眼镜采集)、互联网视频
  • 特点:不需要基于机器人本体就可以采集
  • 规模化能力远高于真机部署
  • 核心逻辑:把人当成一种"机器人",跨本体训练

谢晨的修正:不是静态金字塔,而是以仿真为中心的闭环

谢晨认为金字塔给人的印象是三层独立存在,但实际应该是以仿真为中心、以评测驱动为中心的数据闭环。真实数据和人类数据都流入仿真(Real-to-Sim),仿真输出又对标真实世界(Sim-to-Real)。评测必须基于仿真才能规模化,而仿真的评测又必须与真实评测对标才有意义。

数据的高估与低估

被高估的

  • 真实机器人数据:过去几个月真机派公司已开始大规模采购仿真数据
  • 真机遥操作数据不可能无限规模化

被低估的

  • 仿真评测:大模型团队完全看到了其必要性,但很多机器人公司还没意识到
  • 人类数据:极其关键,可补充和增强仿真闭环

七、仿真不是玩具:从加速器到必备条件

谢晨对仿真的定义极其严格,排除了大部分"视频生成"类技术。

严格定义

什么才是仿真

谢晨提出仿真必须满足三个条件:

  • 物理准确 — 不只是"看起来像",摩擦力等物理参数也要对齐
  • 可复现 — 跑100遍,95-99次结果相同
  • 可修正 — 相同环境改变行动,能看到改变后的结果

视频模型不满足以上三条:难以复现、没有行动、改变初始条件后无法产生有效响应。但世界模型有机会成为仿真的一类——两者是共生关系而非替代关系。

仿真对机器人为何是"必备条件"

谢晨
他们没有办法去规模化他们的评测了。这是他们的核心问题。他们之前都是通过真机数据或学术级benchmark去打——但那些太简单了、不够规模化。

仿真与世界模型的共生

不是谁取代谁

世界模型的优势是生成能力强、泛化好;仿真的优势是物理准确、可复现。两者结合:世界模型可以帮助仿真数据做更好的泛化,仿真可以为世界模型提供物理grounding。光轮与世界模型客户越来越形成"共生关系"——他们用光轮的数据,光轮用他们的模型。

八、特斯拉数据闭环为何在机器人领域失效

特斯拉发明了"数据引擎"(Data Engine)概念:百万辆车上路采集数据 -> 训练云端大脑 -> 部署更好的端侧能力 -> 形成数据飞轮。谢晨认为这套逻辑在机器人领域底层不成立

核心论断

本体相关 vs 本体无关的数据逻辑

自动驾驶:数据99%+来自本体(车开回来的数据),因此最大的本体商=最大的大脑商。特斯拉模式成立。

机器人:最多的数据一定不是本体上提供的(没有百万台机器人在端侧部署)。最大量的数据来自仿真和人类数据——它们都是本体无关的。因此,不会存在一个本体商同时做出最好的大脑。

谢晨
特斯拉的Optimus的大脑,其实是安排给XAI去提供的,并不是让特斯拉自己去提供。一样的道理——一定会是一个大模型商去做这个大脑。

数据金字塔颠覆了特斯拉模式

如果机器人数据金字塔成立(本体无关数据占大部分),那么:(1) 最好的大脑不来自最大的本体商;(2) 数据闭环的核心不在端侧部署,而在仿真+人类数据的规模化;(3) 生态将是四方协作而非一家通吃。这是谢晨整个产业判断的底层逻辑。

九、四方博弈:大脑商、本体商、数据商与场景商

谢晨描绘了一个四方生态系统,每方角色明确但相互依赖。

机器人产业四方生态
角色核心能力代表数据需求
大脑商基于本体无关数据训练通用大脑OpenAI、DeepMind、阿里、英伟达仿真+人类数据(预训练+评测)
本体商硬件量产+端侧微调部署宇树、Figure真机遥操作数据(微调)
数据商评测驱动的数据引擎光轮、Scale AI为客户提供数据+评测
场景商提供真实落地场景OEM、医疗集团、农业公司场景专有数据

数据商与大脑商的共生

从甲乙方到共生关系

  • 数据商帮助大脑商发现问题(评测) -> 刺激新需求 -> 针对性交付数据 -> 训练更好模型 -> 再评测
  • 这个闭环使得数据商对客户算法的理解越来越深,类似"老师了解学生"
  • 全球可能只有约5个团队对预训练级数据有真正的认知,光轮与他们基本都有合作

场景商:被忽视的关键角色

谢晨特别强调了场景商的自主权:他们可以选择A或B的硬件,甚至自研硬件(OEM擅长量产和成本控制),也可以直接基于大脑能力落地。场景商可能是工业、医疗、农业等领域的巨头。

谁是机器人的OpenAI?

谢晨明确表示:不会是单一霸权,而是生态系统。原因正是本体无关的数据逻辑——大脑商必须与数据商共生进化,不可能一家通吃。他对"机器人领域有没有特斯拉"的回答是:Figure想成为那个角色,但"还很远"。

十、真机派 vs 仿真派:一场路线之争

中国机器人圈的一个核心分歧:为什么国内仿真派似乎不多?谢晨给出了直接而犀利的分析。

真机派的逻辑

  • 真机数据放化性好
  • 商业模式需要卖本体 -> 需要客户相信真机
  • 底层是"屁股决定脑袋"
  • 很多素材中心其实在用"现实世界的仿真"——假香蕉、假苹果、宜家式搭建

仿真派的逻辑

  • 仿真数据带来的是Sim2Real问题,不是泛化问题
  • 泛化应通过生成极大量仿真数据来解决
  • 规模化能力是真机的数量级倍
  • 评测只能基于仿真
谢晨
本质上还是一个屁股决定脑袋的事情。如果他是一个仿真派,他就很难去说服客户去买他的本体。因为客户买本体的逻辑就是用机器人来采集数据。

过去三个月的关键变化

谢晨观察到三个层面的剧变:

Scaling Law的出现

数据金字塔开始被验证

  • 李飞飞的Behaviour Challenge + 英伟达Groot模型:大量仿真数据证明有效
  • Generalist:27万小时污秘夹爪数据,在模型上看到了Scaling Law
  • 光轮自身客户:过去几个月数据量需求出现"质的飞跃"

十一、数据的定价:从几十到上千人民币一小时

数据不是越来越便宜,而是越来越贵——这与大多数人的直觉相反。

机器人数据的三要素

几十~几千
每小时数据价格(人民币)
几百~千+
高质量数据单价(人民币/小时)

什么数据最贵(最有价值)

反直觉:不完美的数据比完美的更贵

  • 完美做pizza的视频不是最贵的
  • 中间掉了蘑菇、捡回来、重新做好——这种"纠正数据"更贵、更有效
  • 多样性数据更贵:拿瓶子的方式不同(而非每次都一样)
  • 手部全身tracking的精确性极其关键

数据定价的结构

数据类型价格区间特点
预训练数据最便宜(标品,多家平摊)提升通用基础能力,5家大模型公司共享成本
后训练+评测数据最贵(定制,反馈驱动)针对性强,评测驱动,信号价值极高

什么样的数据ROI最高

电影和游戏数据的局限

电影数据和游戏数据"都有用",但ROI不高:电影是2D信息而非3D,处理成本高,智能提升点数低;游戏太跨域(物理不真实、另一个世界观)。世界模型团队会用大量游戏数据(买版权、用Agent打游戏),但效用性有限。ROI最高的是:基于仿真的人在环+算法驱动数据人类第一视角数据

十二、谁在角逐机器人大脑:六家关键玩家

谢晨给出了一个明确的竞争格局判断——过去三到六个月,多家大厂"更激进了"。

谢晨
我觉得自己肯定是更激进了。我觉得阿里、OpenAI、DeepMind绝对更激进了。英伟达也更激进了。这就是五家角逐机器人大脑的团队。其实某种层面上,派(PI)也应该属于这一类。
玩家类型关键优势
OpenAI大模型+RoboticsRobotics团队很强,不可小觑
DeepMind大模型+Robotics"极其极其优秀的团队",极其稳
英伟达平台+Robotics对物理AI极其重视,Jim和明宇团队资源给够
阿里(千问)大模型+VLA千问是最好的开源大模型
字节大模型+VLA资源丰富、人才密度高
PI创业公司/Frontier Lab真正在大规模训练模型

中美差距:会追回来吗?

谢晨的判断:会

  • 国内大模型能力极高(千问开源领先),决心足够,基建足够好,人才密度够
  • 之前重心在大语言模型(那场仗要先打赢),现在开始转资源到具身智能
  • 美国的优势在大脑发展更快;中国的优势在本体发展更快
  • 核心看卡的数量:大模型团队做VLA需要大几万张卡

对具体公司的判断

宇树:定位最清晰的本体商

谢晨明确看好宇树——"坚定地把本体做好",不和大脑公司竞争,知道自己的边界。预判大脑公司会高调与宇树合作。宇树已被证明是"足够稳定、可量产"的硬件。

智元:商业化走得最好的机器人公司

"从Day1就想得很清楚",上下游完全打通,量产做得很好。具身智能现阶段应是供给驱动的市场。

特斯拉/XAI:两条战线尚未汇合

XAI的重心还在大语言模型("那场仗没有打赢"),特斯拉的重心在本体硬件优势。两边暂未完全汇聚。

十三、Data Engine而非Data Factory

谢晨明确拒绝"Data Factory"的定位,将光轮定义为Data Engine——一个反馈驱动的学习引擎,而非流水线工厂。

Data Factory(旧范式)

  • 流水线生产
  • 缺乏反馈机制
  • 以人为中心,可能需要千万到亿级人力
  • 被动接受需求并交付

Data Engine(新范式)

  • 评测驱动的闭环
  • 帮客户发现问题 -> 刺激需求 -> 针对性交付
  • 以系统为中心,通过技术放大人的经验(100倍效率)
  • 与客户形成共生关系

光轮的技术栈

人类数据的采集:智能眼镜是"车"

为什么一定要第一视角

从第一性原理出发:人就是这么工作的。胸前、头顶的视角都与眼睛有偏差。理想的采集硬件是消费级智能眼镜——人本来就想戴(如Meta RayBan),而非"为了数据而戴"。谢晨认为人类数据公司不应该做自己的硬件,应基于已有的消费级爆款。

终局思考:AI自我学习时代

谢晨
到了终局,可能整体上来讲就跟马斯克说的——我们人可能就在一个仿真里头。AI可能就是在自己的仿真环境里,基于自己设定的成功指标,不断训练自己的内功。

谢晨认为Data Factory会消失(量贩式标准化知识不再需要),但仿真环境永远需要——AI越强大,对物理环境和评价指标的需求越高。终极产品不是"数据",而是"环境"——类似爱因斯坦在大脑中构建思想实验,AI在仿真中构建无限的物理实验。

十四、启示与延伸思考

1. 数据不是石油,是教育系统

"数据是新时代的石油"这个比喻正在过时。谢晨提出的"数据即教育"框架更有解释力:石油是被动消耗的,教育是主动演化的。数据从静态数据集到工厂生产到评测驱动再到自我学习环境,每一步都在向"教育系统"靠拢。这意味着数据公司的终局不是"采掘公司",而是"教育机构"——甚至是"修炼场"。

2. 本体无关数据颠覆了特斯拉模式

这是谢晨最具颠覆性的论断。如果机器人数据金字塔的底部(仿真+人类数据)占据绝对多数,那么自动驾驶时代"卖车=收数据=训大脑"的闭环在机器人领域不成立。这直接导致四方生态系统取代一家通吃——大脑商、本体商、数据商、场景商各司其职。创业者和投资人需要重新审视"我在哪一方"。

3. 评测是当前最大瓶颈

不是数据不够,不是算法不行——是无法规模化地衡量进步。谢晨把评测列为机器人和大模型共同的头号问题。学术级benchmark已被打爆(除了Behaviour的26%),工业级规模化评测只能通过仿真实现。这解释了为什么"真实流派"的Frontier Lab最终都找上了光轮。

4. "先失败再成功"的数据最有效

完美数据不再是最有价值的。纠错数据(做pizza时蘑菇掉了再捡起来)训练效果更好——这与人类学习的直觉完全一致。这个发现对数据采集方法论有重大影响:不再追求零瑕疵的遥操作,而是有意引入"失败-修正"的序列。数据定价也因此变化:不完美的数据反而更贵。

5. 大模型团队正在成为机器人大脑的主角

OpenAI、DeepMind、阿里、英伟达、字节——这些大模型团队在过去半年明显加速投入机器人VLA。他们的优势不在本体,而在基座模型能力、RL基建(大几万张卡)、和对数据Scaling Law的深刻理解。创业公司"很难去做大脑",但在本体(宇树)和场景(智元)上有清晰定位的公司将会受益。

6. 智能眼镜是机器人的"百万辆车"

自动驾驶有百万辆车做影子模式,机器人没有。但如果消费级智能眼镜(如Meta RayBan)大规模普及,每个戴眼镜的人都在为机器人采集第一视角数据——这就是机器人的"百万辆车"。核心在于眼镜本身要好到让人"心甘情愿地戴",而不是为了数据才戴。

7. Data Factory会消失,但环境永存

谢晨最终的判断是:量贩式数据生产终将被AI自我学习取代,但"环境+成功标准+试错"的组合永远被需要。AI越强大,对学习环境的渴求越高——就像人越优秀越爱学习。仿真不是一个阶段性工具,而是智能进化的永恒基础设施。这是光轮的终极赌注。

关键数据汇总

指标具体内容
大模型数据充足度~60分(预训练到顶,后训练+评测还有大空间)
机器人数据充足度<0.6分(百万台起点的60分,现不到1万台)
中国数据标注从业者估计10万~几十万人
大模型后训练专家时薪$100+美金
机器人数据单价几十~几千人民币/小时,高质量数据几百~千+
Behaviour Challenge最高成功率26%(100道题)
光轮智能团队规模~100人全职(工程技术方向)
大模型团队训练卡量大几万张(vs 机器人公司几千张)
Generalist验证数据27万小时污秘夹爪数据,观察到Scaling Law
角逐机器人大脑的关键玩家OpenAI、DeepMind、阿里、英伟达、字节、PI
预训练数据成本模式标品,~5家大模型公司平摊
仿真 vs 真机效率倍数以系统为中心可比以人为中心少~100倍人力

延伸阅读