深度研究 — #106 和王鹤聊，具身智能的学术边缘史和资本轰炸后的人为乱象

嘉宾画像与公司概览
Embodied AI：一个学术概念的诞生
计算机视觉 vs 传统机器人：两拨学者
视觉、语言与智能的本质
Perception-Action Loop：具身的核心范式
王鹤的学术起源：从半导体到AI
第一个项目：从人类视频学交互
第二个项目：合成数据的源起
回国All In：从学术孤军到产业落地
硬件路线：务实选择与头部效应
合成数据 vs 真实数据：核心路线之争
VLM到VLA：通用性的阶梯
生产力级产品：行业的唯一正解
行业乱象：泡沫、遥操与虚假展示
五年大考与中国劳动力危机
与黄仁勋的晚宴：合成数据的全球共识
关键数据汇总
启示与延伸思考

一、嘉宾画像与公司概览

王鹤，33岁，ENTJ，北京大学助理教授，银河通用机器人创始人兼CTO。清华大学本科（电子系/微电子系，物理竞赛保送），斯坦福大学博士。研究方向从三维视觉、物体位姿估计一路延伸到具身智能，是中国最早倡导Embodied AI概念的学者之一。

2023.5

银河通用创立时间

>10亿

美元估值（战略轮）

33岁

王鹤年龄

~1%

真实数据在训练中占比

王鹤的学术身份坐标

2016年在斯坦福开始第一个AI项目，从半导体物理转行
2019年CVPR Oral（类别级物体位姿估计），开创了一个子领域
2020年作为Organizer举办第一届Embodied AI仿真Workshop（ICCV）
2021年回北大，建立中国大陆第一个以"具身"命名的实验室
在智源研究院创办全中国第一个具身智能研究中心

二、Embodied AI：一个学术概念的诞生

王鹤详细还原了"具身智能"这个概念从无到有的学术史。这不是一个自上而下的设计，而是计算机视觉领域的学者在研究瓶颈中自然生长出来的方向。

2017年 CoRL成立

Conference on Robot Learning举办第一届，标志着"用learning驱动机器人"的共识开始凝聚。但当时还没有打出Embodied AI这个旗号。

2018-2019年概念萌芽

计算机视觉顶会Workshop上首次出现"Embodied Agent"的命名。学者们开始区分Internet AI和Embodied AI：前者从互联网数据中挖掘知识，后者需要身体与环境的交互。

2020年术语定型

美国学术界开始流传"Internet AI vs Embodied AI"的slides。王鹤作为organizer在ICCV举办首届仿真与具身智能Workshop。Facebook推出Habitat仿真平台。

2021年美国普及，中国刚起步

王鹤回到北大，将实验室命名为Embodied Perception and Interaction Lab，是中国大陆第一个。"当时搜'具身智能'这个词都搜不到。"

2022年智源论证

北京智源研究院邀请王鹤论证具身智能是否是重要的AI前沿方向。结论：应该发展。王鹤作为创始主任建立了全中国第一个具身智能研究中心。

2022年底-2023年初 ChatGPT + PaLM-E引爆

ChatGPT展示了语言通用性，PaLM-E讲述了"视觉+语言+机器人调度"的故事。投资人蜂拥而至寻找做Embodied AI的人。

王鹤

南方就是卢策武，北方就是我，真没有其他人喊（具身智能这个词）。

学术概念的传播路径

Embodied AI的扩散遵循了一个典型模式：美国计算机视觉学者发起 → Workshop和Challenge凝聚共识 → 李飞飞提出"计算机视觉未来三颗北极星之一" → 黄仁勋在NVIDIA大会上宣布"下一代AI就是Embodied AI" → 学界和产业界共同确认重要性。中国滞后约2-3年，最初的推动者只有王鹤和卢策武两人。

三、计算机视觉 vs 传统机器人：两拨学者

王鹤揭示了一个外界很少了解的学术内部张力：推动具身智能的是计算机视觉领域的学者，而非传统机器人领域的研究者。

计算机视觉学者（推动者）

从ImageNet、人脸识别等"互联网被动感知"出发
追求从passive perception到主动感知的跃迁
强调Perception-Action Loop的闭环
提出Embodied AI概念，并吸纳其他方向
代表：李飞飞、Jitendra Malik、Meta AI

传统机器人学者

来自Mechanical Engineering和Control方向
关注机械设计、控制稳定性、重复精度
用强化学习做控制时不觉得产生了什么本质不同
输入是关节角和IMU等本体信息，不用视觉
代表：ETH四足、东京大学控制

学术洞察

"机器人没有自己独立的科学问题"

王鹤引用了一个经典说法：机器人把所有学科的东西都往里放。所以斯坦福没有机器人系——EE、CS、Mechanical Engineering、航空航天都有教授做机器人。这种"无所不包"的特性，既是它的魅力所在，也是它难以形成统一学术共识的原因。具身智能的提出，本质上是计算机视觉社区找到了一个统一叙事来吸纳各方。

王鹤

在控制里头做强化学习的人并没有觉得这个事情产生了什么不同。是在计算机视觉这个领域里头，大家说视觉要变得主动——我不是被动的从互联网上接收图片然后分类，而是我有主动观测的能力，且我还有跟环境交互、影响环境的能力。

四、视觉、语言与智能的本质

张小珺提出了一个尖锐的问题："计算机视觉不产生智能，语言即智能？"王鹤给出了强有力的反驳。

王鹤对智能本质的定义

智能就是依情况做出相应反应的能力。从小虫子扇翅膀躲避人手，到人类面对职业挑战时的拆解与规划，本质都是与环境交互中的应对方式。区别只在维度的高低和时间链条的长短。

语言不是智能的本质

很多生物有智能但没有语言（狗、海豚、大象达到4-5岁儿童智能）
语言是极高级智能才演化出来的一种智能
语言是人类发展出高智能的"一次跃变"，但并非前提
没有语言的生物是"纯VA模型"——端到端，不可解释

视觉也是智能

Visual intelligence是智能的重要组成部分
视觉在智能演化上比语言更前置
但视觉本质是一种sensor——不是所有生物都依赖视觉
绝大多数高级动物都演化出了视觉这种强传感器

王鹤

人类之所以能够达到next level的智能，就是直立行走、解放双手、灵巧操作极大丰富了经验，然后语言让知识更好地传播。语言是智能的拐杖，不是智能的本质。

智能的演化层级：从低维反应到高维综合

五、Perception-Action Loop：具身的核心范式

核心概念

Perception-Action Loop

具身智能的核心范式：先通过感知决定采取什么行动，行动后环境发生改变，更新感知信号，进而采取进一步行动。这是Internet AI时代缺失的闭环——"视觉圈发现我们只有perception但没有action"。分类一张猫的图片后就"没有后文了"，环境对你的认知没有给出任何反馈。

具身智能任务的演进路径

阶段	任务	特点
第一步	Point Goal Navigation（给坐标找过去）	最简单的perception-action loop：移动改变相机位置，看到新东西
第二步	Object Goal Navigation（给词找物体）	加入语义理解，但仍可用传统方法
第三步	Manipulation（抓取和操作）	涉及物理交互，对环境产生即时影响
第四步	Navigation + Manipulation	导航与操作结合
当前前沿	大模型驱动的开放指令执行	"随便说一个任务他就能做"——大模型保障通用性

为什么导航是第一任务

计算机视觉学者觉得最comfortable的起点：我只是一个观测者，移动自己但不改变环境中物体的位置。我的action导致相机位置变化，从而看到新的东西。这构成了最简单意义下的perception-action loop。操作（manipulation）涉及物理交互，更难，所以被推到后面。

六、王鹤的学术起源：从半导体到AI

王鹤的转行故事本身就是一段精彩的学术边缘史——从物理竞赛保送清华，到斯坦福超净间做纳米加工，再到AI领域的"九选二"竞争。

高中：物理竞赛保送清华

本科在清华电子系/微电子系，主要学半导体物理和器件物理。核心方法：手建数学模型 → 用实验数据拟合 → 预测新的behaviour。"翻译过来就是今天人工智能的方式"。

2015年：斯坦福的痛苦一年

在EE做半导体纳米加工。想法很快但验证极慢——"想一个idea需要用一个月时间才能完成整个加工全过程"。经常把芯片掉进氢氟酸（到一定剂量可致死）。"手比较笨"，镊子提的芯片会掉。决定不做了。

2016年：转入AI，九选二的残酷竞争

导师Leo Yu的组有9个学生竞争2个博士留组名额。竞争对手包括"清华上交计算机系的第一"。王鹤作为电子系出身，写码马力不如科班，但能把复杂关系进行数学建模和物理建模——导师看中的是"思维"。

2019年：第一篇论文终于中了

从2016年做到2019年才中了Eurographics最佳论文提名。"16年开始做，19年5月开的会。"此后进入快车道，"咔嚓的发"。

王鹤

Stanford的双向自由流动市场——你不需要导师签字就可以换组，导师也可以随时把你开除。不像国内基本上学生必须主动提出来。在这么动态的情况下，9个学生竞争2个名额。

为什么一个学物理的人赢了

王鹤的导师"只靠观察"来决定留谁，看的是"做研究的天赋"。王鹤在不知道perception-action loop概念的情况下，画了一个state → action → change world → state的diagram给导师看，讲解背后的动力学——"把一个大家一开始觉得科幻小说式的项目idea，formulate成了一个可执行的研究问题"。这种从物理学训练中获得的"抓住变化背后因果关系"的能力，是纯码力无法替代的。

七、第一个项目：从人类视频学交互

王鹤在斯坦福的第一个项目（2016年）惊人地前瞻——"从人类视频中学习多步人与物体交互过程的生成"。这在当时几乎无人理解。

项目核心

拍摄人做桌面物体操作的视频，标注每段动作
用LSTM学习动作间的因果关系：做什么动作会改变物体状态，改变后允许做什么下一步动作
系统中包含N个子模型：Object Detector、Object State Classifier、人手状态检测等
没有真机（当时没有机械臂），用3D动画和"自动驾驶杯子"作为demo

三年苦战的经过

用的是Caffe（PyTorch之前、TensorFlow之前的深度学习框架），"可难用了"
投了两次SIGGRAPH（图形学顶会）都没中——"一度很绝望"
评审说：传统的action grammar也能做这些事，你跟规则比有什么优势？
最终投了Eurographics，不仅中了，还获最佳论文提名
博后做的是动画相关的可视化，中间整个系统——数据处理、物理量穿连、因果关系建模——全是王鹤一人想的

2016年项目与今天的关系

王鹤坦承，这个项目中使用的技术——完全从视频学习、学习world model——"今天仍然不处于一个可以落地的技术"。但它锻造了两个核心能力：1) 对perception-action loop的直觉理解；2) 从复杂数据中提取因果关系的系统思维。真正直接影响今天工作的，是他的第二个项目。

八、第二个项目：合成数据的源起

2018年开始的类别级物体位姿估计（NOCS），不仅让王鹤在CVPR创造了一个子领域，更重要的是建立了合成数据的核心方法论——这直接奠定了银河通用今天的技术路线。

关键创新

从"实例级"到"类别级"物体位姿估计

传统方法：给一个特定物体建3D模型、标注坐标系，才能预测它的六维位姿。王鹤的突破：只需要知道物体的类别（如"马克杯"），就能预测任何该类别物体的位姿。核心洞察来自人类认知——"我们人类对同类物体都能想象出一个最正常的状态，把它当作基准状态"。

合成数据的起源故事

没有数据怎么办？

类别级意味着需要覆盖无穷种马克杯——不可能每个都拍照标注
王鹤一个人做（single first author），没有人力大规模采集
解决方案：带RGBD相机去湾区宜家拍真实桌面场景，再用图形学方法把虚拟物体渲染到真实背景上
真实背景 + 虚拟前景 = Mixed Reality Data
渲染时自动知道物体位姿，省去人工标注
产生了几十万张图的数据集，训练后在真实世界可以迁移

王鹤

这个思想的来源就是我当年的第二个project。从17年做这个NOCS工作开始研究合成数据，到今年做合成数据用于sim-to-real，也有8个年头了。World wide如果要讲believe in synthetic data，到处讲合成数据有用的，中国就是我。

九、回国All In：从学术孤军到产业落地

2020年底拿到北大Offer，王鹤面临选择：做安全的三维视觉，还是激进地All In具身智能。他选择了后者，代价是几乎所有人的不认同。

三次被拒的经历

2020年初：被李开复"零点一秒"否定

李开复在湾区丽思卡尔顿组织的创业Brunch上建议王鹤做增强式/自动驾驶。王鹤说想做家用机器人。"开复老师当场零点一秒就说：哎呀你别谈了，家用机器人还有50年。"

2021年：北大资深老师不认同

"你这个在国内根本就没有那么多空间，也没有人做。"他们看中的是王鹤的三维视觉能力。在北大战略会上王鹤讲All In Robotics，反馈是"不行啊你得留至少一半在三维视觉里"。王鹤："实质就是没听。那要听了就没有后来了嘛。"

2023年初：投资人纷至沓来

PaLM-E出来后，投资人开始找做Embodied AI的人。"好多人就找到我了。"但王鹤一开始都拒绝——核心顾虑是"自己不做硬件，而且市面上所有硬件都是垃圾"。直到遇到有ABB量产经验的合伙人，才决定创业。

王鹤

我在美国都没有做过任何一个公司的面试。像Google这样的公司去面拿下应该没问题，但我试了不去——对我没有意义。我来北大就是因为能fully control我做什么。

学术创业者的核心驱动力

王鹤拒绝Google大厂（"你就是个螺丝钉"）、拒绝自动驾驶方向（"我对交互的追求更丰富"）、拒绝妥协三维视觉（"那要听了就没有后来了"），最终的驱动力是极其清晰的长期目标：家用机器人。他从2020年就向投资人明确说career goal是"发展家用机器人"——在那个时间点这几乎是一种信仰。

十、硬件路线：务实选择与头部效应

银河通用选择了轮式底盘+7自由度协作臂+谐波减速器的"保守"硬件方案。王鹤对此的解释是：务实。

银河通用的选择

轮式底盘（商清多年验证，60cm直径）
7自由度协作臂（谐波减速器）
所有零部件经过万台以上量产验证
已实现一天20+小时长态化运营
今年千台级量产

激进方案的风险

行星滚柱丝杠——世界上未大规模量产
省区作弊——量产良率、一致性、可靠性均存疑
人形双足——增加不必要的复杂度
任何一个零部件坏了，整台机器人就坏了
激进硬件 = 拖累智能迭代节奏

机器人行业的头部效应

为什么赢家通吃

工业机械臂全球去年总产值才1000亿人民币——"跟理想一家车的产值相当"
商清机器人高峰期将近2000人，也只能做到年产值约10亿
一万台市场只能容纳前两名
机器人系统太复杂，后发者从钱从人各方面都追不上
"头部砸重金，修复所有硬件软件一体化的问题，把事做到产品级——这就只能容纳这么多了"

机器人产业规模对比（年产值/台数）

十一、合成数据 vs 真实数据：核心路线之争

这是本期播客最具争议性的议题。王鹤旗帜鲜明地站在合成数据一方，并系统性地驳斥了反对者的逻辑。

真实数据路线的经济账

10万+

一台全尺寸人形机器人制造成本

10亿

一万台机器人的制造投入

数亿/月

维护一万台机器人的运营成本

4人/台

每台机器人需要的遥操人员（两班各两人）

王鹤驳斥反对合成数据的三个误区

误区	王鹤的反驳
"Sim-to-real不work"	所有人形机器人的行走/跳跃/跑步技能都是通过sim-to-real实现的。如果sim-to-real不work，你要回答为什么运动控制的sim-to-real是work的。
"加入视觉后sim-to-real不行了"	小模型时代就已证明透明碎玻璃片的抓取完全可以用合成数据sim-to-real。到VLA时代更不是问题——VLM能看懂米老鼠唐老鸭的剧情，渲染图和真实图的差距远小于动画与现实的差距。
"物理仿真不精确"	move/pick up/place三件事的物理gap已经足够小。确实有些做不了的（如系鞋带），但那不在当前商业解决方案需要的技能范围内。

王鹤

为什么这么多人反对合成数据？核心原因就是很简单——他要卖机器。他自己用不用合成数据呢？也用。只不过用得不好。他会轻易地说"你看，假的，我做了但不work"。

合成数据路线的商业逻辑

真实数据路线构成了一种"可以讲的闭环"：我不信合成数据 → 你买我的机器 → 你去遥操采集 → 技能就出来了。但这个闭环的经济前提——一万台机器+年消耗数十亿——在当前没有任何厂商能承受。王鹤认为，只有当行业出现100亿以上收入的企业后，大规模真实数据采集才会经济可行。在那之前，合成数据是唯一可行的路径。

十二、VLM到VLA：通用性的阶梯

王鹤对"一步做出完全通用的VLA"持明确反对态度，并给出了从数据覆盖度角度的系统分析。

核心论点

数据覆盖度决定了通用性天花板

LLM之所以通用，是因为互联网文字对人类所有可能说的话的覆盖率极高。但VLM的视觉数据对"人眼能看到的所有视觉观测"的覆盖远远不够。VLA的Action数据更是"这两年大家才开始收集的"。每一层数据覆盖度的降低，都意味着通用性的大幅下降。

数据覆盖度与通用性：LLM → VLM → VLA

银河通用的务实路径

不追求一步通用，围绕可批量复制的应用发展智能

当前技能集中在移动、抓取、放置三个原子技能
不会撕开糖果包、不会系鞋带——"我看得懂，但我不会撕"
但要求在技能范围内对物体和环境充分泛化：任何品牌便利店、任何药品、任何新上架商品
跨店跨品牌全干——"7-11还是FamilyMart还是Lawson，我全干"
技能库会逐步扩展，但必须先把基础技能做到泛化和通用

王鹤

切记不要把目标一步定得过高，说一两年内做出一个完全通用的VLA。至少从学术界和从我个人的认知来说，这是不可能的。

十三、生产力级产品：行业的唯一正解

王鹤提出了判断具身智能产品的核心标准：生产力级产品。

什么是生产力级产品

机器人能够干活、有生产力、能形成解决方案。不一定是完整解决方案（可以人机配合），但单位时间干的活必须跟人相当。如果比人慢太多或干得不够久，就是"落后生产力"，引入只会让效率下降。

必须规避的两种失败模式

失败模式一：长期漂浮

讲人形机器人故事讲几十年
没有任何商业应用案例
每个技能背后都需要人编排
本质上是"为了拍摄而做的事情"
中美都有这样的公司

失败模式二：不可复制

每个场景的解决方案都从头重做
编辑成本不降——"换个厂家重新开发一遍"
可以有无限人实现"批量"，但不可"复制"
天花板是小几亿收入，都是苦力活
工业视觉公司已经证明了这个天花板

王鹤

如果大模型提倡的是智能级产品，那具身智能的产品就是生产力级产品。你的机器人能够干活，有生产力，这就是这个时代真正的产品。如果你没有产生生产力，我觉得它不是具身智能这个时代真正的产品。

银河通用的落地场景

24小时无人药店：一天几百单，平台方认证，长态化运营
无人零售：商超货架的上货、下货、重新摆放
工业分拣：搬箱子、抱箱子、码箱子、上料、Sorting
仅用现有硬件（轮式+协作臂），就能看到百万台级市场
敢在智能大会上直播VLA做货架——"不间断展示，不允许遥操"

十四、行业乱象：泡沫、遥操与虚假展示

王鹤对行业乱象的批评直言不讳，矛头同时指向中美两国。

乱象的源头：美国

Figure的正反逻辑

正逻辑：如果Figure真的能在产线上干活，这家公司未来长期价值应在数万亿美元。今天300-400亿美元估值还有百倍增长空间。
反逻辑：Figure到底有没有干活能力？只出货了10-20台，还没有常态化运营，"干的活还不是靠他claim的方法干的"。

具体乱象清单

乱象类型	具体表现
遥操冒充自主	美国是常态化——告诉你"我就是遥操的"但藏起操作者。中国有些公司"敢不告诉别人我是遥操，但实际是遥操"
视频Demo	只出视频不做现场展示，无法邀请现场观看
卖空壳机器人	"把没有功能的机器人卖给别人"——短期变成一种商业模式
虚假承诺	"你踩了就能训出来、你建厂就能有技能、我卖机器人你来踩、明天他就是你的员工"——砸行业饭碗
战略协议	"签了一些战略协议说已经怎么着怎么着——越来越没有说服力"

王鹤

不要去搞一些砸我们行业招牌的事情。这些模式是很可怕的，这些模式是在砸这个行业的饭碗。

王鹤的"行业生死线"标准

他提出了两个递进的验证关卡：第一关，公开展示且不允许遥操——在几万观众面前做。第二关，真正进了场子后，每天干多少量活、有没有长期报告、是否得到平台方认证。银河通用的24小时药店、智能大会直播，都是在经受这两关的检验。

十五、五年大考与中国劳动力危机

王鹤把具身智能的命运和中国国运联系在了一起，这不是修辞而是数学：

五年必须达到万台

头部公司五年内必须有万台以上自主机器人在运行
做不到就会重蹈工业视觉覆辙——"讲几百亿的故事，最后只有几亿的营收"
一旦被证伪或被认为不及预期，整个行业可能走入"冰河时代"

中国劳动力危机的时间窗口

王鹤

中国的老龄化少子化使得每一个五年都意味着劳动力断崖式下降。十年以后、二十年以后，我们的劳动力可能不到今天的一半，但老龄人口比今天多很多。如果缺一亿劳动力，世界上谁给我们补一亿劳动力？

王鹤以日本为参照：日本进入深度老龄化后，"年轻人一毕业所有人都有工作，福利特别好，只要让加班直接辞职"——但日本人口基数小，周边国家还能补一补。中国一旦缺劳动力，规模太大，无人能补。

生产力而非通用性才是当务之急

王鹤的经济算账：一台机器人如果能替代一个人的工作，按20万年薪计算，一万台机器人每年产生接近100亿的规模经济价值（考虑多班倒）。不需要通用——只要能在具体场景中稳定产出生产力，经济价值就非常实在。反观LLM："国内一些头部的非大厂大模型厂商，一年的收入其实是不高的。"

十六、与黄仁勋的晚宴：合成数据的全球共识

2024年底，NVIDIA创始人黄仁勋来华访问，在答谢宴上王鹤被安排坐在黄仁勋旁边。这个安排的背后是技术路线的认同。

NVIDIA为什么认同合成数据

NVIDIA的逻辑更简单：有卡就应该解决一切问题
合成数据 = 用GPU做渲染做仿真 + 用更高级的GPU做运算
如果合成数据走通，NVIDIA就能"撑起具身智能的半边天"
NVIDIA已发布基于NeRF的全套车载仿真渲染平台

在此之前，NVIDIA机器人副总裁、专员、甚至黄仁勋的儿子都曾多次来银河通用参观考察。"都已经亲眼见过了，才把我叫去跟黄仁勋一起吃饭。"

王鹤

黄仁勋是一个非常nice的人。他也能吃点辣的，水煮肉片我看他吃着也挺好的。那些变脸的演员表演他给了非常热情的反馈。除了我们这一桌以外，他所有桌都挨个过去敬了酒，还拍了照。

快问快答摘录

问题	王鹤的回答
最喜欢的食物	涮羊肉和烤鸭（北京人的胃觉醒了）
最喜欢的地点	欧洲（文化浓度的沉浸感）
必须了解的知识点	人类中枢运动控制神经——小脑比大脑有更多神经元，仿人机器人领域对此理解还很初级
推荐两本书	《时间简史》（初中读，萌发对第一性原理的思维方式）；《三国演义》（乱世中的策略与性格）
三国里想当谁	曹操的思维和看事角度 + 诸葛亮的理想主义——"缺一不可"

十七、关键数据汇总

指标	数据/判断
银河通用创立时间	2023年5月
估值	超过10亿美元（战略轮closing中）
真实数据在训练中占比	约1%甚至更小
合成数据研究年限	8年（从2017年NOCS起）
当前量产规模	千台级
一台全尺寸人形制造成本	最少10万元
一万台机器人年维护成本	数亿到10亿/月
遥操人员需求	每台至少4人（两班各两人）
工业机械臂全球年产值	1000亿人民币
商清高峰人数/产值	近2000人 / 约10亿产值
五年达标线	头部企业年万台以上自主机器人
Embodied AI中国提出者	南方卢策武，北方王鹤（2021年初）
王鹤博士第一篇论文	2016年做 → 2019年中（Eurographics最佳论文提名）
斯坦福留组竞争	9人竞争2个名额
NOCS数据集规模	几十万张合成图
通用机器人实现时间	几十年的探索空间，不要预期过快
Home Robot出现时间	三到五年出现小批量pilot产品

十八、启示与延伸思考

1. 具身智能不是"机器人+AI"，而是计算机视觉的自我超越

王鹤揭示了一个外界很少了解的事实：Embodied AI的概念不是由传统机器人学者提出的，而是由计算机视觉社区在追求从passive perception到perception-action loop的跃迁中自然生长出来的。传统控制学者"并没有觉得这个事情产生了什么不同"。这个起源差异深刻影响了今天的技术路线之争——视觉派强调端到端学习和合成数据，控制派强调物理精确性和真实数据。理解这个分裂的历史根源，对于判断谁会赢至关重要。

2. 合成数据不只是权宜之计，而是唯一可规模化的路径

王鹤的经济学论证摧毁了"先卖机器再采数据"的商业叙事：一万台机器人的制造+运营年消耗在百亿级别，而全球没有任何机器人公司有百亿收入。这意味着真实数据路线在当前阶段本质上是资本驱动的信仰行为，而非可持续的商业模式。相反，合成数据+少量真实数据（1%）已经在24小时药店中证明可行。自动驾驶的"免费数据飞轮"（卖车=用户帮你采数据）在机器人领域不存在——你不能卖一台没有功能的机器人。

3. "语言是智能的拐杖"挑战了LLM-first的叙事

在大模型时代"语言即智能"的主流叙事中，王鹤的观点极具挑战性：很多生物有智能但没有语言，语言是极高级智能才演化出来的产物，视觉在智能演化上比语言更前置。这个观点如果成立，意味着LLM的成功可能给我们一个错觉——以为智能的核心在语言，实际上语言只是压缩了更底层的感知和交互智能。VLM表现弱于LLM，不是因为视觉不重要，而是视觉数据对真实世界的覆盖度远不够。

4. "务实"是当前阶段的最优策略，而非妥协

银河通用的硬件选择（轮式底盘、谐波减速器）看似保守，实际蕴含深刻的产业逻辑：在零部件都未大规模量产的行业里，选择经过万台验证的方案是降低系统风险的唯一方式。王鹤的类比很到位——"你不能一边挑战最不成熟的硬件技术，一边还要把智能做好"。2B客户不关心你是腿还是轮，只关心干没干活。一天20小时的长态化运营比五分钟的精彩demo有说服力得多。

5. 学术创业者的核心优势是"formulate问题"的能力

王鹤在斯坦福九选二的竞争中胜出，靠的不是编码能力（"写码马力不如科班出身"），而是"把一个科幻小说式的项目idea formulate成可执行研究问题"的能力。这种从物理学训练中获得的建模直觉——看到复杂现象时能抓住背后的因果关系，画出state→action→change world的diagram——在AI时代的价值可能被严重低估。它在实验室里体现为开创新领域，在公司里体现为判断技术路线。

6. 具身智能的五年大考关乎中国国运

王鹤将具身智能与中国劳动力危机直接挂钩：每五年劳动力断崖下降，二十年后可能不到今天的一半。如果五年内头部企业做不到万台级规模化，行业可能被证伪——"全是泡沫"。这不仅仅是商业失败，更意味着在深度老龄化来临时，中国无法提出填补制造业和服务业劳动力缺口的技术方案。日本的前车之鉴（所有年龄段都缺人）近在眼前，但日本规模小可以靠周边补充，中国不行。

7. 行业乱象的本质是"没有干活能力但假装有"

王鹤对行业乱象的批评指向一个核心问题：有没有真正的生产力。遥操冒充自主、视频代替现场、卖空壳机器人、虚假承诺"踩了就能训"——所有乱象的共同特征是回避"公开展示+长期运营数据"这两关检验。他的担忧不仅是商业层面的——如果乱象导致行业信心崩溃，真正想做事的公司也会被拖入冰河时代。这是一个典型的"劣币驱逐良币"风险。

8. 从"造机器人"到"造人"的哲学跃迁尚未发生

王鹤虽然在访谈中主要讨论技术和商业，但他在最后提到了一个深层问题：人类中枢运动控制神经的秘密——小脑比大脑有更多神经元，而机器人领域对仿生运动控制的理解还很初级。他判断具身智能"还有未来几十年可以不断探索的空间"。这意味着当前所有的激进预期（一两年大成熟）都是幻觉。真正的大圆满，需要跨越从数据到物理、从工程到认知科学的多重鸿沟。

具身智能的学术边缘史和资本轰炸后的人为乱象

目录