← 返回目录
深度研究 Deep Dive

具身智能的学术边缘史和资本轰炸后的人为乱象

#106 和王鹤聊 — 银河通用创始人兼CTO
张小珺Jun|商业访谈录 · 北京大学助理教授 · 银河通用机器人
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 嘉宾画像与公司概览
  2. Embodied AI:一个学术概念的诞生
  3. 计算机视觉 vs 传统机器人:两拨学者
  4. 视觉、语言与智能的本质
  5. Perception-Action Loop:具身的核心范式
  6. 王鹤的学术起源:从半导体到AI
  7. 第一个项目:从人类视频学交互
  8. 第二个项目:合成数据的源起
  9. 回国All In:从学术孤军到产业落地
  10. 硬件路线:务实选择与头部效应
  11. 合成数据 vs 真实数据:核心路线之争
  12. VLM到VLA:通用性的阶梯
  13. 生产力级产品:行业的唯一正解
  14. 行业乱象:泡沫、遥操与虚假展示
  15. 五年大考与中国劳动力危机
  16. 与黄仁勋的晚宴:合成数据的全球共识
  17. 关键数据汇总
  18. 启示与延伸思考

一、嘉宾画像与公司概览

王鹤,33岁,ENTJ,北京大学助理教授,银河通用机器人创始人兼CTO。清华大学本科(电子系/微电子系,物理竞赛保送),斯坦福大学博士。研究方向从三维视觉、物体位姿估计一路延伸到具身智能,是中国最早倡导Embodied AI概念的学者之一。

2023.5
银河通用创立时间
>10亿
美元估值(战略轮)
33岁
王鹤年龄
~1%
真实数据在训练中占比

王鹤的学术身份坐标

  • 2016年在斯坦福开始第一个AI项目,从半导体物理转行
  • 2019年CVPR Oral(类别级物体位姿估计),开创了一个子领域
  • 2020年作为Organizer举办第一届Embodied AI仿真Workshop(ICCV)
  • 2021年回北大,建立中国大陆第一个以"具身"命名的实验室
  • 在智源研究院创办全中国第一个具身智能研究中心

二、Embodied AI:一个学术概念的诞生

王鹤详细还原了"具身智能"这个概念从无到有的学术史。这不是一个自上而下的设计,而是计算机视觉领域的学者在研究瓶颈中自然生长出来的方向。

2017年 CoRL成立

Conference on Robot Learning举办第一届,标志着"用learning驱动机器人"的共识开始凝聚。但当时还没有打出Embodied AI这个旗号。

2018-2019年 概念萌芽

计算机视觉顶会Workshop上首次出现"Embodied Agent"的命名。学者们开始区分Internet AI和Embodied AI:前者从互联网数据中挖掘知识,后者需要身体与环境的交互。

2020年 术语定型

美国学术界开始流传"Internet AI vs Embodied AI"的slides。王鹤作为organizer在ICCV举办首届仿真与具身智能Workshop。Facebook推出Habitat仿真平台。

2021年 美国普及,中国刚起步

王鹤回到北大,将实验室命名为Embodied Perception and Interaction Lab,是中国大陆第一个。"当时搜'具身智能'这个词都搜不到。"

2022年 智源论证

北京智源研究院邀请王鹤论证具身智能是否是重要的AI前沿方向。结论:应该发展。王鹤作为创始主任建立了全中国第一个具身智能研究中心。

2022年底-2023年初 ChatGPT + PaLM-E引爆

ChatGPT展示了语言通用性,PaLM-E讲述了"视觉+语言+机器人调度"的故事。投资人蜂拥而至寻找做Embodied AI的人。

王鹤
南方就是卢策武,北方就是我,真没有其他人喊(具身智能这个词)。

学术概念的传播路径

Embodied AI的扩散遵循了一个典型模式:美国计算机视觉学者发起 → Workshop和Challenge凝聚共识 → 李飞飞提出"计算机视觉未来三颗北极星之一" → 黄仁勋NVIDIA大会上宣布"下一代AI就是Embodied AI" → 学界和产业界共同确认重要性。中国滞后约2-3年,最初的推动者只有王鹤和卢策武两人。

三、计算机视觉 vs 传统机器人:两拨学者

王鹤揭示了一个外界很少了解的学术内部张力:推动具身智能的是计算机视觉领域的学者,而非传统机器人领域的研究者。

计算机视觉学者(推动者)

  • 从ImageNet、人脸识别等"互联网被动感知"出发
  • 追求从passive perception到主动感知的跃迁
  • 强调Perception-Action Loop的闭环
  • 提出Embodied AI概念,并吸纳其他方向
  • 代表:李飞飞、Jitendra MalikMeta AI

传统机器人学者

  • 来自Mechanical Engineering和Control方向
  • 关注机械设计、控制稳定性、重复精度
  • 用强化学习做控制时不觉得产生了什么本质不同
  • 输入是关节角和IMU等本体信息,不用视觉
  • 代表:ETH四足、东京大学控制
学术洞察

"机器人没有自己独立的科学问题"

王鹤引用了一个经典说法:机器人把所有学科的东西都往里放。所以斯坦福没有机器人系——EE、CS、Mechanical Engineering、航空航天都有教授做机器人。这种"无所不包"的特性,既是它的魅力所在,也是它难以形成统一学术共识的原因。具身智能的提出,本质上是计算机视觉社区找到了一个统一叙事来吸纳各方。

王鹤
在控制里头做强化学习的人并没有觉得这个事情产生了什么不同。是在计算机视觉这个领域里头,大家说视觉要变得主动——我不是被动的从互联网上接收图片然后分类,而是我有主动观测的能力,且我还有跟环境交互、影响环境的能力。

四、视觉、语言与智能的本质

张小珺提出了一个尖锐的问题:"计算机视觉不产生智能,语言即智能?"王鹤给出了强有力的反驳。

王鹤对智能本质的定义

智能就是依情况做出相应反应的能力。从小虫子扇翅膀躲避人手,到人类面对职业挑战时的拆解与规划,本质都是与环境交互中的应对方式。区别只在维度的高低和时间链条的长短。

语言不是智能的本质

  • 很多生物有智能但没有语言(狗、海豚、大象达到4-5岁儿童智能)
  • 语言是极高级智能才演化出来的一种智能
  • 语言是人类发展出高智能的"一次跃变",但并非前提
  • 没有语言的生物是"纯VA模型"——端到端,不可解释

视觉也是智能

  • Visual intelligence是智能的重要组成部分
  • 视觉在智能演化上比语言更前置
  • 但视觉本质是一种sensor——不是所有生物都依赖视觉
  • 绝大多数高级动物都演化出了视觉这种强传感器
王鹤
人类之所以能够达到next level的智能,就是直立行走、解放双手、灵巧操作极大丰富了经验,然后语言让知识更好地传播。语言是智能的拐杖,不是智能的本质。
智能的演化层级:从低维反应到高维综合

五、Perception-Action Loop:具身的核心范式

核心概念

Perception-Action Loop

具身智能的核心范式:先通过感知决定采取什么行动,行动后环境发生改变,更新感知信号,进而采取进一步行动。这是Internet AI时代缺失的闭环——"视觉圈发现我们只有perception但没有action"。分类一张猫的图片后就"没有后文了",环境对你的认知没有给出任何反馈。

具身智能任务的演进路径

阶段任务特点
第一步Point Goal Navigation(给坐标找过去)最简单的perception-action loop:移动改变相机位置,看到新东西
第二步Object Goal Navigation(给词找物体)加入语义理解,但仍可用传统方法
第三步Manipulation(抓取和操作)涉及物理交互,对环境产生即时影响
第四步Navigation + Manipulation导航与操作结合
当前前沿大模型驱动的开放指令执行"随便说一个任务他就能做"——大模型保障通用性

为什么导航是第一任务

计算机视觉学者觉得最comfortable的起点:我只是一个观测者,移动自己但不改变环境中物体的位置。我的action导致相机位置变化,从而看到新的东西。这构成了最简单意义下的perception-action loop。操作(manipulation)涉及物理交互,更难,所以被推到后面。

六、王鹤的学术起源:从半导体到AI

王鹤的转行故事本身就是一段精彩的学术边缘史——从物理竞赛保送清华,到斯坦福超净间做纳米加工,再到AI领域的"九选二"竞争。

高中:物理竞赛保送清华

本科在清华电子系/微电子系,主要学半导体物理和器件物理。核心方法:手建数学模型 → 用实验数据拟合 → 预测新的behaviour。"翻译过来就是今天人工智能的方式"。

2015年:斯坦福的痛苦一年

在EE做半导体纳米加工。想法很快但验证极慢——"想一个idea需要用一个月时间才能完成整个加工全过程"。经常把芯片掉进氢氟酸(到一定剂量可致死)。"手比较笨",镊子提的芯片会掉。决定不做了。

2016年:转入AI,九选二的残酷竞争

导师Leo Yu的组有9个学生竞争2个博士留组名额。竞争对手包括"清华上交计算机系的第一"。王鹤作为电子系出身,写码马力不如科班,但能把复杂关系进行数学建模和物理建模——导师看中的是"思维"。

2019年:第一篇论文终于中了

从2016年做到2019年才中了Eurographics最佳论文提名。"16年开始做,19年5月开的会。"此后进入快车道,"咔嚓的发"。

王鹤
Stanford的双向自由流动市场——你不需要导师签字就可以换组,导师也可以随时把你开除。不像国内基本上学生必须主动提出来。在这么动态的情况下,9个学生竞争2个名额。

为什么一个学物理的人赢了

王鹤的导师"只靠观察"来决定留谁,看的是"做研究的天赋"。王鹤在不知道perception-action loop概念的情况下,画了一个state → action → change world → state的diagram给导师看,讲解背后的动力学——"把一个大家一开始觉得科幻小说式的项目idea,formulate成了一个可执行的研究问题"。这种从物理学训练中获得的"抓住变化背后因果关系"的能力,是纯码力无法替代的。

七、第一个项目:从人类视频学交互

王鹤在斯坦福的第一个项目(2016年)惊人地前瞻——"从人类视频中学习多步人与物体交互过程的生成"。这在当时几乎无人理解。

项目核心

  • 拍摄人做桌面物体操作的视频,标注每段动作
  • 用LSTM学习动作间的因果关系:做什么动作会改变物体状态,改变后允许做什么下一步动作
  • 系统中包含N个子模型:Object Detector、Object State Classifier、人手状态检测等
  • 没有真机(当时没有机械臂),用3D动画和"自动驾驶杯子"作为demo

三年苦战的经过

2016年项目与今天的关系

王鹤坦承,这个项目中使用的技术——完全从视频学习、学习world model——"今天仍然不处于一个可以落地的技术"。但它锻造了两个核心能力:1) 对perception-action loop的直觉理解;2) 从复杂数据中提取因果关系的系统思维。真正直接影响今天工作的,是他的第二个项目。

八、第二个项目:合成数据的源起

2018年开始的类别级物体位姿估计(NOCS),不仅让王鹤在CVPR创造了一个子领域,更重要的是建立了合成数据的核心方法论——这直接奠定了银河通用今天的技术路线。

关键创新

从"实例级"到"类别级"物体位姿估计

传统方法:给一个特定物体建3D模型、标注坐标系,才能预测它的六维位姿。王鹤的突破:只需要知道物体的类别(如"马克杯"),就能预测任何该类别物体的位姿。核心洞察来自人类认知——"我们人类对同类物体都能想象出一个最正常的状态,把它当作基准状态"。

合成数据的起源故事

没有数据怎么办?

  • 类别级意味着需要覆盖无穷种马克杯——不可能每个都拍照标注
  • 王鹤一个人做(single first author),没有人力大规模采集
  • 解决方案:带RGBD相机去湾区宜家拍真实桌面场景,再用图形学方法把虚拟物体渲染到真实背景上
  • 真实背景 + 虚拟前景 = Mixed Reality Data
  • 渲染时自动知道物体位姿,省去人工标注
  • 产生了几十万张图的数据集,训练后在真实世界可以迁移
王鹤
这个思想的来源就是我当年的第二个project。从17年做这个NOCS工作开始研究合成数据,到今年做合成数据用于sim-to-real,也有8个年头了。World wide如果要讲believe in synthetic data,到处讲合成数据有用的,中国就是我。

九、回国All In:从学术孤军到产业落地

2020年底拿到北大Offer,王鹤面临选择:做安全的三维视觉,还是激进地All In具身智能。他选择了后者,代价是几乎所有人的不认同。

三次被拒的经历

2020年初:被李开复"零点一秒"否定

李开复在湾区丽思卡尔顿组织的创业Brunch上建议王鹤做增强式/自动驾驶。王鹤说想做家用机器人。"开复老师当场零点一秒就说:哎呀你别谈了,家用机器人还有50年。"

2021年:北大资深老师不认同

"你这个在国内根本就没有那么多空间,也没有人做。"他们看中的是王鹤的三维视觉能力。在北大战略会上王鹤讲All In Robotics,反馈是"不行啊你得留至少一半在三维视觉里"。王鹤:"实质就是没听。那要听了就没有后来了嘛。"

2023年初:投资人纷至沓来

PaLM-E出来后,投资人开始找做Embodied AI的人。"好多人就找到我了。"但王鹤一开始都拒绝——核心顾虑是"自己不做硬件,而且市面上所有硬件都是垃圾"。直到遇到有ABB量产经验的合伙人,才决定创业。

王鹤
我在美国都没有做过任何一个公司的面试。像Google这样的公司去面拿下应该没问题,但我试了不去——对我没有意义。我来北大就是因为能fully control我做什么。

学术创业者的核心驱动力

王鹤拒绝Google大厂("你就是个螺丝钉")、拒绝自动驾驶方向("我对交互的追求更丰富")、拒绝妥协三维视觉("那要听了就没有后来了"),最终的驱动力是极其清晰的长期目标:家用机器人。他从2020年就向投资人明确说career goal是"发展家用机器人"——在那个时间点这几乎是一种信仰。

十、硬件路线:务实选择与头部效应

银河通用选择了轮式底盘+7自由度协作臂+谐波减速器的"保守"硬件方案。王鹤对此的解释是:务实

银河通用的选择

  • 轮式底盘(商清多年验证,60cm直径)
  • 7自由度协作臂(谐波减速器)
  • 所有零部件经过万台以上量产验证
  • 已实现一天20+小时长态化运营
  • 今年千台级量产

激进方案的风险

  • 行星滚柱丝杠——世界上未大规模量产
  • 省区作弊——量产良率、一致性、可靠性均存疑
  • 人形双足——增加不必要的复杂度
  • 任何一个零部件坏了,整台机器人就坏了
  • 激进硬件 = 拖累智能迭代节奏

机器人行业的头部效应

为什么赢家通吃

  • 工业机械臂全球去年总产值才1000亿人民币——"跟理想一家车的产值相当"
  • 商清机器人高峰期将近2000人,也只能做到年产值约10亿
  • 一万台市场只能容纳前两名
  • 机器人系统太复杂,后发者从钱从人各方面都追不上
  • "头部砸重金,修复所有硬件软件一体化的问题,把事做到产品级——这就只能容纳这么多了"
机器人产业规模对比(年产值/台数)

十一、合成数据 vs 真实数据:核心路线之争

这是本期播客最具争议性的议题。王鹤旗帜鲜明地站在合成数据一方,并系统性地驳斥了反对者的逻辑。

真实数据路线的经济账

10万+
一台全尺寸人形机器人制造成本
10亿
一万台机器人的制造投入
数亿/月
维护一万台机器人的运营成本
4人/台
每台机器人需要的遥操人员(两班各两人)

王鹤驳斥反对合成数据的三个误区

误区王鹤的反驳
"Sim-to-real不work"所有人形机器人的行走/跳跃/跑步技能都是通过sim-to-real实现的。如果sim-to-real不work,你要回答为什么运动控制的sim-to-real是work的。
"加入视觉后sim-to-real不行了"小模型时代就已证明透明碎玻璃片的抓取完全可以用合成数据sim-to-real。到VLA时代更不是问题——VLM能看懂米老鼠唐老鸭的剧情,渲染图和真实图的差距远小于动画与现实的差距。
"物理仿真不精确"move/pick up/place三件事的物理gap已经足够小。确实有些做不了的(如系鞋带),但那不在当前商业解决方案需要的技能范围内。
王鹤
为什么这么多人反对合成数据?核心原因就是很简单——他要卖机器。他自己用不用合成数据呢?也用。只不过用得不好。他会轻易地说"你看,假的,我做了但不work"。

合成数据路线的商业逻辑

真实数据路线构成了一种"可以讲的闭环":我不信合成数据 → 你买我的机器 → 你去遥操采集 → 技能就出来了。但这个闭环的经济前提——一万台机器+年消耗数十亿——在当前没有任何厂商能承受。王鹤认为,只有当行业出现100亿以上收入的企业后,大规模真实数据采集才会经济可行。在那之前,合成数据是唯一可行的路径。

十二、VLM到VLA:通用性的阶梯

王鹤对"一步做出完全通用的VLA"持明确反对态度,并给出了从数据覆盖度角度的系统分析。

核心论点

数据覆盖度决定了通用性天花板

LLM之所以通用,是因为互联网文字对人类所有可能说的话的覆盖率极高。但VLM的视觉数据对"人眼能看到的所有视觉观测"的覆盖远远不够。VLA的Action数据更是"这两年大家才开始收集的"。每一层数据覆盖度的降低,都意味着通用性的大幅下降。

数据覆盖度与通用性:LLM → VLM → VLA

银河通用的务实路径

不追求一步通用,围绕可批量复制的应用发展智能

  • 当前技能集中在移动、抓取、放置三个原子技能
  • 不会撕开糖果包、不会系鞋带——"我看得懂,但我不会撕"
  • 但要求在技能范围内对物体和环境充分泛化:任何品牌便利店、任何药品、任何新上架商品
  • 跨店跨品牌全干——"7-11还是FamilyMart还是Lawson,我全干"
  • 技能库会逐步扩展,但必须先把基础技能做到泛化和通用
王鹤
切记不要把目标一步定得过高,说一两年内做出一个完全通用的VLA。至少从学术界和从我个人的认知来说,这是不可能的。

十三、生产力级产品:行业的唯一正解

王鹤提出了判断具身智能产品的核心标准:生产力级产品

什么是生产力级产品

机器人能够干活、有生产力、能形成解决方案。不一定是完整解决方案(可以人机配合),但单位时间干的活必须跟人相当。如果比人慢太多或干得不够久,就是"落后生产力",引入只会让效率下降。

必须规避的两种失败模式

失败模式一:长期漂浮

  • 讲人形机器人故事讲几十年
  • 没有任何商业应用案例
  • 每个技能背后都需要人编排
  • 本质上是"为了拍摄而做的事情"
  • 中美都有这样的公司

失败模式二:不可复制

  • 每个场景的解决方案都从头重做
  • 编辑成本不降——"换个厂家重新开发一遍"
  • 可以有无限人实现"批量",但不可"复制"
  • 天花板是小几亿收入,都是苦力活
  • 工业视觉公司已经证明了这个天花板
王鹤
如果大模型提倡的是智能级产品,那具身智能的产品就是生产力级产品。你的机器人能够干活,有生产力,这就是这个时代真正的产品。如果你没有产生生产力,我觉得它不是具身智能这个时代真正的产品。

银河通用的落地场景

十四、行业乱象:泡沫、遥操与虚假展示

王鹤对行业乱象的批评直言不讳,矛头同时指向中美两国。

乱象的源头:美国

Figure的正反逻辑

  • 正逻辑:如果Figure真的能在产线上干活,这家公司未来长期价值应在数万亿美元。今天300-400亿美元估值还有百倍增长空间。
  • 反逻辑:Figure到底有没有干活能力?只出货了10-20台,还没有常态化运营,"干的活还不是靠他claim的方法干的"。

具体乱象清单

乱象类型具体表现
遥操冒充自主美国是常态化——告诉你"我就是遥操的"但藏起操作者。中国有些公司"敢不告诉别人我是遥操,但实际是遥操"
视频Demo只出视频不做现场展示,无法邀请现场观看
卖空壳机器人"把没有功能的机器人卖给别人"——短期变成一种商业模式
虚假承诺"你踩了就能训出来、你建厂就能有技能、我卖机器人你来踩、明天他就是你的员工"——砸行业饭碗
战略协议"签了一些战略协议说已经怎么着怎么着——越来越没有说服力"
王鹤
不要去搞一些砸我们行业招牌的事情。这些模式是很可怕的,这些模式是在砸这个行业的饭碗。

王鹤的"行业生死线"标准

他提出了两个递进的验证关卡:第一关,公开展示且不允许遥操——在几万观众面前做。第二关,真正进了场子后,每天干多少量活、有没有长期报告、是否得到平台方认证。银河通用的24小时药店、智能大会直播,都是在经受这两关的检验。

十五、五年大考与中国劳动力危机

王鹤把具身智能的命运和中国国运联系在了一起,这不是修辞而是数学:

五年必须达到万台

  • 头部公司五年内必须有万台以上自主机器人在运行
  • 做不到就会重蹈工业视觉覆辙——"讲几百亿的故事,最后只有几亿的营收"
  • 一旦被证伪或被认为不及预期,整个行业可能走入"冰河时代"

中国劳动力危机的时间窗口

王鹤
中国的老龄化少子化使得每一个五年都意味着劳动力断崖式下降。十年以后、二十年以后,我们的劳动力可能不到今天的一半,但老龄人口比今天多很多。如果缺一亿劳动力,世界上谁给我们补一亿劳动力?

王鹤以日本为参照:日本进入深度老龄化后,"年轻人一毕业所有人都有工作,福利特别好,只要让加班直接辞职"——但日本人口基数小,周边国家还能补一补。中国一旦缺劳动力,规模太大,无人能补。

生产力而非通用性才是当务之急

王鹤的经济算账:一台机器人如果能替代一个人的工作,按20万年薪计算,一万台机器人每年产生接近100亿的规模经济价值(考虑多班倒)。不需要通用——只要能在具体场景中稳定产出生产力,经济价值就非常实在。反观LLM:"国内一些头部的非大厂大模型厂商,一年的收入其实是不高的。"

十六、与黄仁勋的晚宴:合成数据的全球共识

2024年底,NVIDIA创始人黄仁勋来华访问,在答谢宴上王鹤被安排坐在黄仁勋旁边。这个安排的背后是技术路线的认同。

NVIDIA为什么认同合成数据

  • NVIDIA的逻辑更简单:有卡就应该解决一切问题
  • 合成数据 = 用GPU做渲染做仿真 + 用更高级的GPU做运算
  • 如果合成数据走通,NVIDIA就能"撑起具身智能的半边天"
  • NVIDIA已发布基于NeRF的全套车载仿真渲染平台

在此之前,NVIDIA机器人副总裁、专员、甚至黄仁勋的儿子都曾多次来银河通用参观考察。"都已经亲眼见过了,才把我叫去跟黄仁勋一起吃饭。"

王鹤
黄仁勋是一个非常nice的人。他也能吃点辣的,水煮肉片我看他吃着也挺好的。那些变脸的演员表演他给了非常热情的反馈。除了我们这一桌以外,他所有桌都挨个过去敬了酒,还拍了照。

快问快答摘录

问题王鹤的回答
最喜欢的食物涮羊肉和烤鸭(北京人的胃觉醒了)
最喜欢的地点欧洲(文化浓度的沉浸感)
必须了解的知识点人类中枢运动控制神经——小脑比大脑有更多神经元,仿人机器人领域对此理解还很初级
推荐两本书《时间简史》(初中读,萌发对第一性原理的思维方式);《三国演义》(乱世中的策略与性格)
三国里想当谁曹操的思维和看事角度 + 诸葛亮的理想主义——"缺一不可"

十七、关键数据汇总

指标数据/判断
银河通用创立时间2023年5月
估值超过10亿美元(战略轮closing中)
真实数据在训练中占比约1%甚至更小
合成数据研究年限8年(从2017年NOCS起)
当前量产规模千台级
一台全尺寸人形制造成本最少10万元
一万台机器人年维护成本数亿到10亿/月
遥操人员需求每台至少4人(两班各两人)
工业机械臂全球年产值1000亿人民币
商清高峰人数/产值近2000人 / 约10亿产值
五年达标线头部企业年万台以上自主机器人
Embodied AI中国提出者南方卢策武,北方王鹤(2021年初)
王鹤博士第一篇论文2016年做 → 2019年中(Eurographics最佳论文提名)
斯坦福留组竞争9人竞争2个名额
NOCS数据集规模几十万张合成图
通用机器人实现时间几十年的探索空间,不要预期过快
Home Robot出现时间三到五年出现小批量pilot产品

十八、启示与延伸思考

1. 具身智能不是"机器人+AI",而是计算机视觉的自我超越

王鹤揭示了一个外界很少了解的事实:Embodied AI的概念不是由传统机器人学者提出的,而是由计算机视觉社区在追求从passive perception到perception-action loop的跃迁中自然生长出来的。传统控制学者"并没有觉得这个事情产生了什么不同"。这个起源差异深刻影响了今天的技术路线之争——视觉派强调端到端学习和合成数据,控制派强调物理精确性和真实数据。理解这个分裂的历史根源,对于判断谁会赢至关重要。

2. 合成数据不只是权宜之计,而是唯一可规模化的路径

王鹤的经济学论证摧毁了"先卖机器再采数据"的商业叙事:一万台机器人的制造+运营年消耗在百亿级别,而全球没有任何机器人公司有百亿收入。这意味着真实数据路线在当前阶段本质上是资本驱动的信仰行为,而非可持续的商业模式。相反,合成数据+少量真实数据(1%)已经在24小时药店中证明可行。自动驾驶的"免费数据飞轮"(卖车=用户帮你采数据)在机器人领域不存在——你不能卖一台没有功能的机器人。

3. "语言是智能的拐杖"挑战了LLM-first的叙事

在大模型时代"语言即智能"的主流叙事中,王鹤的观点极具挑战性:很多生物有智能但没有语言,语言是极高级智能才演化出来的产物,视觉在智能演化上比语言更前置。这个观点如果成立,意味着LLM的成功可能给我们一个错觉——以为智能的核心在语言,实际上语言只是压缩了更底层的感知和交互智能。VLM表现弱于LLM,不是因为视觉不重要,而是视觉数据对真实世界的覆盖度远不够。

4. "务实"是当前阶段的最优策略,而非妥协

银河通用的硬件选择(轮式底盘、谐波减速器)看似保守,实际蕴含深刻的产业逻辑:在零部件都未大规模量产的行业里,选择经过万台验证的方案是降低系统风险的唯一方式。王鹤的类比很到位——"你不能一边挑战最不成熟的硬件技术,一边还要把智能做好"。2B客户不关心你是腿还是轮,只关心干没干活。一天20小时的长态化运营比五分钟的精彩demo有说服力得多。

5. 学术创业者的核心优势是"formulate问题"的能力

王鹤在斯坦福九选二的竞争中胜出,靠的不是编码能力("写码马力不如科班出身"),而是"把一个科幻小说式的项目idea formulate成可执行研究问题"的能力。这种从物理学训练中获得的建模直觉——看到复杂现象时能抓住背后的因果关系,画出state→action→change world的diagram——在AI时代的价值可能被严重低估。它在实验室里体现为开创新领域,在公司里体现为判断技术路线。

6. 具身智能的五年大考关乎中国国运

王鹤将具身智能与中国劳动力危机直接挂钩:每五年劳动力断崖下降,二十年后可能不到今天的一半。如果五年内头部企业做不到万台级规模化,行业可能被证伪——"全是泡沫"。这不仅仅是商业失败,更意味着在深度老龄化来临时,中国无法提出填补制造业和服务业劳动力缺口的技术方案。日本的前车之鉴(所有年龄段都缺人)近在眼前,但日本规模小可以靠周边补充,中国不行。

7. 行业乱象的本质是"没有干活能力但假装有"

王鹤对行业乱象的批评指向一个核心问题:有没有真正的生产力。遥操冒充自主、视频代替现场、卖空壳机器人、虚假承诺"踩了就能训"——所有乱象的共同特征是回避"公开展示+长期运营数据"这两关检验。他的担忧不仅是商业层面的——如果乱象导致行业信心崩溃,真正想做事的公司也会被拖入冰河时代。这是一个典型的"劣币驱逐良币"风险。

8. 从"造机器人"到"造人"的哲学跃迁尚未发生

王鹤虽然在访谈中主要讨论技术和商业,但他在最后提到了一个深层问题:人类中枢运动控制神经的秘密——小脑比大脑有更多神经元,而机器人领域对仿生运动控制的理解还很初级。他判断具身智能"还有未来几十年可以不断探索的空间"。这意味着当前所有的激进预期(一两年大成熟)都是幻觉。真正的大圆满,需要跨越从数据到物理、从工程到认知科学的多重鸿沟。

延伸阅读