王鹤,33岁,ENTJ,北京大学助理教授,银河通用机器人创始人兼CTO。清华大学本科(电子系/微电子系,物理竞赛保送),斯坦福大学博士。研究方向从三维视觉、物体位姿估计一路延伸到具身智能,是中国最早倡导Embodied AI概念的学者之一。
王鹤详细还原了"具身智能"这个概念从无到有的学术史。这不是一个自上而下的设计,而是计算机视觉领域的学者在研究瓶颈中自然生长出来的方向。
Conference on Robot Learning举办第一届,标志着"用learning驱动机器人"的共识开始凝聚。但当时还没有打出Embodied AI这个旗号。
计算机视觉顶会Workshop上首次出现"Embodied Agent"的命名。学者们开始区分Internet AI和Embodied AI:前者从互联网数据中挖掘知识,后者需要身体与环境的交互。
美国学术界开始流传"Internet AI vs Embodied AI"的slides。王鹤作为organizer在ICCV举办首届仿真与具身智能Workshop。Facebook推出Habitat仿真平台。
王鹤回到北大,将实验室命名为Embodied Perception and Interaction Lab,是中国大陆第一个。"当时搜'具身智能'这个词都搜不到。"
北京智源研究院邀请王鹤论证具身智能是否是重要的AI前沿方向。结论:应该发展。王鹤作为创始主任建立了全中国第一个具身智能研究中心。
ChatGPT展示了语言通用性,PaLM-E讲述了"视觉+语言+机器人调度"的故事。投资人蜂拥而至寻找做Embodied AI的人。
王鹤揭示了一个外界很少了解的学术内部张力:推动具身智能的是计算机视觉领域的学者,而非传统机器人领域的研究者。
王鹤引用了一个经典说法:机器人把所有学科的东西都往里放。所以斯坦福没有机器人系——EE、CS、Mechanical Engineering、航空航天都有教授做机器人。这种"无所不包"的特性,既是它的魅力所在,也是它难以形成统一学术共识的原因。具身智能的提出,本质上是计算机视觉社区找到了一个统一叙事来吸纳各方。
张小珺提出了一个尖锐的问题:"计算机视觉不产生智能,语言即智能?"王鹤给出了强有力的反驳。
智能就是依情况做出相应反应的能力。从小虫子扇翅膀躲避人手,到人类面对职业挑战时的拆解与规划,本质都是与环境交互中的应对方式。区别只在维度的高低和时间链条的长短。
具身智能的核心范式:先通过感知决定采取什么行动,行动后环境发生改变,更新感知信号,进而采取进一步行动。这是Internet AI时代缺失的闭环——"视觉圈发现我们只有perception但没有action"。分类一张猫的图片后就"没有后文了",环境对你的认知没有给出任何反馈。
| 阶段 | 任务 | 特点 |
|---|---|---|
| 第一步 | Point Goal Navigation(给坐标找过去) | 最简单的perception-action loop:移动改变相机位置,看到新东西 |
| 第二步 | Object Goal Navigation(给词找物体) | 加入语义理解,但仍可用传统方法 |
| 第三步 | Manipulation(抓取和操作) | 涉及物理交互,对环境产生即时影响 |
| 第四步 | Navigation + Manipulation | 导航与操作结合 |
| 当前前沿 | 大模型驱动的开放指令执行 | "随便说一个任务他就能做"——大模型保障通用性 |
计算机视觉学者觉得最comfortable的起点:我只是一个观测者,移动自己但不改变环境中物体的位置。我的action导致相机位置变化,从而看到新的东西。这构成了最简单意义下的perception-action loop。操作(manipulation)涉及物理交互,更难,所以被推到后面。
王鹤的转行故事本身就是一段精彩的学术边缘史——从物理竞赛保送清华,到斯坦福超净间做纳米加工,再到AI领域的"九选二"竞争。
本科在清华电子系/微电子系,主要学半导体物理和器件物理。核心方法:手建数学模型 → 用实验数据拟合 → 预测新的behaviour。"翻译过来就是今天人工智能的方式"。
在EE做半导体纳米加工。想法很快但验证极慢——"想一个idea需要用一个月时间才能完成整个加工全过程"。经常把芯片掉进氢氟酸(到一定剂量可致死)。"手比较笨",镊子提的芯片会掉。决定不做了。
导师Leo Yu的组有9个学生竞争2个博士留组名额。竞争对手包括"清华上交计算机系的第一"。王鹤作为电子系出身,写码马力不如科班,但能把复杂关系进行数学建模和物理建模——导师看中的是"思维"。
从2016年做到2019年才中了Eurographics最佳论文提名。"16年开始做,19年5月开的会。"此后进入快车道,"咔嚓的发"。
王鹤的导师"只靠观察"来决定留谁,看的是"做研究的天赋"。王鹤在不知道perception-action loop概念的情况下,画了一个state → action → change world → state的diagram给导师看,讲解背后的动力学——"把一个大家一开始觉得科幻小说式的项目idea,formulate成了一个可执行的研究问题"。这种从物理学训练中获得的"抓住变化背后因果关系"的能力,是纯码力无法替代的。
王鹤在斯坦福的第一个项目(2016年)惊人地前瞻——"从人类视频中学习多步人与物体交互过程的生成"。这在当时几乎无人理解。
王鹤坦承,这个项目中使用的技术——完全从视频学习、学习world model——"今天仍然不处于一个可以落地的技术"。但它锻造了两个核心能力:1) 对perception-action loop的直觉理解;2) 从复杂数据中提取因果关系的系统思维。真正直接影响今天工作的,是他的第二个项目。
2018年开始的类别级物体位姿估计(NOCS),不仅让王鹤在CVPR创造了一个子领域,更重要的是建立了合成数据的核心方法论——这直接奠定了银河通用今天的技术路线。
传统方法:给一个特定物体建3D模型、标注坐标系,才能预测它的六维位姿。王鹤的突破:只需要知道物体的类别(如"马克杯"),就能预测任何该类别物体的位姿。核心洞察来自人类认知——"我们人类对同类物体都能想象出一个最正常的状态,把它当作基准状态"。
2020年底拿到北大Offer,王鹤面临选择:做安全的三维视觉,还是激进地All In具身智能。他选择了后者,代价是几乎所有人的不认同。
李开复在湾区丽思卡尔顿组织的创业Brunch上建议王鹤做增强式/自动驾驶。王鹤说想做家用机器人。"开复老师当场零点一秒就说:哎呀你别谈了,家用机器人还有50年。"
"你这个在国内根本就没有那么多空间,也没有人做。"他们看中的是王鹤的三维视觉能力。在北大战略会上王鹤讲All In Robotics,反馈是"不行啊你得留至少一半在三维视觉里"。王鹤:"实质就是没听。那要听了就没有后来了嘛。"
PaLM-E出来后,投资人开始找做Embodied AI的人。"好多人就找到我了。"但王鹤一开始都拒绝——核心顾虑是"自己不做硬件,而且市面上所有硬件都是垃圾"。直到遇到有ABB量产经验的合伙人,才决定创业。
王鹤拒绝Google大厂("你就是个螺丝钉")、拒绝自动驾驶方向("我对交互的追求更丰富")、拒绝妥协三维视觉("那要听了就没有后来了"),最终的驱动力是极其清晰的长期目标:家用机器人。他从2020年就向投资人明确说career goal是"发展家用机器人"——在那个时间点这几乎是一种信仰。
银河通用选择了轮式底盘+7自由度协作臂+谐波减速器的"保守"硬件方案。王鹤对此的解释是:务实。
这是本期播客最具争议性的议题。王鹤旗帜鲜明地站在合成数据一方,并系统性地驳斥了反对者的逻辑。
| 误区 | 王鹤的反驳 |
|---|---|
| "Sim-to-real不work" | 所有人形机器人的行走/跳跃/跑步技能都是通过sim-to-real实现的。如果sim-to-real不work,你要回答为什么运动控制的sim-to-real是work的。 |
| "加入视觉后sim-to-real不行了" | 小模型时代就已证明透明碎玻璃片的抓取完全可以用合成数据sim-to-real。到VLA时代更不是问题——VLM能看懂米老鼠唐老鸭的剧情,渲染图和真实图的差距远小于动画与现实的差距。 |
| "物理仿真不精确" | move/pick up/place三件事的物理gap已经足够小。确实有些做不了的(如系鞋带),但那不在当前商业解决方案需要的技能范围内。 |
真实数据路线构成了一种"可以讲的闭环":我不信合成数据 → 你买我的机器 → 你去遥操采集 → 技能就出来了。但这个闭环的经济前提——一万台机器+年消耗数十亿——在当前没有任何厂商能承受。王鹤认为,只有当行业出现100亿以上收入的企业后,大规模真实数据采集才会经济可行。在那之前,合成数据是唯一可行的路径。
王鹤对"一步做出完全通用的VLA"持明确反对态度,并给出了从数据覆盖度角度的系统分析。
LLM之所以通用,是因为互联网文字对人类所有可能说的话的覆盖率极高。但VLM的视觉数据对"人眼能看到的所有视觉观测"的覆盖远远不够。VLA的Action数据更是"这两年大家才开始收集的"。每一层数据覆盖度的降低,都意味着通用性的大幅下降。
王鹤提出了判断具身智能产品的核心标准:生产力级产品。
机器人能够干活、有生产力、能形成解决方案。不一定是完整解决方案(可以人机配合),但单位时间干的活必须跟人相当。如果比人慢太多或干得不够久,就是"落后生产力",引入只会让效率下降。
王鹤对行业乱象的批评直言不讳,矛头同时指向中美两国。
| 乱象类型 | 具体表现 |
|---|---|
| 遥操冒充自主 | 美国是常态化——告诉你"我就是遥操的"但藏起操作者。中国有些公司"敢不告诉别人我是遥操,但实际是遥操" |
| 视频Demo | 只出视频不做现场展示,无法邀请现场观看 |
| 卖空壳机器人 | "把没有功能的机器人卖给别人"——短期变成一种商业模式 |
| 虚假承诺 | "你踩了就能训出来、你建厂就能有技能、我卖机器人你来踩、明天他就是你的员工"——砸行业饭碗 |
| 战略协议 | "签了一些战略协议说已经怎么着怎么着——越来越没有说服力" |
他提出了两个递进的验证关卡:第一关,公开展示且不允许遥操——在几万观众面前做。第二关,真正进了场子后,每天干多少量活、有没有长期报告、是否得到平台方认证。银河通用的24小时药店、智能大会直播,都是在经受这两关的检验。
王鹤把具身智能的命运和中国国运联系在了一起,这不是修辞而是数学:
王鹤以日本为参照:日本进入深度老龄化后,"年轻人一毕业所有人都有工作,福利特别好,只要让加班直接辞职"——但日本人口基数小,周边国家还能补一补。中国一旦缺劳动力,规模太大,无人能补。
王鹤的经济算账:一台机器人如果能替代一个人的工作,按20万年薪计算,一万台机器人每年产生接近100亿的规模经济价值(考虑多班倒)。不需要通用——只要能在具体场景中稳定产出生产力,经济价值就非常实在。反观LLM:"国内一些头部的非大厂大模型厂商,一年的收入其实是不高的。"
2024年底,NVIDIA创始人黄仁勋来华访问,在答谢宴上王鹤被安排坐在黄仁勋旁边。这个安排的背后是技术路线的认同。
在此之前,NVIDIA机器人副总裁、专员、甚至黄仁勋的儿子都曾多次来银河通用参观考察。"都已经亲眼见过了,才把我叫去跟黄仁勋一起吃饭。"
| 问题 | 王鹤的回答 |
|---|---|
| 最喜欢的食物 | 涮羊肉和烤鸭(北京人的胃觉醒了) |
| 最喜欢的地点 | 欧洲(文化浓度的沉浸感) |
| 必须了解的知识点 | 人类中枢运动控制神经——小脑比大脑有更多神经元,仿人机器人领域对此理解还很初级 |
| 推荐两本书 | 《时间简史》(初中读,萌发对第一性原理的思维方式);《三国演义》(乱世中的策略与性格) |
| 三国里想当谁 | 曹操的思维和看事角度 + 诸葛亮的理想主义——"缺一不可" |
| 指标 | 数据/判断 |
|---|---|
| 银河通用创立时间 | 2023年5月 |
| 估值 | 超过10亿美元(战略轮closing中) |
| 真实数据在训练中占比 | 约1%甚至更小 |
| 合成数据研究年限 | 8年(从2017年NOCS起) |
| 当前量产规模 | 千台级 |
| 一台全尺寸人形制造成本 | 最少10万元 |
| 一万台机器人年维护成本 | 数亿到10亿/月 |
| 遥操人员需求 | 每台至少4人(两班各两人) |
| 工业机械臂全球年产值 | 1000亿人民币 |
| 商清高峰人数/产值 | 近2000人 / 约10亿产值 |
| 五年达标线 | 头部企业年万台以上自主机器人 |
| Embodied AI中国提出者 | 南方卢策武,北方王鹤(2021年初) |
| 王鹤博士第一篇论文 | 2016年做 → 2019年中(Eurographics最佳论文提名) |
| 斯坦福留组竞争 | 9人竞争2个名额 |
| NOCS数据集规模 | 几十万张合成图 |
| 通用机器人实现时间 | 几十年的探索空间,不要预期过快 |
| Home Robot出现时间 | 三到五年出现小批量pilot产品 |
王鹤揭示了一个外界很少了解的事实:Embodied AI的概念不是由传统机器人学者提出的,而是由计算机视觉社区在追求从passive perception到perception-action loop的跃迁中自然生长出来的。传统控制学者"并没有觉得这个事情产生了什么不同"。这个起源差异深刻影响了今天的技术路线之争——视觉派强调端到端学习和合成数据,控制派强调物理精确性和真实数据。理解这个分裂的历史根源,对于判断谁会赢至关重要。
王鹤的经济学论证摧毁了"先卖机器再采数据"的商业叙事:一万台机器人的制造+运营年消耗在百亿级别,而全球没有任何机器人公司有百亿收入。这意味着真实数据路线在当前阶段本质上是资本驱动的信仰行为,而非可持续的商业模式。相反,合成数据+少量真实数据(1%)已经在24小时药店中证明可行。自动驾驶的"免费数据飞轮"(卖车=用户帮你采数据)在机器人领域不存在——你不能卖一台没有功能的机器人。
在大模型时代"语言即智能"的主流叙事中,王鹤的观点极具挑战性:很多生物有智能但没有语言,语言是极高级智能才演化出来的产物,视觉在智能演化上比语言更前置。这个观点如果成立,意味着LLM的成功可能给我们一个错觉——以为智能的核心在语言,实际上语言只是压缩了更底层的感知和交互智能。VLM表现弱于LLM,不是因为视觉不重要,而是视觉数据对真实世界的覆盖度远不够。
银河通用的硬件选择(轮式底盘、谐波减速器)看似保守,实际蕴含深刻的产业逻辑:在零部件都未大规模量产的行业里,选择经过万台验证的方案是降低系统风险的唯一方式。王鹤的类比很到位——"你不能一边挑战最不成熟的硬件技术,一边还要把智能做好"。2B客户不关心你是腿还是轮,只关心干没干活。一天20小时的长态化运营比五分钟的精彩demo有说服力得多。
王鹤在斯坦福九选二的竞争中胜出,靠的不是编码能力("写码马力不如科班出身"),而是"把一个科幻小说式的项目idea formulate成可执行研究问题"的能力。这种从物理学训练中获得的建模直觉——看到复杂现象时能抓住背后的因果关系,画出state→action→change world的diagram——在AI时代的价值可能被严重低估。它在实验室里体现为开创新领域,在公司里体现为判断技术路线。
王鹤将具身智能与中国劳动力危机直接挂钩:每五年劳动力断崖下降,二十年后可能不到今天的一半。如果五年内头部企业做不到万台级规模化,行业可能被证伪——"全是泡沫"。这不仅仅是商业失败,更意味着在深度老龄化来临时,中国无法提出填补制造业和服务业劳动力缺口的技术方案。日本的前车之鉴(所有年龄段都缺人)近在眼前,但日本规模小可以靠周边补充,中国不行。
王鹤对行业乱象的批评指向一个核心问题:有没有真正的生产力。遥操冒充自主、视频代替现场、卖空壳机器人、虚假承诺"踩了就能训"——所有乱象的共同特征是回避"公开展示+长期运营数据"这两关检验。他的担忧不仅是商业层面的——如果乱象导致行业信心崩溃,真正想做事的公司也会被拖入冰河时代。这是一个典型的"劣币驱逐良币"风险。
王鹤虽然在访谈中主要讨论技术和商业,但他在最后提到了一个深层问题:人类中枢运动控制神经的秘密——小脑比大脑有更多神经元,而机器人领域对仿生运动控制的理解还很初级。他判断具身智能"还有未来几十年可以不断探索的空间"。这意味着当前所有的激进预期(一两年大成熟)都是幻觉。真正的大圆满,需要跨越从数据到物理、从工程到认知科学的多重鸿沟。