2022年9月30日,马斯克即将发布名为"擎天柱"(Optimus)的人形机器人。蓝池创投合伙人曹巍从投资人的角度解读了这个时间点的关键意义:人形机器人并非全新概念,但经过半个世纪的技术积累,此刻的时间窗口终于打开。
曹巍指出,特斯拉做人形机器人并非从零开始,而是大量复用其自动驾驶技术栈:
曹巍认为特斯拉选择此时入局的核心原因并非单一技术突破,而是步态控制的半世纪积累与自动驾驶视觉感知技术栈两条线在此刻产生了交汇。如果10年前或20年前,没有波士顿动力打下的研究基础,这不会是一个好的timing。
曹巍从日本早稻田大学上世纪60年代末开始的研究讲起,梳理了人形机器人步态控制的演进脉络。
最早的人形机器人研究,步态缓慢平稳,节律和运动控制处于基础阶段。
运动节拍和速度进入"看起来真的跟人很像"的状态,实现双足快速敏捷移动。
基于CNN、深度学习的SLAM(实时定位与建图)能力让机器人从导轨时代进入自主移动时代。
将自动驾驶技术栈与步态控制结合,推出首款人形机器人原型。
| 移动方式 | 难度 | 典型应用 |
|---|---|---|
| 轮式 | 最易 | 送餐小车、AGV |
| 履带式 | 较易 | 特种作业、军事 |
| 四足 | 较难 | 波士顿动力Spot |
| 双足 | 最难 | 人形机器人 |
第一代际:实现双足敏捷快速行走,在复杂环境中定位导航且不丢失位置。第二代际:在移动基础上叠加环境感知、决策、控制与交互能力,成为真正的智能体。每个代际的跨越都需要底层技术的重大突破。
曹巍将机器人的能力谱系比作一条从粗颗粒度到精细颗粒度的光谱。当前技术的核心瓶颈在于——精细化控制到底能精细到什么程度。
精细控制远不只是机械手指的问题。曹巍指出它需要三个维度的同步突破:(1) 力控传感器——模拟人的皮肤和触觉系统,六维传感器、电磁环、特殊材质各路团队在做但均处于早期;(2) 视觉分辨率——特斯拉自动驾驶摄像头分辨率对精细任务远远不够;(3) 多维感知融合——人通过视觉、声音、触觉、嗅觉等多维感知环境,当前任何公司在这方面都做得非常基础。
虽然自动驾驶的芯片、算法、感知技术可以复用,但精细力控和高分辨率视觉是自动驾驶中用不到的能力。这意味着特斯拉需要在这些方面从头构建,而非简单迁移。
曹巍强烈批驳了"人形机器人颠覆一切"的市场论调,提出了一个核心论点:机器人的形态由场景的痛点和难点决定,而非由通用性决定。
每个场景的超级工具,都是围绕该场景的痛点和难点迭代10年、20年甚至50年的产物。这些工具的智能化就是机器人化,但它们保持原有形态——因为这个形态本身就是最优解。只有当场景必须通过人形形态才能满足时,人形机器人才是最优方案。
蓝池投资的AGV机器人在晶圆厂搬运晶圆:同时装载多盒晶圆、搬运效率远高于人形;振动控制精度极高;基于集群调度实现群体效率最优。人形机器人每次只能抱一个箱子,效率和精度都无法匹配。
叉车机器人一次可装载三台电视机加多个箱子。"你不可能一个货仓里边500个机器人两条腿在那跑,每个人只抱一个箱子。"
曹巍的投资哲学与市场上追捧通用人形机器人的热潮形成鲜明对比。他认为,占住一个垂直场景并做到极致,其先发优势和数据积累构成的壁垒是通用人形机器人无法攻破的——"你只要占住一个场景,特斯拉人形机器人他也做不了这个事。"
在否定"人形万能论"之后,曹巍转而探讨了人形机器人真正有价值的场景——核心判断标准是服务过程是否直接关系到用户体验。
曹巍的判断可以总结为一条公式:人形价值 = 服务过程与用户体验的耦合度 * 精细操作需求 * 环境复杂度。三者同时为高时,人形是最优解;缺任何一项,功能型机器人都更优。这意味着人形机器人的真正战场不在工厂车间,而在与人息息相关的生活服务场景。
曹巍详细阐述了人形机器人进入家庭面临的心理障碍——恐怖谷效应(Uncanny Valley)。这是一个比技术问题更根本的商业化障碍。
当机器人外形"又像人又不像人"时,人的好感度急剧下降至谷底。大型工业机器人因为明显不是人,反而获得较高好感;完全仿真到无法分辨的机器人(如《西部世界》中的接待员),好感度重新回升。中间的恐怖谷阶段——"有鼻子有眼但动作很怪、眼睛看着很瘆人"——才是最令人头皮发麻的。
技术可以进步,但恐怖谷是人类心理的深层反应,无法通过工程手段绕过。这意味着人形机器人存在一个巨大的商业化真空期:技术上可以做到"像人",但消费者心理上无法接受,直到技术跨越谷底达到"完全仿真"——而这个跨越可能需要10-20年。在此期间,功能型非人形机器人反而有更大的商业空间。
即便技术成熟、恐怖谷跨越,人形机器人进入家庭还面临价格与需求匹配的悖论。
| 短期能力 | 用户真实需求 |
|---|---|
| 跟随陪伴 | 看孩子 |
| 拎包搬箱子 | 收拾屋子 |
| 开放域聊天 | 剃鱼、通下水道 |
| 基础指令完成 | 修墙皮、复杂家务 |
曹巍指出一个反直觉的现实:让机器人听懂人的命令(NLP交互)"都不难了",但执行命令要求的精细化控制"比NLP的自然语言交互还要难很多"。用户感知到的价值在于任务的完成度,而非听懂指令的能力。这意味着人形机器人进入家庭后可能面临"能听懂但做不到"的尴尬局面。
曹巍将马斯克的商业版图串联起来,描绘了一个宏大的科技愿景。
曹巍认为这些赛道都是科技领域垂直领域里最难的事情,是"终极想象"。相比之下,车的自动驾驶还"相对简单一些",但人的感知、控制和交互比车难10倍到100倍——因为不只涉及算法和算力,还涉及材料学等跨学科创新。
曹巍点出了特斯拉推出人形机器人的商业博弈面:特斯拉已从新锐车企变成主流车企,估值和想象空间受到挑战。人形机器人是一条新的第二曲线——"这个第二曲线有可能又是一个需要100年"的超长赛道,为资本市场提供新的叙事空间。
曹巍对比了两部科幻作品:《I, Robot》中的机器人还处于恐怖谷阶段——一看就知道是机器人;《西部世界》中的接待员则是完全仿真、无法分辨。前者代表10-15年的技术视野,后者可能需要50-100年。马斯克选择的是后者的赛道——他赌的不是这个时代,而是下一个世纪。
曹巍从投资人视角出发,系统性地拆解了机器人赛道的完整图谱。
蓝池从2016-2017年开始系统性布局机器人赛道,投资逻辑清晰:不追人形,追场景。已投企业覆盖清洁(高仙)、半导体搬运(AGV)、仓储叉车、高压电线作业、软体机器人等多个细分领域,共同点是都找到了明确的场景痛点和商业闭环路径。
曹巍以送餐机器人为例,展示了如何用"场景痛点分析法"做投资决策。
送餐机器人的案例揭示了一条通用规律:机器人的商业价值不取决于技术的先进程度,而取决于它在整个服务价值链中替代的环节占比。如果机器人只替代了价值链中最低价值的环节(过道移动),而高价值环节(出餐、上菜、服务)仍需人力,那它的商业天花板就是有限的。
曹巍分享了一个令人眼前一亮的投资案例——软体机器人,他认为这代表了机器人形态的下一次根本性变革。
传统工业机器人源自工业自动化,核心特征是"大铁疙瘩"——自重远大于负载(拿起2-3公斤的东西,自重要5公斤)。蓝池投资的软体机器人不仅手是软的,整个胳膊都是软的,像大象鼻子一样灵活。没有电机,成本极低。
软体机器人的意义不在于替代某个具体产品,而在于它指向了一个全新的技术体系——与传统四大家族(发那科、ABB、库卡、安川)的技术路线完全无关。这意味着中国企业有机会绕开既有巨头的技术壁垒,在全新赛道上建立自己的生态。成本降低一个数量级(从数万到数千甚至数百元)更意味着消费级市场的可能性。
曹巍用大量数据论证了中国在全球机器人浪潮中的系统性结构优势。
曹巍描述的中国优势并非单一维度,而是市场需求、人才社区、供应链生态、政策支持四个轮子同时驱动。这种系统性优势在全球其他国家"很难很难看到"。特别值得注意的是:机器人不同于纯软件产业(硅谷擅长的虚拟经济),它天然需要供应链和客户在身边的物理生态——这恰恰是中国的强项。
波士顿动力三次易主(Google-软银-现代汽车)的故事,在曹巍看来揭示了机器人行业的一条铁律。
出于前沿技术布局,但商业化路径不清晰。
"出于创始人的兴趣和爱好",可以一年投五个亿。但发现无法商业化,"过了新鲜劲",对技术进展的期望下降。
开始大量商业化——机械狗批量销售,推出仓储搬运机器人(小车+机械臂)。回归场景痛点。
波士顿动力的遭遇印证了曹巍"场景决定形态"的核心论点:即使拥有全球最顶尖的步态控制和机器人结构设计能力,没有找到商业闭环就无法持续。从酷炫的人形翻跟头到务实的仓储小车,这条路是所有机器人公司的必经之路。
曹巍分享了蓝池看机器人赛道的底层投资方法论:技术侧的升级迭代决定了商业侧的闭环机会。
| 技术阶段 | 周期 | 关键变化 |
|---|---|---|
| 导轨/二维码时代 | ~20年 | 机器人沿固定路径移动,按A到A、按B到B |
| AI+视觉感知时代 | 当前 | 摄像头+雷达实现自主建图、自主移动,不再需要导轨 |
| 下一波(待定) | 未知 | 可能涉及全新的感知、材料、控制技术突破 |
蓝池从2014-2015年开始研究机器人赛道,2016-2017年开始投资。选择这个时间点的关键原因是看到了基于AI的SLAM能力让移动机器人从导轨时代进入自主移动时代——"这些小车过去是要靠导轨或二维码,现在靠基于AI的能力就变成个智能体了,自己可以跑来跑去、不会迷路。"
蓝池的投资策略包含两类:(1) 已到商业化拐点的场景——如高仙清洁机器人,虽然投资时没有收入,但产品刚从实验室出来,场景需求明确;(2) 指向未来的形态革命——如软体机器人,产品刚出实验室就投,赌的是未来在生活服务领域的巨大应用市场。两类投资的共同点:底层技术有真正的突破,而非增量优化。
对话最后进入了最具哲学意味的讨论:当机器人完美到无法与人区分时,会发生什么?
替代危险、枯燥、重复的劳动。社会影响可控——"这些年轻人宁可送外卖也不去工厂"。
机器人长得与西部世界中的接待员一样,人机无法分辨。政府初期不干预。
机器人比人更完美、更懂你、能持续学习你的偏好。人选择与机器人而非人类建立亲密关系。生育率进一步下降。
曹巍洞察到了一个深刻的悖论:机器人对人类社会最大的威胁不是技术失控或叛变(科幻电影常见主题),而是太过完美。它能学习你、持续让你开心、永远不变心——这正是人类伴侣无法做到的。就像宠物经济的兴起部分源于"动物比人更忠诚"的心理需求,当机器人比人更理想时,人类社会的基础关系纽带可能被根本性地改变。
曹巍给出了一个令人印象深刻的判断标准:"只要能够活下来、坚持活30年,这事你一定有价值。"机器人赛道的需求确定性和政策确定性都"非常稳",不像P2P、教育、游戏等赛道存在政策性颠覆风险。这是一个底层技术、场景应用、创新维度都"非常多样性"的赛道——它的风险在于个体公司的生存能力,而非赛道本身的方向性。
| 指标 | 数据 | 来源/语境 |
|---|---|---|
| 步态控制研究周期 | 40-50年 | 从早稻田大学到波士顿动力 |
| 人形机器人初期精细化能力 | 人类的20-30% | 曹巍预估前两版产品 |
| 人形感知/控制难度 vs 自动驾驶 | 10-100倍 | 曹巍判断 |
| 恐怖谷跨越时间 | 10-20年 | 专家预测范围 |
| 人形机器人完全进入家庭 | 至少10-15年 | 曹巍判断(比无人驾驶更远) |
| 指标 | 数据 | 来源/语境 |
|---|---|---|
| 中国工业机器人全球购买占比 | 40% | 全球排名第一 |
| 中国服务机器人全球购买占比 | ~25% | 全球排名第一 |
| 过去10年VC投入 | ~1000亿人民币 | 机器人领域 |
| 2021年单年VC投入 | ~180亿人民币 | 机器人领域 |
| 机器人相关创业公司(5年) | 10万+家 | 中国注册量 |
| 开设机器人工程专业的高校 | 400+所 | 每年增长~10% |
| 指标 | 数据 |
|---|---|
| 特斯拉人形机器人预估成本 | 20-30万美元 |
| 传统机械臂售价 | 2-4万元人民币 |
| 软体机器人成本 | 5000-10000元(小型仅数百元) |
| 国内产品迭代周期 | 7-8个月 |
| 海外产品迭代周期 | 1.5-2年 |