孟醒是自动驾驶行业背景最多元的参与者之一,过去八年从创业者、投资人、平台公司CEO三个维度深度参与了这个行业。
帮助科技公司上市和并购,"最激动的都是看这些科技的创业者,他们如何把一个很小的idea从零到一变成一个可以被直见的业务"。但遗憾是接触到创业者时"已经太晚了"。
六人创始团队做人脸识别,"那个时候只有在电影里面看见过真正的人脸识别"。公司后被亚马逊收购,成为AWS上的Rekognition服务——"直到今天AWS上面关于人脸和物体识别的API引擎还都是由我们这家公司(的种子)"。
把图像识别能力变成广告平台,走微软加速器体系。两次创业分别经历了中美两套创业生态。
投资了小鹏汽车、Momenta等自动驾驶公司。
从投资人转为行业从业者。最近刚更换身份,重回风投行业做前沿科技投资。
孟醒指出,尽管自动驾驶发展了十几年,行业内外仍存在极大的信息不对称,原因有三:
孟醒亲自去凤凰城体验Waymo,发现一个有趣现象:距离Waymo常态化运营已过三四年,每次打车下来仍有当地居民惊讶地问"你这个车没人?"——说明即便在运营城市,大部分居民也不知道无人驾驶已经在身边。
孟醒判断,相对业界的技术真正转折点,公众的认知至少晚了一年。百度萝卜快跑在武汉的案例也印证了这一点——2022年就开始有地盘,2023年已有很多车,但公众到2024年才"突然意识到说这事已经发生了"。信息传播中,"可能也是听你说的,你听别人说的,二手信息传了一遍,最后找到根源那个人,他其实是自己拍脑子想的"。
孟醒把自动驾驶行业拆分为两大路径,每条路径各有自己的"一档二档三档"阶段:
| 阶段 | 功能 | 状态 |
|---|---|---|
| 一档:LCC | 车道线居中保持 + 前后不撞 | 非常成熟,甚至可称"旧技术" |
| 二档:高速领航 | 车自主看地图、换道、从A到B | 过了拐点,进入成熟期 |
| 三档:城市领航 | 城市任意两点间自动驾驶 | 拐点还有一定距离 |
| 阶段 | 定义 | 状态 |
|---|---|---|
| 一档:技术可行性 | 复杂城市常态化无人运营 | 已过——"不是靠信仰,是靠现实中的观察" |
| 二档:量产化 | 从一辆扩展到一万辆车队 | 拐点未过,涉及额外技术开发 |
| 三档:商业化 | 经济模型成立 | 拐点未过 |
孟醒指出一个悖论:中国自动驾驶创业公司大多在2016-2017年成立,到今天已经8年,很多公司已经IPO。但从产品阶段看,可能还处于"天使轮或pre-A轮"——"虽然你做了8年的时间,对于一般的公司来讲这已经是成长期的公司,但实际对于产品的阶段来讲,你可能还处于一个天使轮的这个阶段。"
孟醒亲自试驾了FSD的多个版本,给出了作为L4从业者的第一手评价。
| 版本 | 体验评价 | 关键发现 |
|---|---|---|
| V11.3.6 | 非端到端最后一个版本 | 基线参照 |
| V12.1 | "跟V11差不太多"(与网上很多观点不同) | 换了纯新架构但表现没有下滑——"这已经是极度了不起的一件事" |
| V12.3 | 体验最多的版本,达到"相对比较成熟水平的辅助驾驶能力" | 应对机敏性强,但高峰期上高速"百分之百会失败";能在后院、篮球场等非预期场景开启 |
| V12.4 | "大失所望",出现比V12.3还差的愚蠢接管 | 马斯克声称提升5-10倍,但实际体验"至少不是一个5到10倍的体验上升" |
孟醒并不完全认同"大学生看小学生"的比喻——"如果我们的标准是考大学的考试,那可能是。但FSD考的不是那个考试。"L2的目标是提供更好的人机共驾体验,L4的目标是提供成本更低的出行服务——它们是两个不同的考试。
孟醒反复强调,L2和L4不是同一条路的两个阶段,而是两套完全不同的产品体系。
孟醒明确反对L2→L3→L4的线性升级逻辑:"L2的目标不是L4。L2的目标是提供一个更好的人机共驾体验。L4的目标是提供成本更低的出行服务的能力。这是可能两个体系。"行业因L1-L5的编号体系造成了"你做L2的目标不就是变到L3吗"的错觉。
孟醒对L1-L5分级体系进行了深入剖析,指出其中暗含的能力与责任的混淆。
| 维度 | 含义 | 谁在使用 |
|---|---|---|
| 责任 | 人的参与度、出事后谁负责 | 法规定义(应由法规决定) |
| 能力 | 系统具备在各地开车的技术能力 | 车企宣传 |
车企说"我是具备L4能力的一款车",但"以L2的产品形式推出,且符合L2的法规"——意味着出了事责任在驾驶人。宣传时说能力,出事时看法规——这两件事被结合在一起使用,造成公众认知的混乱。
| 级别 | 人的要求 | 责任主体 |
|---|---|---|
| L2 | Eyes on + Hands on(眼睛看路 + 手扶方向盘) | 驾驶人 |
| L3 | 可以Hands off,但注意力需在路况上 / 随时准备接管 | 模糊(日本、德国开始让系统承担部分) |
| L4 | 有限环境下完全不需要人参与 | 系统提供方 / 车企 |
| L5 | 任何环境下完全不需要人 | 系统 |
孟醒提出了一个反直觉的观点:对于辅助驾驶来说,接管率不是越低越好。
人机共驾的安全 = 车的自动驾驶能力 + 人的兜底能力。当接管里程提升时,人的兜底能力反而在下降——因为人的注意力越来越不集中。"如果开三段高速我都没有从来没接管过,人一定不会再去说双手双脚眼睛都一直在看路上"。两个能力合在一起的净安全性可能反而下降。
最优值可能是50公里、100公里或5000公里——各有各的说法。但在突破某个阈值之前,"可能不是越高越好"。
L4追求的是绝对安全红线,地板不能太低;L2追求的是相对体验提升,"这一代比上一代做得好,这一代比别人家做得好就行"。L4没有用户兜底的假设——"一旦车失效了,那意味着整个系统失效"。这是两套产品体系最根本的差异。
FSD V12带来的最大变化是从非端到端结构变为端到端结构——从像素信号直接到控制信号,中间不再有地图、定位、感知、预测、决策、控制的独立模块。
孟醒认为V12更像GPT-3而非ChatGPT——"把模型scale到一定大之后,它开始涌现一些能力,而且它没有后撤"。但还不是ChatGPT那种"一下推出来被很出圈、所有人都可以用、大家都口碑说很好"的产品时刻。
孟醒梳理了自动驾驶软件架构从模块化到端到端的演进路径。
感知(Perception)、预测(Prediction)、规划(Planning)——三个独立模块,各自优化。人类容易理解,工程师好分工。
BEV(鸟瞰视角)解决了多传感器融合问题,Transformer提升了长时间序列物体跟踪。感知和预测合并为一个模块,变成两模块体系。"今天几乎大多数的辅助驾驶公司其实都是这两个模块。"
中间模块全部消失,视觉信号直接输出控制信号。"很多公司把两模块体系就叫端到端,其实不是端到端——它是分别端到端,A模块端到端加B模块端到端,中间还断了一次。"
两个模块中间会输出一个"人类可以观察到的结果"——三维检测框和轨迹。但这个中间表示不可反向传导(non-differentiable),导致无法做全链路的端到端优化。"你只能A模块自己单独优化和B模块自己单独优化,你是无法把这个连通来去做优化的。"
非常小的计算平台,直接使用Mobileye的黑盒视觉方案。特斯拉只做后端的预测和规控。
剔除Mobileye,开始自闭环做整个方案。
144 TOPS算力——"在今天看起来非常非常小"(国内一片Orin芯片就是250 TOPS以上),但在当时是非常强的计算平台。开始跑初代FSD,之前都叫Autopilot。
约400 TOPS算力。
特斯拉在车的硬件自动驾驶套件上"很吝啬",但在训练平台上"一点都不吝啬"。车端每增加一元成本会直接降低毛利,但总部训练成本是一次性投入的可摊销成本。
| 时间 | GPU规模 | 备注 |
|---|---|---|
| FSD V12之前 | ~1万张 H100 | 约3亿美金投入 |
| 2024年中 | ~2万张 H100 | 持续扩张 |
| 2024年底计划 | ~5万张 H100 | CFO财报披露 |
| 未来1-2年 | Dojo自研训练平台 | 又是十亿或百亿美金级投入 |
孟醒系统性地分析了纯视觉和激光雷达路线的优劣。
"今天绝对是越多的信息,增益效果一定是比它带来的噪音要好的——净增益是为正的。"但特斯拉的纯视觉路线从数据闭环角度有独特优势:所有车配置统一,每辆车都能收集训练数据,不存在高配低配的数据偏差问题。如果安全性提升是"线性增长而不是需要阶梯性跳跃",那确实没必要加激光雷达。
特斯拉FSD团队迭代过非常多次。早期只有十几二十多个人,很多华人优秀技术人员后来去了不同公司。Andrej Karpathy也带过一段时间团队。300人已经是FSD历史上最大规模——"相当长一段时间少于200人"。
特斯拉每个版本推给上百万用户,但内测团队可能只有小几百人。仿真测试做得"非常少"——"很多场景确实也没法测,直接推给用户让公众来帮我做测试"。这在互联网产品上是常见的A/B Test,但在驾驶领域是"非常反直觉和反人性的一件事情"。这种模式让特斯拉成为迭代最快的公司,代价是可能出更多潜在事故。
| 要素 | 说明 |
|---|---|
| 团队 | 优秀人才,但"不是这里面成本最高的" |
| 训练基础设施 | 最贵的部分——显卡、数据中心建设。1万张H100约3亿美金,跑第一版可能只需几千张(~1.5亿美金) |
| 数据采集 | 前提是已有大量车在采集数据 |
| 数据处理 | 数据清洗、后处理能力——"Garbage in, garbage out" |
| 车端部署 | 对车辆硬件软件体系的控制能力 |
| 产品定义 | 符合用户需求的体验打磨 |
"几乎所有的公司应该都在跟进"——蔚来、小鹏、理想、阿维塔、Momenta等,从组织架构到人员梯队都做了调整和重新规划。
小鹏说"神经网络 + 规控大模型 + 大语言模型",理想说"端到端 + VLM + 生成式验证"——孟醒认为从高层描述看不出实质区别。核心元素就两个:端到端模型和多模态大模型(VLM),"两个里面都有神经网络,所以神经网络是一个非常粗泛的词汇"。
孟醒认为自动驾驶的中美代际差小于大模型领域——原因是中国在训练端投入差距较小,且在数据闭环能力上有优势。
尽管公开信息显示FSD进入中国没有"特别强的阻碍",孟醒认为实际落地面临多重挑战。
FSD在欧洲长时间都没有开放,即便监管条件不比北美更复杂。原因正是上述本地化前置条件——"FSD本身在北美以外一直都没有跑到北美那么好"。中国将面临类似甚至更大的挑战。
| 判断 | 具体内容 |
|---|---|
| FSD团队规模 | 约300人(截至2024年5月),是FSD历史最大规模 |
| FSD V12.5接管间隔 | 300-500英里/公里(通用通行场景) |
| Waymo三番接管间隔 | 约10万公里(关键接管) |
| Waymo凤凰城接管间隔 | 约30万公里(关键接管) |
| FSD vs L4差距 | 约1000倍 |
| V12的定位 | 辅助驾驶的GPT-3时刻(非ChatGPT时刻) |
| HW3.0算力 | 144 TOPS(2018年) |
| HW4.0算力 | 约400 TOPS |
| 摄像头像素 | 120万-200万(非常低) |
| 1万张H100成本 | 约3亿美金 |
| 训练集群规划 | 年底交付5万张H100 + Dojo自研平台 |
| 复刻FSD成本 | 10-30亿人民币(分摊数年),约为特斯拉的30-40% |
| 中国车企代际差 | 约1-2年,小于大模型领域 |
| FSD北美渗透率 | 个位数百分比(降价后) |
| 中国自动驾驶公司成立时间 | 大多数2016-2017年 |
| FSD入华本地训练需求 | 小几千张H100 |
| 激光雷达成本 | 主流128线半固态约2000-3000元 |
| 公众认知滞后 | 比技术转折点至少晚1年 |
孟醒最核心的论断是L2的目标不是L4。这个判断如果成立,意味着行业内大量"从L2升级到L4"的叙事是误导性的。两者的目标函数、安全哲学、商业模式完全不同——L2优化体验(2C产品逻辑),L4优化成本(企业服务逻辑)。行业需要停止用同一把尺子衡量两条路径。
孟醒亲自体验后的判断是:V12的体验"跟V11差不太多",V12.4甚至"大失所望"。但它真正了不起的是:换了纯新架构后表现没有下滑。这证明端到端路线的天花板理论上更高,且不会因架构切换而崩塌。所有人追随端到端的原因不是因为当下效果好,而是因为"它没垮,且带了一个很美好的未来"。
接管率越低,人的注意力越分散,兜底能力越差——系统安全性可能不升反降。这个悖论意味着辅助驾驶存在一个"恐怖谷":系统已经足够好让人放松警惕,但又不够好到完全不需要人。跨过这个恐怖谷之前,L2在某种意义上是一个越来越危险的产品形态。
300人团队、百万级用户公测、极简硬件、不做充分仿真——特斯拉的模式在传统汽车安全观念中几乎是不可想象的。但这种模式让它成为迭代最快的公司。核心前提是L2的责任在用户:系统可以只解决80-90%的问题,剩下的"甩给用户兜底就好了"。这种模式在L4中完全不可复制——因为没有人兜底。
孟醒判断中国城市交通比美国"复杂非常非常多,不是复杂一点"。这意味着传统模块化方案在中国可能"压根就达不到一个可用的上线产品"。端到端对中国车企不是追赶特斯拉的时髦,而是解决本土场景的唯一出路。反过来,中国车企在数据闭环上的优势可能让代际差收窄到小于大模型领域。
孟醒多次强调数据处理能力的重要性——"大家可能最后都能拿到足够大量的数据,但能不能处理好?"这与OpenAI的经验一致。对自动驾驶而言,数据的清洗、标注、分布管理的复杂度远超大语言模型,因为涉及多传感器、时空一致性和安全标注。这是一个被行业普遍低估的壁垒。
数据安全合规只是冰山一角。真正的挑战是:本地训练集群建设(小几千张H100)、本地数据闭环打通、模型针对中国场景微调。FSD在欧洲的先例表明,即便监管不是障碍,本地化也需要大量时间和投入。孟醒判断"一个跟北美一样体验的FSD落地在中国,可能没有想象那么快"——这给了中国车企宝贵的窗口期。