← 返回张小珺主页
深度研究 Deep Dive

从蒸汽机到无人驾驶3|和孟醒聊特斯拉FSD进化史

#72 特斯拉FSD技术演进、端到端架构与L2/L4两条路径
2024 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 嘉宾孟醒:从投行到自动驾驶的跨界之路
  2. 自动驾驶行业的信息不对称
  3. 行业三档阶段:辅助驾驶与无人驾驶的分野
  4. 亲历FSD:从V11到V12.4的真实体验
  5. L2与L4:两套完全不同的产品体系
  6. 责任主体之辩:L2/L3/L4的定义与悖论
  7. 最优接管率理论:不是越高越好
  8. 端到端架构:FSD V12的核心变革
  9. 从BEV+Transformer到端到端的技术演进
  10. 特斯拉硬件平台四代演进
  11. 纯视觉vs激光雷达:一场持续的路线之争
  12. 300人团队与极致迭代:特斯拉的组织哲学
  13. 复刻一个FSD需要多少钱
  14. 中国车企的端到端跟进
  15. FSD入华:没有想象中那么快
  16. 关键数据与判断汇总

一、嘉宾孟醒:从投行到自动驾驶的跨界之路

孟醒是自动驾驶行业背景最多元的参与者之一,过去八年从创业者、投资人、平台公司CEO三个维度深度参与了这个行业。

Berkeley本科 (数学) → 摩根大通投行

帮助科技公司上市和并购,"最激动的都是看这些科技的创业者,他们如何把一个很小的idea从零到一变成一个可以被直见的业务"。但遗憾是接触到创业者时"已经太晚了"。

2011年 第一次创业:Orbeus (MIT/波士顿)

六人创始团队做人脸识别,"那个时候只有在电影里面看见过真正的人脸识别"。公司后被亚马逊收购,成为AWS上的Rekognition服务——"直到今天AWS上面关于人脸和物体识别的API引擎还都是由我们这家公司(的种子)"。

2014年 第二次创业:知图科技 (中国)

把图像识别能力变成广告平台,走微软加速器体系。两次创业分别经历了中美两套创业生态。

顺为基金 投资人

投资了小鹏汽车、Momenta等自动驾驶公司。

2019年起 滴滴自动驾驶CEO

从投资人转为行业从业者。最近刚更换身份,重回风投行业做前沿科技投资。

中美创业生态的对比观察

美国创业生态

  • 历史悠久,生态完整但固化
  • 创业者的资历、圈子相对稳定,难以跨界
  • "宁愿争第一个做,而不一定是做到最好"——更看重在科技史上刻下名字
  • 一个方向有人做成后,其他人愿意去做别的
  • 受扎克伯格等同龄创业者影响大

中国创业生态

  • 波动性更大,初创企业也可能因写博客、做爆款瞬间出圈
  • 资本和人才往最明确能跑通的方向集中
  • 能"集中力量办大事",但对红海中不成功的人不友好
  • 最后能胜出的只是少部分

二、自动驾驶行业的信息不对称

孟醒指出,尽管自动驾驶发展了十几年,行业内外仍存在极大的信息不对称,原因有三:

信息不对称的三重原因

  • 表面可感知但深度不可达:自动驾驶不像可控核聚变或量子计算,任何人看到一辆车自己跑就会产生理解——但它的链条极长(从车辆生产到硬件软件到数据到法规),完整理解对任何人包括行业内的人都很困难
  • 从业者的视角切换:孟醒做投资时有全行业视角,进入行业做从业者后反而"对行业淡了"——"大家都还处于早期产品迭代的过程中",能说的东西少,很多信息是猜的
  • 领先企业的低调策略:Waymo在凤凰城2020年就开始公测无人驾驶,但连Waymo自己的员工、Google的二级市场分析师、供应商"真的都是只是听过,都没见过也没坐过"
孟醒
过去有一个笑话在我们这个行业里面,一直说无人驾驶什么时候实现,然后这个答案永远是五年之后的,五年之后又是五年之后,然后永远好像实现不了。但其实到2020年实现了,Waymo已经公开给大家打车那个时间点,至少是进行式了。

Waymo凤凰城的"隐形运营"

孟醒亲自去凤凰城体验Waymo,发现一个有趣现象:距离Waymo常态化运营已过三四年,每次打车下来仍有当地居民惊讶地问"你这个车没人?"——说明即便在运营城市,大部分居民也不知道无人驾驶已经在身边。

公众认知的滞后性

孟醒判断,相对业界的技术真正转折点,公众的认知至少晚了一年。百度萝卜快跑在武汉的案例也印证了这一点——2022年就开始有地盘,2023年已有很多车,但公众到2024年才"突然意识到说这事已经发生了"。信息传播中,"可能也是听你说的,你听别人说的,二手信息传了一遍,最后找到根源那个人,他其实是自己拍脑子想的"。

三、行业三档阶段:辅助驾驶与无人驾驶的分野

孟醒把自动驾驶行业拆分为两大路径,每条路径各有自己的"一档二档三档"阶段:

辅助驾驶 (L2/L3) 的三个里程碑

阶段功能状态
一档:LCC车道线居中保持 + 前后不撞非常成熟,甚至可称"旧技术"
二档:高速领航车自主看地图、换道、从A到B过了拐点,进入成熟期
三档:城市领航城市任意两点间自动驾驶拐点还有一定距离

无人驾驶 (L4) 的三个里程碑

阶段定义状态
一档:技术可行性复杂城市常态化无人运营已过——"不是靠信仰,是靠现实中的观察"
二档:量产化从一辆扩展到一万辆车队拐点未过,涉及额外技术开发
三档:商业化经济模型成立拐点未过

"世界螺丝轮子很靠后,但产品还很早期"

孟醒指出一个悖论:中国自动驾驶创业公司大多在2016-2017年成立,到今天已经8年,很多公司已经IPO。但从产品阶段看,可能还处于"天使轮或pre-A轮"——"虽然你做了8年的时间,对于一般的公司来讲这已经是成长期的公司,但实际对于产品的阶段来讲,你可能还处于一个天使轮的这个阶段。"

四、亲历FSD:从V11到V12.4的真实体验

孟醒亲自试驾了FSD的多个版本,给出了作为L4从业者的第一手评价。

各版本体验对比

版本体验评价关键发现
V11.3.6非端到端最后一个版本基线参照
V12.1"跟V11差不太多"(与网上很多观点不同)换了纯新架构但表现没有下滑——"这已经是极度了不起的一件事"
V12.3体验最多的版本,达到"相对比较成熟水平的辅助驾驶能力"应对机敏性强,但高峰期上高速"百分之百会失败";能在后院、篮球场等非预期场景开启
V12.4"大失所望",出现比V12.3还差的愚蠢接管马斯克声称提升5-10倍,但实际体验"至少不是一个5到10倍的体验上升"
FSD各版本能力演进与L4对比(接管间隔里程)

FSD与L4的差距

300-500
FSD V12.5 接管间隔(英里/公里)
10万
Waymo三番 关键接管间隔(公里)
30万
Waymo凤凰城 关键接管间隔(公里)
~1000x
FSD与L4的差距
孟醒
每一代都有提升,在同行里面绝对是翘楚。但是相对于纯无人驾驶,这个距离非常非常大,且短时间内没有追上的可能。
张小珺
听你讲的感觉有点像做L4无人驾驶的人看特斯拉FSD,有点像大学生在看小学生。

孟醒的关键修正

孟醒并不完全认同"大学生看小学生"的比喻——"如果我们的标准是考大学的考试,那可能是。但FSD考的不是那个考试。"L2的目标是提供更好的人机共驾体验,L4的目标是提供成本更低的出行服务——它们是两个不同的考试

五、L2与L4:两套完全不同的产品体系

孟醒反复强调,L2和L4不是同一条路的两个阶段,而是两套完全不同的产品体系。

L2/辅助驾驶

  • 核心目标:提升人的驾驶体验
  • 安全由"车的能力 + 人的兜底"共同保障
  • 没有安全红线——有它比没它强就有价值
  • 优化目标:覆盖更多场景、更多人群、最低硬件成本、最快迭代
  • 像互联网2C产品——核心是主观体验
  • 商业模式:卖车

L4/无人驾驶

  • 核心目标:提供低成本出行服务
  • 安全完全由系统保障,一旦车失效 = 系统失效
  • 有明确安全红线——不过线就是测试,不能正规运营
  • 优化目标:先过红线,然后提升效率和覆盖
  • 像企业服务软件——有最低标准才能上线
  • 商业模式:出行服务
核心论断

L2的目标不是L4

孟醒明确反对L2→L3→L4的线性升级逻辑:"L2的目标不是L4。L2的目标是提供一个更好的人机共驾体验。L4的目标是提供成本更低的出行服务的能力。这是可能两个体系。"行业因L1-L5的编号体系造成了"你做L2的目标不就是变到L3吗"的错觉。

特斯拉的"用户兜底"模式

用户同时是享用者和安全员

  • 用户作为享用者:付钱购买辅助驾驶服务
  • 用户作为安全保护者:承担安全员角色,但没人付他钱
  • 专业安全测试员是"要付钱给他的、蛮辛苦的工作"——长时间精神紧张,几个小时要休息一次
  • 但L2的用户"花钱买了享用者的部分,保护者的部分他没有付你钱"

六、责任主体之辩:L2/L3/L4的定义与悖论

孟醒对L1-L5分级体系进行了深入剖析,指出其中暗含的能力与责任的混淆

分级体系说了两件事

维度含义谁在使用
责任人的参与度、出事后谁负责法规定义(应由法规决定)
能力系统具备在各地开车的技术能力车企宣传

能力与责任的混淆

车企说"我是具备L4能力的一款车",但"以L2的产品形式推出,且符合L2的法规"——意味着出了事责任在驾驶人。宣传时说能力,出事时看法规——这两件事被结合在一起使用,造成公众认知的混乱。

各级别的责任定义

级别人的要求责任主体
L2Eyes on + Hands on(眼睛看路 + 手扶方向盘)驾驶人
L3可以Hands off,但注意力需在路况上 / 随时准备接管模糊(日本、德国开始让系统承担部分)
L4有限环境下完全不需要人参与系统提供方 / 车企
L5任何环境下完全不需要人系统
孟醒
L3是稍微有点tricky,就是有点模糊的地方。不同国家稍微定义会有些不同。比如说日本跟德国现在出台法案,L3是有一部分责任可以是由系统或者说车企来去承担的。

七、最优接管率理论:不是越高越好

孟醒提出了一个反直觉的观点:对于辅助驾驶来说,接管率不是越低越好。

核心概念

最优接管率

人机共驾的安全 = 车的自动驾驶能力 + 人的兜底能力。当接管里程提升时,人的兜底能力反而在下降——因为人的注意力越来越不集中。"如果开三段高速我都没有从来没接管过,人一定不会再去说双手双脚眼睛都一直在看路上"。两个能力合在一起的净安全性可能反而下降。

最优值可能是50公里、100公里或5000公里——各有各的说法。但在突破某个阈值之前,"可能不是越高越好"。

人机共驾安全性模型:系统能力 vs 人类兜底 vs 综合安全

L2与L4的安全哲学差异

L4追求的是绝对安全红线,地板不能太低;L2追求的是相对体验提升,"这一代比上一代做得好,这一代比别人家做得好就行"。L4没有用户兜底的假设——"一旦车失效了,那意味着整个系统失效"。这是两套产品体系最根本的差异。

八、端到端架构:FSD V12的核心变革

FSD V12带来的最大变化是从非端到端结构变为端到端结构——从像素信号直接到控制信号,中间不再有地图、定位、感知、预测、决策、控制的独立模块。

"蜻蜓吃苍蝇"的类比

孟醒
蜻蜓去吃苍蝇这件事情,它的脑神经元是非常非常简单的,但是做吃苍蝇这件事情是非常快的一个动作,而且很准,准确率非常高。它没有这么多过程——虽然先识别苍蝇在哪,然后再决定我舌头伸多长,没有。它其实就是一个进来以后可能是一个直觉,出来舌头就出去了。

端到端带来的"涌现"现象

闯红灯背后的深层含义

  • FSD V12偶尔会闯红灯——不是没识别红灯,而是观察到其他车也在闯红灯时选择从众
  • 可能学自数据集中"红灯坏了10分钟没变、四面都是红灯、没有警察来修"等场景
  • 类似地,会在"不该压线"的地方压黄线——但看起来"好像是有些道理的"
  • 这说明红绿灯的规则确实被去掉了,取而代之的是更高权重的信号(如车流行为)

意外之喜:未训练就习得的能力

  • 在停车场里自动调整避障
  • 在后院、篮球场等非预设场景也能开启并找到出路
  • "这些能力其实我们都没有预先设置过,甚至于可能都没想过它有这些能力"
  • "可能已经在埋在历史存在的数据过程中,自然而然的去习得"

V12是FSD的GPT-3时刻,而非ChatGPT时刻

GPT-3而非ChatGPT

孟醒认为V12更像GPT-3而非ChatGPT——"把模型scale到一定大之后,它开始涌现一些能力,而且它没有后撤"。但还不是ChatGPT那种"一下推出来被很出圈、所有人都可以用、大家都口碑说很好"的产品时刻。

九、从BEV+Transformer到端到端的技术演进

孟醒梳理了自动驾驶软件架构从模块化到端到端的演进路径。

阶段一:三模块独立 (传统)

感知(Perception)、预测(Prediction)、规划(Planning)——三个独立模块,各自优化。人类容易理解,工程师好分工。

阶段二:BEV + Transformer (~2020)

BEV(鸟瞰视角)解决了多传感器融合问题,Transformer提升了长时间序列物体跟踪。感知和预测合并为一个模块,变成两模块体系。"今天几乎大多数的辅助驾驶公司其实都是这两个模块。"

阶段三:端到端 (FSD V12, 2023)

中间模块全部消失,视觉信号直接输出控制信号。"很多公司把两模块体系就叫端到端,其实不是端到端——它是分别端到端,A模块端到端加B模块端到端,中间还断了一次。"

两模块体系的核心缺陷

不可反向传导

两个模块中间会输出一个"人类可以观察到的结果"——三维检测框和轨迹。但这个中间表示不可反向传导(non-differentiable),导致无法做全链路的端到端优化。"你只能A模块自己单独优化和B模块自己单独优化,你是无法把这个连通来去做优化的。"

如何判断是否真端到端

孟醒
我觉得是否纯规则驱动系统可能更好判出来。但是不是说是两个端到端跟一个大模块连接起来,我觉得可能更多是在一个大的数据量体局势下,看他的平均的统计效率,而不是看他具体在某一个行为上能不能去判得过来。

十、特斯拉硬件平台四代演进

Hardware 1.0

非常小的计算平台,直接使用Mobileye的黑盒视觉方案。特斯拉只做后端的预测和规控。

Hardware 2.0

剔除Mobileye,开始自闭环做整个方案。

Hardware 3.0 (2018)

144 TOPS算力——"在今天看起来非常非常小"(国内一片Orin芯片就是250 TOPS以上),但在当时是非常强的计算平台。开始跑初代FSD,之前都叫Autopilot。

Hardware 4.0 (2023)

400 TOPS算力。

传感器配置的极简主义

8
摄像头(环视)
120-200万
像素(非常低)
0
激光雷达(从未使用)
0
毫米波雷达(中途拆除)
核心策略

车端吝啬,训练端慷慨

特斯拉在车的硬件自动驾驶套件上"很吝啬",但在训练平台上"一点都不吝啬"。车端每增加一元成本会直接降低毛利,但总部训练成本是一次性投入的可摊销成本。

训练基础设施的投入

时间GPU规模备注
FSD V12之前~1万张 H100约3亿美金投入
2024年中~2万张 H100持续扩张
2024年底计划~5万张 H100CFO财报披露
未来1-2年Dojo自研训练平台又是十亿或百亿美金级投入

十一、纯视觉vs激光雷达:一场持续的路线之争

孟醒系统性地分析了纯视觉和激光雷达路线的优劣。

马斯克的理由与行业的怀疑

孟醒
马斯克的解释是激光雷达会带来额外信号的噪音——当激光雷达和视觉带来的信号不一致的时候,你该选择哪个?这些判断会产生不准确性和延迟。我觉得这个解释是否大家相信,其实大多数人是不相信的。

视觉的优势

  • 信息丰富度和密度最高——有颜色、纹理、语义
  • 即使120万像素也比一般激光雷达分辨率高
  • 数据收集最容易——每辆车、行车记录仪、公开数据都是视觉数据
  • 成本极低

视觉的劣势

  • 无法直接给出距离信息——需要计算得出,有误差
  • 近距离场景下分辨不清(人贴着车门站立)
  • 雨雪天失效
  • "离你特别远和特别近的东西都不太容易看清楚"

何赛创始人的"作弊器"类比

孟醒 引述何赛创始人
激光雷达有点像作弊器。如果你的目标是每科考60分就过,先把所有考试都考了,那你不需要作弊器。但如果你不考到90分上不了大学,每课都要过,那你就必须得带着作弊器上了。

孟醒的综合判断

"今天绝对是越多的信息,增益效果一定是比它带来的噪音要好的——净增益是为正的。"但特斯拉的纯视觉路线从数据闭环角度有独特优势:所有车配置统一,每辆车都能收集训练数据,不存在高配低配的数据偏差问题。如果安全性提升是"线性增长而不是需要阶梯性跳跃",那确实没必要加激光雷达。

十二、300人团队与极致迭代:特斯拉的组织哲学

~300人
FSD团队规模(截至2024年5月)
~10年
自动驾驶积累
~500辆
内测车队(推测)

为什么人这么少

三个原因

  • 扁平架构:马斯克的管理风格——"老板可以直接需求和执行力可以直接传递到最下层","你其实很难获一个特别庞大的体系"
  • 接受不完美:到V12.4之前,高速和低速还是两个模型;很多做了一半的工程先停了——"先要推下一个版本"
  • Facebook式执行真言:Move fast and break things——"快速的赶紧把产品推出去,然后管它哪坏了,反正接着迭代"

团队的多次迭代

特斯拉FSD团队迭代过非常多次。早期只有十几二十多个人,很多华人优秀技术人员后来去了不同公司。Andrej Karpathy也带过一段时间团队。300人已经是FSD历史上最大规模——"相当长一段时间少于200人"。

特斯拉的"公众测试"模式

用户即测试员

特斯拉每个版本推给上百万用户,但内测团队可能只有小几百人。仿真测试做得"非常少"——"很多场景确实也没法测,直接推给用户让公众来帮我做测试"。这在互联网产品上是常见的A/B Test,但在驾驶领域是"非常反直觉和反人性的一件事情"。这种模式让特斯拉成为迭代最快的公司,代价是可能出更多潜在事故。

十三、复刻一个FSD需要多少钱

成本要素拆解

要素说明
团队优秀人才,但"不是这里面成本最高的"
训练基础设施最贵的部分——显卡、数据中心建设。1万张H100约3亿美金,跑第一版可能只需几千张(~1.5亿美金)
数据采集前提是已有大量车在采集数据
数据处理数据清洗、后处理能力——"Garbage in, garbage out"
车端部署对车辆硬件软件体系的控制能力
产品定义符合用户需求的体验打磨
10-30亿
复刻第一版FSD(人民币,分摊数年)
3-4/10
后来者 vs 特斯拉的成本比
孟醒
特斯拉一定有前提。你要做特斯拉这个样子,你基本上得意味着你一直得跑在世界的前列。也就是你会花很多冤枉钱——好多钱花了以后最后其实没有任何用,因为你不知道什么钱花的有用。如果特斯拉花十块钱,你复刻它一般可能花三块钱到四块钱。

端到端的五个前提条件

  1. 优秀人才:做过模型训练的人才——"不是最大的难题"
  2. 足够多的数据:取决于有多少车在外面跑、用户是否允许数据回传
  3. 训练能力:计算平台、数据清洗、后处理——"甚至比模型本身更重要"
  4. 车端部署:对硬件软件体系的自主控制
  5. 产品定义:符合用户需求的体验

十四、中国车企的端到端跟进

"几乎所有的公司应该都在跟进"——蔚来、小鹏、理想、阿维塔、Momenta等,从组织架构到人员梯队都做了调整和重新规划。

中国公司与特斯拉的四个不同

关键差异

  • 团队规模更大:起手牌就比特斯拉大一倍以上,几百人到几千人——"到底是好事还是坏事很难讲"
  • 规则兜底更重:国内公司会加更多规则兜底模块,不会像特斯拉那样"把这块完全交给用户"
  • 场景复杂度更高:中国城市交通比美国"复杂非常非常多,不是复杂一点"——端到端变成必然而非选择
  • 阶段更早:大多数还在"验证这件事真的能跑通"的阶段

各家公司的语言体系

孟醒
我们这个行业里面其实有时候词特别容易说的特别fancy,但其实并没有达到一个具体的意思。整体而言,我认为从外界看到的东西来讲,大家尝试的方向是类似的。

小鹏说"神经网络 + 规控大模型 + 大语言模型",理想说"端到端 + VLM + 生成式验证"——孟醒认为从高层描述看不出实质区别。核心元素就两个:端到端模型多模态大模型(VLM),"两个里面都有神经网络,所以神经网络是一个非常粗泛的词汇"。

代际差的判断

1-2年
中国车企落后特斯拉的时间
小于大模型
自动驾驶的中美代际差

孟醒认为自动驾驶的中美代际差小于大模型领域——原因是中国在训练端投入差距较小,且在数据闭环能力上有优势。

端到端技术栈:从三模块到一体化

十五、FSD入华:没有想象中那么快

尽管公开信息显示FSD进入中国没有"特别强的阻碍",孟醒认为实际落地面临多重挑战。

FSD本地化的前置条件

  1. 数据安全合规:本地数据只能留在本地
  2. 本地训练基础设施:需在中国建数据训练集群——"即便不需要一万张H100,可能也需要小几千张"
  3. 本地数据采集:需要足够多的本地车跑出数据闭环
  4. 模型本地化调整:至少需要某种形式的微调——直接推送北美版本"效果就非常不好,可能就把牌子砸了"

欧洲的前车之鉴

FSD在欧洲长时间都没有开放,即便监管条件不比北美更复杂。原因正是上述本地化前置条件——"FSD本身在北美以外一直都没有跑到北美那么好"。中国将面临类似甚至更大的挑战。

对中国车厂的冲击有多大

孟醒判断:冲击不大

  • FSD在北美的渗透率也只有个位数(100个特斯拉车主中个位数开通FSD,降到99美金月租后)
  • 自动驾驶/辅助驾驶"可能不是影响用户购买车的最重要条件,甚至不是TOP3"
  • 影响购买决策的是"在4S店里一分钟到五分钟之内能看到的、摸到的、听到的、感受到的东西"

十六、关键数据与判断汇总

判断具体内容
FSD团队规模约300人(截至2024年5月),是FSD历史最大规模
FSD V12.5接管间隔300-500英里/公里(通用通行场景)
Waymo三番接管间隔约10万公里(关键接管)
Waymo凤凰城接管间隔约30万公里(关键接管)
FSD vs L4差距约1000倍
V12的定位辅助驾驶的GPT-3时刻(非ChatGPT时刻)
HW3.0算力144 TOPS(2018年)
HW4.0算力约400 TOPS
摄像头像素120万-200万(非常低)
1万张H100成本约3亿美金
训练集群规划年底交付5万张H100 + Dojo自研平台
复刻FSD成本10-30亿人民币(分摊数年),约为特斯拉的30-40%
中国车企代际差约1-2年,小于大模型领域
FSD北美渗透率个位数百分比(降价后)
中国自动驾驶公司成立时间大多数2016-2017年
FSD入华本地训练需求小几千张H100
激光雷达成本主流128线半固态约2000-3000元
公众认知滞后比技术转折点至少晚1年

启示与延伸思考

1. L2与L4是两个不同的物种,不是进化链上的两个阶段

孟醒最核心的论断是L2的目标不是L4。这个判断如果成立,意味着行业内大量"从L2升级到L4"的叙事是误导性的。两者的目标函数、安全哲学、商业模式完全不同——L2优化体验(2C产品逻辑),L4优化成本(企业服务逻辑)。行业需要停止用同一把尺子衡量两条路径。

2. 端到端的真正价值不是当下体验提升,而是证明了天花板更高

孟醒亲自体验后的判断是:V12的体验"跟V11差不太多",V12.4甚至"大失所望"。但它真正了不起的是:换了纯新架构后表现没有下滑。这证明端到端路线的天花板理论上更高,且不会因架构切换而崩塌。所有人追随端到端的原因不是因为当下效果好,而是因为"它没垮,且带了一个很美好的未来"。

3. 最优接管率理论揭示了人机共驾的深层悖论

接管率越低,人的注意力越分散,兜底能力越差——系统安全性可能不升反降。这个悖论意味着辅助驾驶存在一个"恐怖谷":系统已经足够好让人放松警惕,但又不够好到完全不需要人。跨过这个恐怖谷之前,L2在某种意义上是一个越来越危险的产品形态。

4. 特斯拉的真正护城河是"用户即测试员"的飞轮

300人团队、百万级用户公测、极简硬件、不做充分仿真——特斯拉的模式在传统汽车安全观念中几乎是不可想象的。但这种模式让它成为迭代最快的公司。核心前提是L2的责任在用户:系统可以只解决80-90%的问题,剩下的"甩给用户兜底就好了"。这种模式在L4中完全不可复制——因为没有人兜底。

5. 中国场景的复杂度让端到端从"选择"变成"必然"

孟醒判断中国城市交通比美国"复杂非常非常多,不是复杂一点"。这意味着传统模块化方案在中国可能"压根就达不到一个可用的上线产品"。端到端对中国车企不是追赶特斯拉的时髦,而是解决本土场景的唯一出路。反过来,中国车企在数据闭环上的优势可能让代际差收窄到小于大模型领域。

6. "Garbage in, garbage out"——数据处理能力可能比模型本身更重要

孟醒多次强调数据处理能力的重要性——"大家可能最后都能拿到足够大量的数据,但能不能处理好?"这与OpenAI的经验一致。对自动驾驶而言,数据的清洗、标注、分布管理的复杂度远超大语言模型,因为涉及多传感器、时空一致性和安全标注。这是一个被行业普遍低估的壁垒。

7. FSD入华的阻碍不在监管,而在本地化的系统工程

数据安全合规只是冰山一角。真正的挑战是:本地训练集群建设(小几千张H100)、本地数据闭环打通、模型针对中国场景微调。FSD在欧洲的先例表明,即便监管不是障碍,本地化也需要大量时间和投入。孟醒判断"一个跟北美一样体验的FSD落地在中国,可能没有想象那么快"——这给了中国车企宝贵的窗口期。

延伸阅读