深度研究 — #72 从蒸汽机到无人驾驶3｜和孟醒聊<a href="https://www.tesla.com" target="_blank" rel="noopener" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">特斯拉</a>FSD进化史

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

嘉宾孟醒：从投行到自动驾驶的跨界之路
自动驾驶行业的信息不对称
行业三档阶段：辅助驾驶与无人驾驶的分野
亲历FSD：从V11到V12.4的真实体验
L2与L4：两套完全不同的产品体系
责任主体之辩：L2/L3/L4的定义与悖论
最优接管率理论：不是越高越好
端到端架构：FSD V12的核心变革
从BEV+Transformer到端到端的技术演进
特斯拉硬件平台四代演进
纯视觉vs激光雷达：一场持续的路线之争
300人团队与极致迭代：特斯拉的组织哲学
复刻一个FSD需要多少钱
中国车企的端到端跟进
FSD入华：没有想象中那么快
关键数据与判断汇总

一、嘉宾孟醒：从投行到自动驾驶的跨界之路

孟醒是自动驾驶行业背景最多元的参与者之一，过去八年从创业者、投资人、平台公司CEO三个维度深度参与了这个行业。

Berkeley本科 (数学) → 摩根大通投行

帮助科技公司上市和并购，"最激动的都是看这些科技的创业者，他们如何把一个很小的idea从零到一变成一个可以被直见的业务"。但遗憾是接触到创业者时"已经太晚了"。

2011年第一次创业：Orbeus (MIT/波士顿)

六人创始团队做人脸识别，"那个时候只有在电影里面看见过真正的人脸识别"。公司后被亚马逊收购，成为AWS上的Rekognition服务——"直到今天AWS上面关于人脸和物体识别的API引擎还都是由我们这家公司（的种子）"。

2014年第二次创业：知图科技 (中国)

把图像识别能力变成广告平台，走微软加速器体系。两次创业分别经历了中美两套创业生态。

顺为基金投资人

投资了小鹏汽车、Momenta等自动驾驶公司。

2019年起滴滴自动驾驶CEO

从投资人转为行业从业者。最近刚更换身份，重回风投行业做前沿科技投资。

中美创业生态的对比观察

美国创业生态

历史悠久，生态完整但固化
创业者的资历、圈子相对稳定，难以跨界
"宁愿争第一个做，而不一定是做到最好"——更看重在科技史上刻下名字
一个方向有人做成后，其他人愿意去做别的
受扎克伯格等同龄创业者影响大

中国创业生态

波动性更大，初创企业也可能因写博客、做爆款瞬间出圈
资本和人才往最明确能跑通的方向集中
能"集中力量办大事"，但对红海中不成功的人不友好
最后能胜出的只是少部分

二、自动驾驶行业的信息不对称

孟醒指出，尽管自动驾驶发展了十几年，行业内外仍存在极大的信息不对称，原因有三：

信息不对称的三重原因

表面可感知但深度不可达：自动驾驶不像可控核聚变或量子计算，任何人看到一辆车自己跑就会产生理解——但它的链条极长（从车辆生产到硬件软件到数据到法规），完整理解对任何人包括行业内的人都很困难
从业者的视角切换：孟醒做投资时有全行业视角，进入行业做从业者后反而"对行业淡了"——"大家都还处于早期产品迭代的过程中"，能说的东西少，很多信息是猜的
领先企业的低调策略：Waymo在凤凰城2020年就开始公测无人驾驶，但连Waymo自己的员工、Google的二级市场分析师、供应商"真的都是只是听过，都没见过也没坐过"

孟醒

过去有一个笑话在我们这个行业里面，一直说无人驾驶什么时候实现，然后这个答案永远是五年之后的，五年之后又是五年之后，然后永远好像实现不了。但其实到2020年实现了，Waymo已经公开给大家打车那个时间点，至少是进行式了。

Waymo凤凰城的"隐形运营"

孟醒亲自去凤凰城体验Waymo，发现一个有趣现象：距离Waymo常态化运营已过三四年，每次打车下来仍有当地居民惊讶地问"你这个车没人？"——说明即便在运营城市，大部分居民也不知道无人驾驶已经在身边。

公众认知的滞后性

孟醒判断，相对业界的技术真正转折点，公众的认知至少晚了一年。百度萝卜快跑在武汉的案例也印证了这一点——2022年就开始有地盘，2023年已有很多车，但公众到2024年才"突然意识到说这事已经发生了"。信息传播中，"可能也是听你说的，你听别人说的，二手信息传了一遍，最后找到根源那个人，他其实是自己拍脑子想的"。

三、行业三档阶段：辅助驾驶与无人驾驶的分野

孟醒把自动驾驶行业拆分为两大路径，每条路径各有自己的"一档二档三档"阶段：

辅助驾驶 (L2/L3) 的三个里程碑

阶段	功能	状态
一档：LCC	车道线居中保持 + 前后不撞	非常成熟，甚至可称"旧技术"
二档：高速领航	车自主看地图、换道、从A到B	过了拐点，进入成熟期
三档：城市领航	城市任意两点间自动驾驶	拐点还有一定距离

无人驾驶 (L4) 的三个里程碑

阶段	定义	状态
一档：技术可行性	复杂城市常态化无人运营	已过——"不是靠信仰，是靠现实中的观察"
二档：量产化	从一辆扩展到一万辆车队	拐点未过，涉及额外技术开发
三档：商业化	经济模型成立	拐点未过

"世界螺丝轮子很靠后，但产品还很早期"

孟醒指出一个悖论：中国自动驾驶创业公司大多在2016-2017年成立，到今天已经8年，很多公司已经IPO。但从产品阶段看，可能还处于"天使轮或pre-A轮"——"虽然你做了8年的时间，对于一般的公司来讲这已经是成长期的公司，但实际对于产品的阶段来讲，你可能还处于一个天使轮的这个阶段。"

四、亲历FSD：从V11到V12.4的真实体验

孟醒亲自试驾了FSD的多个版本，给出了作为L4从业者的第一手评价。

各版本体验对比

版本	体验评价	关键发现
V11.3.6	非端到端最后一个版本	基线参照
V12.1	"跟V11差不太多"（与网上很多观点不同）	换了纯新架构但表现没有下滑——"这已经是极度了不起的一件事"
V12.3	体验最多的版本，达到"相对比较成熟水平的辅助驾驶能力"	应对机敏性强，但高峰期上高速"百分之百会失败"；能在后院、篮球场等非预期场景开启
V12.4	"大失所望"，出现比V12.3还差的愚蠢接管	马斯克声称提升5-10倍，但实际体验"至少不是一个5到10倍的体验上升"

FSD各版本能力演进与L4对比（接管间隔里程）

FSD与L4的差距

300-500

FSD V12.5 接管间隔（英里/公里）

10万

Waymo三番关键接管间隔（公里）

30万

Waymo凤凰城关键接管间隔（公里）

~1000x

FSD与L4的差距

孟醒

每一代都有提升，在同行里面绝对是翘楚。但是相对于纯无人驾驶，这个距离非常非常大，且短时间内没有追上的可能。

张小珺

听你讲的感觉有点像做L4无人驾驶的人看特斯拉FSD，有点像大学生在看小学生。

孟醒的关键修正

孟醒并不完全认同"大学生看小学生"的比喻——"如果我们的标准是考大学的考试，那可能是。但FSD考的不是那个考试。"L2的目标是提供更好的人机共驾体验，L4的目标是提供成本更低的出行服务——它们是两个不同的考试。

五、L2与L4：两套完全不同的产品体系

孟醒反复强调，L2和L4不是同一条路的两个阶段，而是两套完全不同的产品体系。

L2/辅助驾驶

核心目标：提升人的驾驶体验
安全由"车的能力 + 人的兜底"共同保障
没有安全红线——有它比没它强就有价值
优化目标：覆盖更多场景、更多人群、最低硬件成本、最快迭代
像互联网2C产品——核心是主观体验
商业模式：卖车

L4/无人驾驶

核心目标：提供低成本出行服务
安全完全由系统保障，一旦车失效 = 系统失效
有明确安全红线——不过线就是测试，不能正规运营
优化目标：先过红线，然后提升效率和覆盖
像企业服务软件——有最低标准才能上线
商业模式：出行服务

核心论断

L2的目标不是L4

孟醒明确反对L2→L3→L4的线性升级逻辑："L2的目标不是L4。L2的目标是提供一个更好的人机共驾体验。L4的目标是提供成本更低的出行服务的能力。这是可能两个体系。"行业因L1-L5的编号体系造成了"你做L2的目标不就是变到L3吗"的错觉。

特斯拉的"用户兜底"模式

用户同时是享用者和安全员

用户作为享用者：付钱购买辅助驾驶服务
用户作为安全保护者：承担安全员角色，但没人付他钱
专业安全测试员是"要付钱给他的、蛮辛苦的工作"——长时间精神紧张，几个小时要休息一次
但L2的用户"花钱买了享用者的部分，保护者的部分他没有付你钱"

六、责任主体之辩：L2/L3/L4的定义与悖论

孟醒对L1-L5分级体系进行了深入剖析，指出其中暗含的能力与责任的混淆。

分级体系说了两件事

维度	含义	谁在使用
责任	人的参与度、出事后谁负责	法规定义（应由法规决定）
能力	系统具备在各地开车的技术能力	车企宣传

能力与责任的混淆

车企说"我是具备L4能力的一款车"，但"以L2的产品形式推出，且符合L2的法规"——意味着出了事责任在驾驶人。宣传时说能力，出事时看法规——这两件事被结合在一起使用，造成公众认知的混乱。

各级别的责任定义

级别	人的要求	责任主体
L2	Eyes on + Hands on（眼睛看路 + 手扶方向盘）	驾驶人
L3	可以Hands off，但注意力需在路况上 / 随时准备接管	模糊（日本、德国开始让系统承担部分）
L4	有限环境下完全不需要人参与	系统提供方 / 车企
L5	任何环境下完全不需要人	系统

孟醒

L3是稍微有点tricky，就是有点模糊的地方。不同国家稍微定义会有些不同。比如说日本跟德国现在出台法案，L3是有一部分责任可以是由系统或者说车企来去承担的。

七、最优接管率理论：不是越高越好

孟醒提出了一个反直觉的观点：对于辅助驾驶来说，接管率不是越低越好。

核心概念

最优接管率

人机共驾的安全 = 车的自动驾驶能力 + 人的兜底能力。当接管里程提升时，人的兜底能力反而在下降——因为人的注意力越来越不集中。"如果开三段高速我都没有从来没接管过，人一定不会再去说双手双脚眼睛都一直在看路上"。两个能力合在一起的净安全性可能反而下降。

最优值可能是50公里、100公里或5000公里——各有各的说法。但在突破某个阈值之前，"可能不是越高越好"。

人机共驾安全性模型：系统能力 vs 人类兜底 vs 综合安全

L2与L4的安全哲学差异

L4追求的是绝对安全红线，地板不能太低；L2追求的是相对体验提升，"这一代比上一代做得好，这一代比别人家做得好就行"。L4没有用户兜底的假设——"一旦车失效了，那意味着整个系统失效"。这是两套产品体系最根本的差异。

八、端到端架构：FSD V12的核心变革

FSD V12带来的最大变化是从非端到端结构变为端到端结构——从像素信号直接到控制信号，中间不再有地图、定位、感知、预测、决策、控制的独立模块。

"蜻蜓吃苍蝇"的类比

孟醒

蜻蜓去吃苍蝇这件事情，它的脑神经元是非常非常简单的，但是做吃苍蝇这件事情是非常快的一个动作，而且很准，准确率非常高。它没有这么多过程——虽然先识别苍蝇在哪，然后再决定我舌头伸多长，没有。它其实就是一个进来以后可能是一个直觉，出来舌头就出去了。

端到端带来的"涌现"现象

闯红灯背后的深层含义

FSD V12偶尔会闯红灯——不是没识别红灯，而是观察到其他车也在闯红灯时选择从众
可能学自数据集中"红灯坏了10分钟没变、四面都是红灯、没有警察来修"等场景
类似地，会在"不该压线"的地方压黄线——但看起来"好像是有些道理的"
这说明红绿灯的规则确实被去掉了，取而代之的是更高权重的信号（如车流行为）

意外之喜：未训练就习得的能力

在停车场里自动调整避障
在后院、篮球场等非预设场景也能开启并找到出路
"这些能力其实我们都没有预先设置过，甚至于可能都没想过它有这些能力"
"可能已经在埋在历史存在的数据过程中，自然而然的去习得"

V12是FSD的GPT-3时刻，而非ChatGPT时刻

GPT-3而非ChatGPT

孟醒认为V12更像GPT-3而非ChatGPT——"把模型scale到一定大之后，它开始涌现一些能力，而且它没有后撤"。但还不是ChatGPT那种"一下推出来被很出圈、所有人都可以用、大家都口碑说很好"的产品时刻。

九、从BEV+Transformer到端到端的技术演进

孟醒梳理了自动驾驶软件架构从模块化到端到端的演进路径。

阶段一：三模块独立 (传统)

感知(Perception)、预测(Prediction)、规划(Planning)——三个独立模块，各自优化。人类容易理解，工程师好分工。

阶段二：BEV + Transformer (~2020)

BEV(鸟瞰视角)解决了多传感器融合问题，Transformer提升了长时间序列物体跟踪。感知和预测合并为一个模块，变成两模块体系。"今天几乎大多数的辅助驾驶公司其实都是这两个模块。"

阶段三：端到端 (FSD V12, 2023)

中间模块全部消失，视觉信号直接输出控制信号。"很多公司把两模块体系就叫端到端，其实不是端到端——它是分别端到端，A模块端到端加B模块端到端，中间还断了一次。"

两模块体系的核心缺陷

不可反向传导

两个模块中间会输出一个"人类可以观察到的结果"——三维检测框和轨迹。但这个中间表示不可反向传导（non-differentiable），导致无法做全链路的端到端优化。"你只能A模块自己单独优化和B模块自己单独优化，你是无法把这个连通来去做优化的。"

如何判断是否真端到端

孟醒

我觉得是否纯规则驱动系统可能更好判出来。但是不是说是两个端到端跟一个大模块连接起来，我觉得可能更多是在一个大的数据量体局势下，看他的平均的统计效率，而不是看他具体在某一个行为上能不能去判得过来。

十、特斯拉硬件平台四代演进

Hardware 1.0

非常小的计算平台，直接使用Mobileye的黑盒视觉方案。特斯拉只做后端的预测和规控。

Hardware 2.0

剔除Mobileye，开始自闭环做整个方案。

Hardware 3.0 (2018)

144 TOPS算力——"在今天看起来非常非常小"（国内一片Orin芯片就是250 TOPS以上），但在当时是非常强的计算平台。开始跑初代FSD，之前都叫Autopilot。

Hardware 4.0 (2023)

约400 TOPS算力。

传感器配置的极简主义

摄像头（环视）

120-200万

像素（非常低）

激光雷达（从未使用）

毫米波雷达（中途拆除）

核心策略

车端吝啬，训练端慷慨

特斯拉在车的硬件自动驾驶套件上"很吝啬"，但在训练平台上"一点都不吝啬"。车端每增加一元成本会直接降低毛利，但总部训练成本是一次性投入的可摊销成本。

训练基础设施的投入

时间	GPU规模	备注
FSD V12之前	~1万张 H100	约3亿美金投入
2024年中	~2万张 H100	持续扩张
2024年底计划	~5万张 H100	CFO财报披露
未来1-2年	Dojo自研训练平台	又是十亿或百亿美金级投入

十一、纯视觉vs激光雷达：一场持续的路线之争

孟醒系统性地分析了纯视觉和激光雷达路线的优劣。

马斯克的理由与行业的怀疑

孟醒

马斯克的解释是激光雷达会带来额外信号的噪音——当激光雷达和视觉带来的信号不一致的时候，你该选择哪个？这些判断会产生不准确性和延迟。我觉得这个解释是否大家相信，其实大多数人是不相信的。

视觉的优势

信息丰富度和密度最高——有颜色、纹理、语义
即使120万像素也比一般激光雷达分辨率高
数据收集最容易——每辆车、行车记录仪、公开数据都是视觉数据
成本极低

视觉的劣势

无法直接给出距离信息——需要计算得出，有误差
近距离场景下分辨不清（人贴着车门站立）
雨雪天失效
"离你特别远和特别近的东西都不太容易看清楚"

何赛创始人的"作弊器"类比

孟醒引述何赛创始人

激光雷达有点像作弊器。如果你的目标是每科考60分就过，先把所有考试都考了，那你不需要作弊器。但如果你不考到90分上不了大学，每课都要过，那你就必须得带着作弊器上了。

孟醒的综合判断

"今天绝对是越多的信息，增益效果一定是比它带来的噪音要好的——净增益是为正的。"但特斯拉的纯视觉路线从数据闭环角度有独特优势：所有车配置统一，每辆车都能收集训练数据，不存在高配低配的数据偏差问题。如果安全性提升是"线性增长而不是需要阶梯性跳跃"，那确实没必要加激光雷达。

十二、300人团队与极致迭代：特斯拉的组织哲学

~300人

FSD团队规模（截至2024年5月）

~10年

自动驾驶积累

~500辆

内测车队（推测）

为什么人这么少

三个原因

扁平架构：马斯克的管理风格——"老板可以直接需求和执行力可以直接传递到最下层"，"你其实很难获一个特别庞大的体系"
接受不完美：到V12.4之前，高速和低速还是两个模型；很多做了一半的工程先停了——"先要推下一个版本"
Facebook式执行真言：Move fast and break things——"快速的赶紧把产品推出去，然后管它哪坏了，反正接着迭代"

团队的多次迭代

特斯拉FSD团队迭代过非常多次。早期只有十几二十多个人，很多华人优秀技术人员后来去了不同公司。Andrej Karpathy也带过一段时间团队。300人已经是FSD历史上最大规模——"相当长一段时间少于200人"。

特斯拉的"公众测试"模式

用户即测试员

特斯拉每个版本推给上百万用户，但内测团队可能只有小几百人。仿真测试做得"非常少"——"很多场景确实也没法测，直接推给用户让公众来帮我做测试"。这在互联网产品上是常见的A/B Test，但在驾驶领域是"非常反直觉和反人性的一件事情"。这种模式让特斯拉成为迭代最快的公司，代价是可能出更多潜在事故。

十三、复刻一个FSD需要多少钱

成本要素拆解

要素	说明
团队	优秀人才，但"不是这里面成本最高的"
训练基础设施	最贵的部分——显卡、数据中心建设。1万张H100约3亿美金，跑第一版可能只需几千张（~1.5亿美金）
数据采集	前提是已有大量车在采集数据
数据处理	数据清洗、后处理能力——"Garbage in, garbage out"
车端部署	对车辆硬件软件体系的控制能力
产品定义	符合用户需求的体验打磨

10-30亿

复刻第一版FSD（人民币，分摊数年）

3-4/10

后来者 vs 特斯拉的成本比

孟醒

特斯拉一定有前提。你要做特斯拉这个样子，你基本上得意味着你一直得跑在世界的前列。也就是你会花很多冤枉钱——好多钱花了以后最后其实没有任何用，因为你不知道什么钱花的有用。如果特斯拉花十块钱，你复刻它一般可能花三块钱到四块钱。

端到端的五个前提条件

优秀人才：做过模型训练的人才——"不是最大的难题"
足够多的数据：取决于有多少车在外面跑、用户是否允许数据回传
训练能力：计算平台、数据清洗、后处理——"甚至比模型本身更重要"
车端部署：对硬件软件体系的自主控制
产品定义：符合用户需求的体验

十四、中国车企的端到端跟进

"几乎所有的公司应该都在跟进"——蔚来、小鹏、理想、阿维塔、Momenta等，从组织架构到人员梯队都做了调整和重新规划。

中国公司与特斯拉的四个不同

关键差异

团队规模更大：起手牌就比特斯拉大一倍以上，几百人到几千人——"到底是好事还是坏事很难讲"
规则兜底更重：国内公司会加更多规则兜底模块，不会像特斯拉那样"把这块完全交给用户"
场景复杂度更高：中国城市交通比美国"复杂非常非常多，不是复杂一点"——端到端变成必然而非选择
阶段更早：大多数还在"验证这件事真的能跑通"的阶段

各家公司的语言体系

孟醒

我们这个行业里面其实有时候词特别容易说的特别fancy，但其实并没有达到一个具体的意思。整体而言，我认为从外界看到的东西来讲，大家尝试的方向是类似的。

小鹏说"神经网络 + 规控大模型 + 大语言模型"，理想说"端到端 + VLM + 生成式验证"——孟醒认为从高层描述看不出实质区别。核心元素就两个：端到端模型和多模态大模型(VLM)，"两个里面都有神经网络，所以神经网络是一个非常粗泛的词汇"。

代际差的判断

1-2年

中国车企落后特斯拉的时间

小于大模型

自动驾驶的中美代际差

孟醒认为自动驾驶的中美代际差小于大模型领域——原因是中国在训练端投入差距较小，且在数据闭环能力上有优势。

端到端技术栈：从三模块到一体化

十五、FSD入华：没有想象中那么快

尽管公开信息显示FSD进入中国没有"特别强的阻碍"，孟醒认为实际落地面临多重挑战。

FSD本地化的前置条件

数据安全合规：本地数据只能留在本地
本地训练基础设施：需在中国建数据训练集群——"即便不需要一万张H100，可能也需要小几千张"
本地数据采集：需要足够多的本地车跑出数据闭环
模型本地化调整：至少需要某种形式的微调——直接推送北美版本"效果就非常不好，可能就把牌子砸了"

欧洲的前车之鉴

FSD在欧洲长时间都没有开放，即便监管条件不比北美更复杂。原因正是上述本地化前置条件——"FSD本身在北美以外一直都没有跑到北美那么好"。中国将面临类似甚至更大的挑战。

对中国车厂的冲击有多大

孟醒判断：冲击不大

FSD在北美的渗透率也只有个位数（100个特斯拉车主中个位数开通FSD，降到99美金月租后）
自动驾驶/辅助驾驶"可能不是影响用户购买车的最重要条件，甚至不是TOP3"
影响购买决策的是"在4S店里一分钟到五分钟之内能看到的、摸到的、听到的、感受到的东西"

十六、关键数据与判断汇总

判断	具体内容
FSD团队规模	约300人（截至2024年5月），是FSD历史最大规模
FSD V12.5接管间隔	300-500英里/公里（通用通行场景）
Waymo三番接管间隔	约10万公里（关键接管）
Waymo凤凰城接管间隔	约30万公里（关键接管）
FSD vs L4差距	约1000倍
V12的定位	辅助驾驶的GPT-3时刻（非ChatGPT时刻）
HW3.0算力	144 TOPS（2018年）
HW4.0算力	约400 TOPS
摄像头像素	120万-200万（非常低）
1万张H100成本	约3亿美金
训练集群规划	年底交付5万张H100 + Dojo自研平台
复刻FSD成本	10-30亿人民币（分摊数年），约为特斯拉的30-40%
中国车企代际差	约1-2年，小于大模型领域
FSD北美渗透率	个位数百分比（降价后）
中国自动驾驶公司成立时间	大多数2016-2017年
FSD入华本地训练需求	小几千张H100
激光雷达成本	主流128线半固态约2000-3000元
公众认知滞后	比技术转折点至少晚1年

启示与延伸思考

1. L2与L4是两个不同的物种，不是进化链上的两个阶段

孟醒最核心的论断是L2的目标不是L4。这个判断如果成立，意味着行业内大量"从L2升级到L4"的叙事是误导性的。两者的目标函数、安全哲学、商业模式完全不同——L2优化体验（2C产品逻辑），L4优化成本（企业服务逻辑）。行业需要停止用同一把尺子衡量两条路径。

2. 端到端的真正价值不是当下体验提升，而是证明了天花板更高

孟醒亲自体验后的判断是：V12的体验"跟V11差不太多"，V12.4甚至"大失所望"。但它真正了不起的是：换了纯新架构后表现没有下滑。这证明端到端路线的天花板理论上更高，且不会因架构切换而崩塌。所有人追随端到端的原因不是因为当下效果好，而是因为"它没垮，且带了一个很美好的未来"。

3. 最优接管率理论揭示了人机共驾的深层悖论

接管率越低，人的注意力越分散，兜底能力越差——系统安全性可能不升反降。这个悖论意味着辅助驾驶存在一个"恐怖谷"：系统已经足够好让人放松警惕，但又不够好到完全不需要人。跨过这个恐怖谷之前，L2在某种意义上是一个越来越危险的产品形态。

4. 特斯拉的真正护城河是"用户即测试员"的飞轮

300人团队、百万级用户公测、极简硬件、不做充分仿真——特斯拉的模式在传统汽车安全观念中几乎是不可想象的。但这种模式让它成为迭代最快的公司。核心前提是L2的责任在用户：系统可以只解决80-90%的问题，剩下的"甩给用户兜底就好了"。这种模式在L4中完全不可复制——因为没有人兜底。

5. 中国场景的复杂度让端到端从"选择"变成"必然"

孟醒判断中国城市交通比美国"复杂非常非常多，不是复杂一点"。这意味着传统模块化方案在中国可能"压根就达不到一个可用的上线产品"。端到端对中国车企不是追赶特斯拉的时髦，而是解决本土场景的唯一出路。反过来，中国车企在数据闭环上的优势可能让代际差收窄到小于大模型领域。

6. "Garbage in, garbage out"——数据处理能力可能比模型本身更重要

孟醒多次强调数据处理能力的重要性——"大家可能最后都能拿到足够大量的数据，但能不能处理好？"这与OpenAI的经验一致。对自动驾驶而言，数据的清洗、标注、分布管理的复杂度远超大语言模型，因为涉及多传感器、时空一致性和安全标注。这是一个被行业普遍低估的壁垒。

7. FSD入华的阻碍不在监管，而在本地化的系统工程

数据安全合规只是冰山一角。真正的挑战是：本地训练集群建设（小几千张H100）、本地数据闭环打通、模型针对中国场景微调。FSD在欧洲的先例表明，即便监管不是障碍，本地化也需要大量时间和投入。孟醒判断"一个跟北美一样体验的FSD落地在中国，可能没有想象那么快"——这给了中国车企宝贵的窗口期。

从蒸汽机到无人驾驶3｜和孟醒聊特斯拉FSD进化史

目录

一、嘉宾孟醒：从投行到自动驾驶的跨界之路

Berkeley本科 (数学) → 摩根大通投行

2011年 第一次创业：Orbeus (MIT/波士顿)

2014年 第二次创业：知图科技 (中国)

顺为基金 投资人

2019年起 滴滴自动驾驶CEO

中美创业生态的对比观察

美国创业生态

中国创业生态

二、自动驾驶行业的信息不对称

信息不对称的三重原因

Waymo凤凰城的"隐形运营"

公众认知的滞后性

三、行业三档阶段：辅助驾驶与无人驾驶的分野

辅助驾驶 (L2/L3) 的三个里程碑

无人驾驶 (L4) 的三个里程碑

"世界螺丝轮子很靠后，但产品还很早期"

四、亲历FSD：从V11到V12.4的真实体验

各版本体验对比

FSD与L4的差距

孟醒的关键修正

五、L2与L4：两套完全不同的产品体系

L2/辅助驾驶

L4/无人驾驶

L2的目标不是L4

特斯拉的"用户兜底"模式

用户同时是享用者和安全员

六、责任主体之辩：L2/L3/L4的定义与悖论

分级体系说了两件事

能力与责任的混淆

各级别的责任定义

七、最优接管率理论：不是越高越好

最优接管率

L2与L4的安全哲学差异

八、端到端架构：FSD V12的核心变革

"蜻蜓吃苍蝇"的类比

端到端带来的"涌现"现象

闯红灯背后的深层含义

意外之喜：未训练就习得的能力

V12是FSD的GPT-3时刻，而非ChatGPT时刻

GPT-3而非ChatGPT

九、从BEV+Transformer到端到端的技术演进

阶段一：三模块独立 (传统)

阶段二：BEV + Transformer (~2020)

阶段三：端到端 (FSD V12, 2023)

两模块体系的核心缺陷

不可反向传导

如何判断是否真端到端

十、特斯拉硬件平台四代演进

Hardware 1.0

Hardware 2.0

Hardware 3.0 (2018)

Hardware 4.0 (2023)

传感器配置的极简主义

车端吝啬，训练端慷慨

训练基础设施的投入

十一、纯视觉vs激光雷达：一场持续的路线之争

马斯克的理由与行业的怀疑

视觉的优势

视觉的劣势

何赛创始人的"作弊器"类比

孟醒的综合判断

十二、300人团队与极致迭代：特斯拉的组织哲学

为什么人这么少

三个原因

团队的多次迭代

特斯拉的"公众测试"模式

用户即测试员

十三、复刻一个FSD需要多少钱

成本要素拆解

端到端的五个前提条件

十四、中国车企的端到端跟进

中国公司与特斯拉的四个不同

关键差异

各家公司的语言体系

代际差的判断

十五、FSD入华：没有想象中那么快

FSD本地化的前置条件

2011年第一次创业：Orbeus (MIT/波士顿)

2014年第二次创业：知图科技 (中国)

顺为基金投资人

2019年起滴滴自动驾驶CEO