深度研究 — #96 自动驾驶10年演进史、关键技术细节和<a href="https://www.tesla.com" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">特斯拉</a>

嘉宾背景与访谈定位
自动驾驶的原始形态：轨道电车思维
高精地图为何走不通
特斯拉的BEV革命与升维思想
激光雷达 vs 纯视觉：信息量之争
从功能到能力：软件2.0的范式转换
端到端的本质：信息无损传递
大模型如何使端到端成为可能
理想的端到端实战：从封闭开发到交付
世界模型与强化学习闭环
L2/L3/L4的重新定义
数据与算力：自动驾驶的铁环
百度往事：从街景到高精地图的起源
理想自研之路：从供应商逼宫到大年初一电话
基座模型：所有智能的地基
关键数据汇总
启示与延伸思考

一、嘉宾背景与访谈定位

本期嘉宾郎咸朋是理想汽车自动驾驶研发副总裁，2013年至2018年在百度工作，是百度自动驾驶早期核心成员之一。2018年加入理想汽车，过去十年深耕中国自动驾驶领域。访谈发生在2024年12月，与EP.87对李想的三小时访谈同一时期进行。

访谈的独特价值

以亲历者视角回顾自动驾驶十年演进史
详解关键技术节点和底层原理，而非泛泛而谈
披露百度自动驾驶早期的内部细节
从一线技术负责人角度看理想的组织变革与战略选择

10年

郎咸朋的自动驾驶从业经历

800+

理想自动驾驶团队现有人数

100万+

理想搭载自动驾驶的在售车辆

二、自动驾驶的原始形态：轨道电车思维

2014-2015年，百度自动驾驶团队（ADU）刚成立时，整个行业对自动驾驶的构想极其"原始"——本质上是把自动驾驶当作一辆有轨电车来研发。

核心思路

虚拟轨道 + 激光雷达

在所有地面上铺设虚拟的高精地图轨道，车在轨道上跑，同时用大量激光雷达360度探测周围的动态人和车。"就跟现在跑高铁、跑铁路一样"——这在当时被认为是非常完美的自动驾驶方案。

郎咸朋

当时校长（注：百度内部称呼）在乌镇的年会上，2015年，百度演示了自动驾驶。当时说这个工程师是上半行if-else，这个规则写出来的这样一个自动驾驶的程序。

当时的技术条件

传感器主要依赖重激光雷达，一辆百度测试车配7-8个激光雷达
一辆测试车成本约500万人民币，主要是传感器成本
Velodyne 64线激光雷达单台售价五六十万
百度还有专门横放的16线雷达，用来看天上的交通信号灯杆
算法完全基于规则（if-else）

回望这段历史的启示

郎咸朋坦言"现在看起来当然很可笑"。但在当时，这就是全行业认为的最优技术路径。自动驾驶的梦想比汽车本身还古老——八九十年代中科院的老一代科学家就在做机器视觉探索，但受限于计算机性能，"他们做的机器视觉都是非常简单的点阵的相机"，只能用一维的毫米波雷达信号，"像人蒙着眼睛用声波的方式在路上开"。

三、高精地图为何走不通

高精地图路线看似完美，但在实践中遇到了根本性的不可行。这是自动驾驶第一次大规模路线之争。

高精地图的致命缺陷

覆盖范围：中国高速公路只有30多万公里，可以做高精地图；但还有970万公里普通道路，不可能全部覆盖
更新频率：高速公路不常修建，但普通道路"今天挖个坑，明天改个道路"，变化极其频繁
维护成本：不可能每天更新一遍所有高精地图

30万

中国高速公路里程（公里）

970万

中国普通道路里程（公里）

~3年

行业从高精地图到转向纯视觉的探索期

从2014-2015年到大约2018年，行业用了约三年时间逐渐认识到高精地图路线的不可行。与此同时，特斯拉率先提出纯视觉方案——"第一看得非常对，第二看得非常的准，非常的早"。但当时业界的反应分三类：

确实不理解特斯拉在说什么
已经理解了，但已经投入太多无法转身——"投了那么多钱去做了"
故意坚持原有路线

四、特斯拉的BEV革命与升维思想

郎咸朋将特斯拉的BEV（Bird's Eye View，鸟瞰图）算法视为自动驾驶第二个关键节点。这不仅是一个技术改进，更代表了一种根本性的升维思想。

核心概念

BEV算法：从后融合到前融合

之前的做法是"后融合"——每个摄像头分别识别物体，再把结果拼合在一起。问题是：每个摄像头识别结果可能有错误、遗漏、不一致。特斯拉的做法是"前融合"——先从所有摄像头提取特征，统一做一次计算，一次性输出所有物体的空间信息。

后融合（旧方法）

每个摄像头分别识别物体
各自结果可能有遗漏、重叠
需要大量工作消除融合误差
物体在不同视角可能不一致
"就像今天一点点消除幻觉一样"

前融合（BEV）

先把所有图像信息拼成"大图"
在大图上统一提取物体
反投到每张图时一致性有保证
从同一来源投射，天然一致
"换一种方法"，升维解决

自动驾驶感知方法演进

郎咸朋

我觉得在特斯拉身上我们学到最好的一点就是——特斯拉一直在用升维的方法来解决问题。如果抽取本质的话，那说明今天不应该一点点填补去消除幻觉，还是应该升维。

特斯拉为什么自造芯片

BEV算法需要同时处理6-7个摄像头的数据，计算量远超单摄像头。当时最好的英伟达Xavier芯片只有30 TOPS算力，远远不够。特斯拉从2016年开始造芯片，2019年推出72 TOPS x 2 = 144 TOPS的专用ASIC芯片。

维度	通用芯片（英伟达）	专用芯片（特斯拉）
类型	通用GPU/SoC	ASIC专用芯片
比喻	"大号衣服，胖瘦都能穿，但穿着不好看"	"量身定制，穿着好看，材料也省"
适用性	理想、小鹏等所有公司都能用	只能运行特斯拉自己的算法
成本	单芯片成本高	传感器+芯片全套约1000美元/车
有效算力	标称500+ TOPS但有效算力受限	标称144 TOPS但有效算力可能更高

升维思想的类比

郎咸朋反复用E=mc2来类比特斯拉的思维方式："比如说我们造原子弹，E=mc2这个质能方程——是使用聚变还是使用裂变，我觉得这是后来的东西了。本质思想是说物质和能量今天可以转换——这个东西是先想到的。"特斯拉先想到了"纯视觉+前融合"的本质思想，然后再用Transformer等具体技术实现。

五、激光雷达 vs 纯视觉：信息量之争

这是自动驾驶行业持续多年的核心路线之争。郎咸朋从信息量的物理本质给出了清晰的分析。

摄像头（Camera）

分辨率：约800万像素（4K x 2K）
提供颜色、纹理、语义等丰富信息
隐含了三维空间信息（通过视差等推算）
瞬间曝光，无延迟
"满满当当的全都是像素、颜色、色彩"

激光雷达（LiDAR）

分辨率：当前主流128线，分辨率约为摄像头的1%
优势：每个点精确给出距离
扫描有延迟，非瞬间成像
远距离（150米外）1.8m的人可能"打不到几个点"
黑色、低反射率物体效果更差

摄像头 vs 激光雷达：信息密度对比

郎咸朋

我一个大千世界，我一个图像是用800万像素——就是上百万上千万的点来描述了我整个的世界。你只用了100多行的一个点来去描述它。这个信息量是远远不够的。

为什么还有人坚持用激光雷达？

郎咸朋的回答尖锐而深刻：

郎咸朋

端到端做得好的现在是哪些公司呢？所有的L4的科技公司——谁做端到端的？你要看本质。

他的隐含逻辑是：那些坚持激光雷达的L4公司（Waymo、Cruise、百度等），恰恰是没有做端到端的公司。它们还在用上一代的模块化方法，用激光雷达提供的精确距离信息来弥补算法能力的不足。而当端到端模型足够强大时，从视觉中提取距离信息的能力已经足够。

六、从功能到能力：软件2.0的范式转换

郎咸朋将自动驾驶的发展本质概括为从"做功能"到"做能力"的范式转换——他称之为从"软件1.0"到"软件2.0"。

范式转换

功能思维 vs 能力思维

"软件1.0"是用产品需求定义（PRD）的方式做自动驾驶：定义场景、编写规则、覆盖案例。"软件2.0"则是让系统拥有自我迭代和学习的能力，不再是人一行行教机器怎么做。

功能思维的三个致命问题

问题一：场景穷举不完

有创业公司试图用"严格的手段"定义所有场景——天气（晴天/大雨/中雨/小雨）、车流密度、光照条件、自车速度等，每个因素都是变量。但郎咸朋指出："你这个小雨和中雨怎么分？是看你一分钟掉几个雨点吗？"这些变量相乘后产生上千万种组合。

问题二：场景之间互相影响

修改一个场景的规则可能会破坏另一个场景的表现。"你可能写了一个晴天路况下的右转，但你可能忽略了车流量大的下雨天的右转——可能又不太一样了。"

问题三：长尾问题无法覆盖

"你再怎么想再怎么定义，你也想不到半路会穿出一个马来。"——路面塌陷、突发异物等场景无法预先定义。而人类遇到未知情况时可以推理应对，功能式的自动驾驶做不到。

郎咸朋

如果用场景划分的方式去做自动驾驶——场景太多了穷举不过来；你改了一个场景的东西可能会影响另外一个场景的东西；还有长尾问题。如果说我们做一个辅助驾驶或者自动驾驶功能，它只能在我定义过的地方去开的话，那就不叫自动驾驶。

范式转换的核心洞察

从"人去一行行编码教机器怎么做"，转变为"让系统有自我迭代和学习的能力"。郎咸朋用类比说明：

就像教孩子——"我不能替我孩子学，但是我可以给他很多好的教师资源、上好的学校"
"他学完了结果我是可以评价的——我可以看看他开得怎么样了"
"我们现在做的不是做软件了，我们是做模型了"

七、端到端的本质：信息无损传递

端到端（End-to-End）是自动驾驶第三个关键节点，也是郎咸朋认为"非常大的突破和飞跃"的技术范式。

模块化架构的信息损失问题

传统自动驾驶系统分为感知-决策-规划-控制等模块。每个模块之间存在信息衰减：

第一次衰减：感知层

感知结果"可能对，可能错，有可能信息丢失，有可能掺杂错误的感知结果"——带着瑕疵传给下游。

第二次衰减：决策规划层

收到的"已经不是一手信息了"，在此基础上做出的规划"可能又有些问题"。

第三次衰减：路径生成

"这个偏5厘米，这个偏5厘米，最后叠加出来你偏15厘米。"——15厘米就是路面一条白线的宽度，可能导致车辆压线或偏离车道。

端到端

端到端的核心理念

让输入和输出之间尽量减少过程，让所有模块都用一手信息去生成最后的驾驶路线和行为。"我看到这张图，过了这个模型之后，直接给你说——我要这么开。"不再经过感知-翻译-决策-再翻译的多次中转。

郎咸朋

端到端是一个理念的事，它不是一个技术的实现方案的事。但是这个方案恰好用大模型可以实现。

端到端的代价：可解释性

为什么不再能解释"为什么这么开"

以前的模块化系统可以追溯："我看到这个人在这儿，所以我的规划就要超过他"
端到端之后"我们真不知道模型他怎么想的了"
但郎咸朋认为这并不是问题——"人开车的时候，你不会说如果旁边有个人问你为什么这么开——我就想这么开，来不及说"
"模型一定是学到了什么，但是我们不知道他学到了什么"

八、大模型如何使端到端成为可能

郎咸朋详细解释了大模型（特别是Transformer架构和Tokenizer技术）为何是端到端落地的关键使能技术。

Ilya的关键贡献：万事万物皆可编码

郎咸朋

如果我们最早看Ilya最早的关于Tokenizer的Embedding论文，其实它就解决了一个问题——万事万物皆可编码。

在此之前，图像和文字被认为"很难被学习"——因为没办法将它们表达成"便于学习训练的方式"。Tokenizer技术解决了这个问题：一旦能被编码（转化为Token），就能被学习。

前融合与后融合的终极解法

大模型解决了多模态融合的根本问题

以前图像跟激光雷达"完全不一样的东西——一个是激光点云，一个是RGB像素"，很难融合
用Tokenizer的方式，可以把它们都编成向量空间中的特征
"特征和特征是可以对齐的"——不再需要对原始数据格式做强行拼接
导航信息、其他传感器输入等"都能用Tokenizer编码后进到模型里边去进行学习"

端到端和大模型的关系

端到端 = 理念

信息无损传递
减少人为中间环节
让系统自我学习
"能量和质量可以转换"的认知

大模型 = 实现手段

Transformer架构
Tokenizer编码一切
多模态特征对齐
"E=mc2这个质能方程"

这个关系的深层逻辑

郎咸朋的类比非常精确：很多人早就想到"让车自己学会开车"——这是端到端的理念。但没有实现手段。大模型（特别是Tokenizer + Transformer）提供了"质能方程"——让这个理念变成可执行的方案。之后的模型参数选择（7B还是70B）、训练策略（预训练+RLHF等）都是"用裂变还是聚变"的技术细节问题。

九、理想的端到端实战：从封闭开发到交付

理想的端到端研发过程堪称一部战争片——从2024年3月被李想拍桌子怒批，到6月第一次试车震惊创始人，整个过程高度戏剧化。

2024年3月战略会：李想发火

李想对自动驾驶团队拍桌子、情绪激烈。核心问题：自动驾驶表现不如业界头部水平，销售因此丢单——"推门进了对面的问界"。有团队成员不服气，说"看指标我们跟华为、小鹏也非常接近"。郎咸朋的判断："你跟别人做的差不多，你是追不上的。你必须比别人好很多才有可能扭转局面。"

2024年4月15日封闭开发启动

180人搬到中关村电子大厦进行封闭开发。此前理想的有图/无图方案团队已有1000人。

2024年5月初（约五一期间）决定性时刻

封闭开发仅半个多月，郎咸朋从中关村到北京交通大学的一段路——"竟然能开起来。才一个月时间。我能完全确定这里边没有用一行规则。"

2024年5月下旬李想首次试车

李想带着经纬张颖做副驾一起试车。"开了一个多小时，可能终于就接管了一次还是两次。"李想越开越兴奋，开始大谈AI和大模型。试车后李想"完全就是接受和认可"。当时模型训练数据不到100万clips。

2024年下半年端到端交付

端到端版本正式交付用户。代码量从有图/无图版本的200万行缩减到不到20万行——减少了90%。

郎咸朋

我第一次上车，它纵向控制的比我之前开过的所有的自动驾驶车——包括竞品的、包括我们的——都好。我就当时问旁边的同事："你们是不是用规则调了？"他说"我们真没调，就是学出来的。"我那时候就觉得这下也远超我预期了。

"纵向加减速"为什么如此关键

纵向加减速（跟车起步、制动停车）是自动驾驶体验中用户感知最直接的环节。人类驾驶时的制动是"前快后慢"——先踩，快停时抬一下——这种细微的控制在规则驱动时代怎么调都调不好。但端到端模型在半个月的训练后"就能把之前所有人类规则全打败"——因为它直接从人类驾驶数据中学到了这种细腻的控制感。

十、世界模型与强化学习闭环

理想的自动驾驶系统不止端到端一个模块，而是端到端 + VLM + 世界模型的完整架构。

VLM的作用：处理未知场景

端到端的局限与VLM的补充

端到端在已知数据集上表现优异，但有些场景需要推理——如可变车道、路边限时公交车道标识等
VLM（Vision Language Model）模仿人类大脑，识别和理解场景中与开车相关的语义元素
理解后的结果输入端到端模型，联合生成最终决策
VLM和端到端都运行在车端，不依赖云端

世界模型：考试系统

世界模型用于评测这套系统——相当于给AI驾驶员出考卷。

评测体系

从"功能测试"到"能力考试"

以前的测试方式是"衡量功能是否达到设计标准"——但现在"没有产品设计了"，不能"拿前朝的剑斩明朝的官"。理想参考了人类能力测试的方式——考试，设计了安全、舒适、导航、合规等五个维度的题目体系。

考试系统的关键设计

维度	设计
题目类型	基础题 + 难题 + 拔高题，覆盖各考点
最低标准	安全类题目必须全对；舒适、效率等可以有容错
成长要求	每个版本分数不能比上个版本低，否则不发布
真题	用3DGS（高斯泼溅）从真实场景重建
模拟题	用Diffusion模型生成变体（如不同车流量的右转场景）
防背答案	每次考试混合真题和模拟题，避免"背过答案"

强化学习的闭环

车上系统 + 世界模型 = 强化学习架构

车在真实世界运行时遇到的问题，反馈到世界模型中作为新的测试题
系统做得好时获得奖励，做得差时获得惩罚
Reward机制设计：安全（撞了=不安全）、舒适（用户接管=需分析原因）等维度
专门训练了一个模型来判断"用户这次接管到底是因为舒适问题还是安全性不足"

理想自动驾驶完整架构

十一、L2/L3/L4的重新定义

郎咸朋提出了一个颠覆传统认知的观点：L3不是L2的延长，而是L4的先导。

核心判断

L3 = L4的先导，而非L2的延长

大多数人认为L2不断加场景、修bug就能逐渐升级到L3——"L2加加加就L3了"。但郎咸朋明确否定：L2的场景设计不完、解决不好、改一个会影响另一个。L3和L4在技术路线上是同一体系（数据驱动+模型学习），与L2（规则+功能设计）是完全不同的方法论。

传统L2辅助驾驶

有图/无图/轻图方案均可实现
用规则和功能设计方式
场景穷举，逐个修复
"软件1.0"思维
"做功能"

L3/L4 自动驾驶

必须用端到端+模型方式
数据驱动，系统自我学习
全场景（车位到车位）统一能力
"软件2.0"思维
"做能力"

从有监督到无监督的渐进路径

理想的L3落地路径

第一步：全场景（车位到车位）能力打通，但全程有监督
随着能力提升，无监督路段越来越多——"红色变绿色"
无监督比例达到一定阈值后才开放L3功能
MPI（每次接管间隔）目标：综合200公里接管一次（高速350km，城市50km）
安全性目标：十倍于人类驾驶安全

200km

L3推出时的综合MPI目标

350km

高速MPI目标

10x

安全性目标（vs人类驾驶）

十二、数据与算力：自动驾驶的铁环

郎咸朋在2018年面试理想时，李想问他"做自动驾驶最重要的是什么"，他的回答是：数据。

郎咸朋

人咱们可以挖，算力只要企业做得好还是有钱买得到的。但是数据这个事，是你挖也挖不来、买也买不到的。就是咱自己的东西。所以我们从第一天开始就要去做数据这个事。

数据与模型的关系

"模型和数据驱动是一个硬币的两面"

用模型就必须数据驱动；用数据驱动就必须用模型
模型之间的差异就像人的智商差异——"你140我120，但决定未来能不能成功的，是你从小到大受到的教育和输入"
"哪怕一个天才，你把他关在小黑屋里20年再拿出来，他一样跟白痴一样"
数据+算力 = 自动驾驶的铁环（核心壁垒）

数据隐私保护

理想采集的是车外数据，不涉及用户个人数据（人脸、声音等属于舱内数据）。回传时人脸和车牌都会模糊处理——这得益于郎咸朋在百度做街景时的专业积累。

理想的资源优势

数据：超过100万辆在售车辆持续采集驾驶数据
算力：今年投入训练卡资源"成倍增长"
人才：800多人的自动驾驶团队（特斯拉约200-300人）
端到端的成功"并不是郎伯这些人多聪明多优秀，你没有资源再努力没用"

十三、百度往事：从街景到高精地图的起源

郎咸朋详细回忆了自己在百度的经历，揭示了中国自动驾驶行业的真正起源故事。

2013年4月加入百度

加入百度地图团队做百度街景。当时竞争对手是已上线的腾讯街景。"现在我还是很自豪地说，百度地图打开街景，你看到的所有图片都是用我当年写的代码处理的。"

2013年下半年宝马找上门

宝马中国研发团队需要高精地图来测试自动驾驶。评估了百度、高德、四维三家，选择了百度——"因为觉得百度技术能力最优秀"。四个人的小组成立：百度研究院的李凯、陶吉，地图团队的郎咸朋和另一人。"一边服务宝马，一边学习宝马。"

2014年高精地图技术成型

用百度自有测绘资质和采集车，按宝马要求把整个北京的高精地图做完。宝马为此还提供了两辆测试车——后来2015年上了北京五环的就是这两辆。

百度内部的两条线

深度学习研究院（IDL）做偏L4/偏研究的方向；郎咸朋团队做偏量产/偏车厂对接的方向——"一个像Waymo那套东西，一个像特斯拉这套东西"。

百度自动驾驶的隐秘起源

很多人知道百度2015年在乌镇演示自动驾驶，但很少人知道这个项目的真正起源是宝马中国的一个研发需求。高精地图团队和自动驾驶团队最初是因为服务宝马而产生深度合作的。李彦宏将任务交给于凯，于凯找到地图团队，当时的地图负责人是顾维灏（现在豪末的CEO）。

十四、理想自研之路：从供应商逼宫到大年初一电话

2018年到2021年，理想在自动驾驶上的投入极少——这背后有清晰的战略节奏逻辑。

郎咸朋转述李想

郎伯，我们现在最主要任务是把车交了。没有那么多钱。钱必须花在最重要的地方。自动驾驶从第一天就是最重要的，但是我们战略是有节奏的。

2021年底：供应商逼宫事件

不平等条约

供应商不仅要收取昂贵的开发费用，还拒绝白盒交付代码
附加条件："理想你们要把之后的自动驾驶研发都交给我们做，并且解散你们的自研团队"
郎咸朋的反应："供应商就觉得你那时候一定要跪下来求他"

郎咸朋

我特别喜欢想哥一点就是——老子就算死也要站着死。我是不可能跪下来求饶的。

大年初一的电话

2022年1月底

认真讨论自研方案。郎咸朋主动找李想："咱不能被别人牵着鼻子走。"

大年初一

李想主动打电话："郎伯你这事你有决心没有？"郎咸朋："我来理想三年就等这个时候了。如果真做不出来，我就引咎辞职。"李想："只要你有信心，我就支持你。"放下电话，立刻拉微信群，所有合伙人在群里宣布：自动驾驶自研，郎伯负责。

2022年2月26日

召开自研启动大会。全公司调配资源，约100多人参与。

从落后者到追赶者

理想的自动驾驶路径是有图→轻图→无图→端到端，每一步都被外界批评"落后于竞品"。但郎咸朋认为这种"看似笨的方法其实是最捷径的方式"：

为什么必须走过每一步

"你必须要把前面吃的苦和经历的东西经历一遍，你才知道它是为什么走到现在的"
"我们把特斯拉BEV做了，把无图轻图做了——特斯拉其实也做轻图，只不过不这么说而已"
每一代产品力都比上一代好，给用户"实实在在的提升"
交付过程中积累了大量真实场景数据和技术认知

理想最特殊的一点

在所有新势力中，理想是自动驾驶投入最晚、起步最慢的——2018-2021年基本没有投入，2022年才开始自研。但也正因此，他们在技术认知上没有太多历史包袱，能够更彻底地拥抱端到端范式。郎咸朋坦言"我们拼不过华为几千人，也拼不过楼天成那样的天才少年"——但他们有数据和算力的优势，且"看准了就赶紧去做"。

十五、基座模型：所有智能的地基

郎咸朋在访谈最后透露了理想的更大野心——做自己的基座大模型（MindGPT）。

为什么必须做基座模型

必要性

公有风险：如果通用基座模型不给你用了，"上面盖的再好的房子都是空中楼阁"
定制化需求：通用模型会适应所有客户，"不会针对你一个人优化"——无法获得头部位置
终局判断："人工智能的企业没有百花齐放，会收到为数不多的几个真正有基座模型能力的企业手里"

基座模型的架构设想

郎咸朋在访谈中手绘了一张架构图：

未来架构

MindGPT 基座 → 所有智能应用

最底层是MindGPT基座模型——一个多模态（视频、声音、文字、图像）的超大模型，涵盖公司所有数据（自动驾驶数据、座舱数据、工厂数据、互联网数据）。在此基础上生长出：自动驾驶（VLA）、理想同学（座舱交互）、智能商业、智能工业等所有应用。

当前的分裂问题

郎咸朋

现在我们是没有这个东西的。每个人都在训自己的东西——这样的话你这个领域的知识他是不知道的，每一个领域之间知识是没有互通的。

举例：自动驾驶遇到一个掀起的井盖，目前需要专门收集井盖数据来训练。但如果有基座模型，"它对整个物理世界有基本的理解——知道这是井盖、这是窟窿、这是危险区域"——不需要单独为每个领域训练独立模型。

VLA：自动驾驶的终局

VLA（Vision-Language-Action）是自动驾驶的终局形态
现在已经开始预研，1-3年内会有成果
VLA = 端到端 + VLM合为一体，世界模型是其一部分
"将来的智能一定是触类旁通的——它是一个非常全面的智能"

十六、关键数据汇总

数据点	具体内容
自动驾驶三大节点	高精地图+激光雷达 → BEV+Transformer → 端到端
百度测试车成本	~500万人民币/辆（2014年）
Velodyne 64线价格	五六十万人民币/台
特斯拉传感器+芯片全套	~1000美元/车
特斯拉算力	72 TOPS x 2 = 144 TOPS（ASIC）
理想当前算力	两个Orin X = 500+ TOPS
摄像头分辨率	~800万像素（4K x 2K）
激光雷达分辨率	128线，约为摄像头的1%
中国道路里程	高速30万km + 普通970万km
理想端到端代码量	从200万行 → 不到20万行（减少90%）
理想自驾团队	800+人（特斯拉200-300人）
理想搭载车辆	100万+辆
L3 MPI目标	综合200km/次（高速350km，城市50km）
安全性目标	十倍于人类驾驶
封闭开发	180人，2024年4月15日启动
第一版端到端试车	启动后约半个月（2024年5月初）
VLA预期	1-3年内出成果
宝马合作	2013年底启动，4人小组
自研启动	2022年大年初一决策
历代方案路径	有图 → 轻图 → 无图 → 端到端（1年内完成）

十七、启示与延伸思考

1. 自动驾驶十年史的三次"升维"

郎咸朋梳理的三个关键节点本质上都是"升维"：第一次从一维雷达信号升维到高精地图+激光雷达的三维表示（但仍是轨道思维）；第二次从单摄像头后融合升维到BEV前融合（解决了感知一致性问题）；第三次从模块化升维到端到端（解决了信息衰减和场景穷举问题）。每一次升维都是用更高维度的方法论替代低维度的补丁式修复——这个模式对所有技术领域都有启发。

2. "特斯拉一直在升维"是这篇访谈最重要的洞察

郎咸朋多次强调"在特斯拉身上学到最好的一点就是用升维的方法解决问题"。高精地图有问题→不修补地图，而是用纯视觉；后融合有问题→不优化融合算法，而是用BEV前融合；模块化有问题→不修复模块间传递，而是用端到端。这意味着：如果你正在一点点修补一个系统的缺陷，你可能需要的不是更好的修补方法，而是一个更高维度的重新思考。

3. "从功能到能力"的范式转换适用于远不止自动驾驶

软件1.0思维——定义场景、编写规则、逐一覆盖——在AI时代全面过时。当场景的组合爆炸超过人类穷举能力时，唯一的出路是让系统自己学习能力。这个转换正在编程（Copilot/Cursor）、设计（Midjourney）、搜索（Perplexity）等领域同步发生。郎咸朋用的"不是做软件了，是做模型了"这句话，可能是对AI时代最精炼的技术哲学总结。

4. 理想"最慢的投入"反而可能是最优策略

理想2018-2021年几乎没有投入自动驾驶，被认为是"三家新势力中最落后的"。但回头看，这恰恰让理想避开了在过时范式上的巨大沉没成本。小鹏早期投入的"高精地图+激光雷达"体系后来大部分被废弃；华为的几千人团队很多在做规则优化。理想在2024年才正式进入端到端，但几乎没有历史包袱——这是一个"后发优势"在AI时代被放大的典型案例。

5. 供应商逼宫事件揭示了汽车行业的深层矛盾

供应商要求理想"解散自研团队，把所有研发都交给我们"——这不是个别现象，而是整个汽车行业Tier 1体系在智能化时代的结构性危机。当软件（AI）可能占到汽车价值的50%时，把核心能力外包给Tier 1等于放弃未来一半的价值创造权。李想的"老子就算死也要站着死"不是意气用事，而是对行业终局的清醒判断。

6. 数据壁垒的不可替代性

"人可以挖，算力有钱能买，但数据挖不来买不到。"郎咸朋2018年面试时的这个判断，在六年后被完全验证。理想100万+在售车辆的实时驾驶数据是端到端成功的基础——端到端模型不到100万clips训练数据就能跑通，而这些数据只有拥有大量量产车的公司才能获得。这解释了为什么"几条枪十几个人"的自动驾驶创业公司即使有更聪明的算法也难以竞争。

7. 端到端的"纵向加减速"故事比任何benchmark更有说服力

半个月训练的端到端模型在纵向加减速上"打败了之前所有人类规则"——这个细节极其有说服力。人类驾驶的制动感觉（"前快后慢、快停时抬一下"）是极其微妙的控制，用规则"怎么调也调不好"。但模型直接从人类驾驶数据中学到了这种细腻的body language。这证明了端到端不是一个理论概念，而是已经在最基础的驾驶体验上产生了质的飞跃。

8. 基座模型的野心暗示了汽车公司的身份重塑

郎咸朋描绘的MindGPT架构——一个统一的基座模型支撑自动驾驶、座舱交互、智能工业等所有应用——本质上是在说：理想的终局不是一家汽车公司，而是一家以物理世界数据为核心的AI公司。"将来的智能一定是触类旁通的"——这个判断如果成立，意味着未来的汽车公司和机器人公司之间的界限将消失，取而代之的是"拥有物理世界基座模型"的AI企业。

自动驾驶10年演进史、关键技术细节和特斯拉

目录