本期嘉宾郎咸朋是理想汽车自动驾驶研发副总裁,2013年至2018年在百度工作,是百度自动驾驶早期核心成员之一。2018年加入理想汽车,过去十年深耕中国自动驾驶领域。访谈发生在2024年12月,与EP.87对李想的三小时访谈同一时期进行。
2014-2015年,百度自动驾驶团队(ADU)刚成立时,整个行业对自动驾驶的构想极其"原始"——本质上是把自动驾驶当作一辆有轨电车来研发。
在所有地面上铺设虚拟的高精地图轨道,车在轨道上跑,同时用大量激光雷达360度探测周围的动态人和车。"就跟现在跑高铁、跑铁路一样"——这在当时被认为是非常完美的自动驾驶方案。
郎咸朋坦言"现在看起来当然很可笑"。但在当时,这就是全行业认为的最优技术路径。自动驾驶的梦想比汽车本身还古老——八九十年代中科院的老一代科学家就在做机器视觉探索,但受限于计算机性能,"他们做的机器视觉都是非常简单的点阵的相机",只能用一维的毫米波雷达信号,"像人蒙着眼睛用声波的方式在路上开"。
高精地图路线看似完美,但在实践中遇到了根本性的不可行。这是自动驾驶第一次大规模路线之争。
从2014-2015年到大约2018年,行业用了约三年时间逐渐认识到高精地图路线的不可行。与此同时,特斯拉率先提出纯视觉方案——"第一看得非常对,第二看得非常的准,非常的早"。但当时业界的反应分三类:
郎咸朋将特斯拉的BEV(Bird's Eye View,鸟瞰图)算法视为自动驾驶第二个关键节点。这不仅是一个技术改进,更代表了一种根本性的升维思想。
之前的做法是"后融合"——每个摄像头分别识别物体,再把结果拼合在一起。问题是:每个摄像头识别结果可能有错误、遗漏、不一致。特斯拉的做法是"前融合"——先从所有摄像头提取特征,统一做一次计算,一次性输出所有物体的空间信息。
BEV算法需要同时处理6-7个摄像头的数据,计算量远超单摄像头。当时最好的英伟达Xavier芯片只有30 TOPS算力,远远不够。特斯拉从2016年开始造芯片,2019年推出72 TOPS x 2 = 144 TOPS的专用ASIC芯片。
| 维度 | 通用芯片(英伟达) | 专用芯片(特斯拉) |
|---|---|---|
| 类型 | 通用GPU/SoC | ASIC专用芯片 |
| 比喻 | "大号衣服,胖瘦都能穿,但穿着不好看" | "量身定制,穿着好看,材料也省" |
| 适用性 | 理想、小鹏等所有公司都能用 | 只能运行特斯拉自己的算法 |
| 成本 | 单芯片成本高 | 传感器+芯片全套约1000美元/车 |
| 有效算力 | 标称500+ TOPS但有效算力受限 | 标称144 TOPS但有效算力可能更高 |
郎咸朋反复用E=mc2来类比特斯拉的思维方式:"比如说我们造原子弹,E=mc2这个质能方程——是使用聚变还是使用裂变,我觉得这是后来的东西了。本质思想是说物质和能量今天可以转换——这个东西是先想到的。"特斯拉先想到了"纯视觉+前融合"的本质思想,然后再用Transformer等具体技术实现。
这是自动驾驶行业持续多年的核心路线之争。郎咸朋从信息量的物理本质给出了清晰的分析。
郎咸朋的回答尖锐而深刻:
他的隐含逻辑是:那些坚持激光雷达的L4公司(Waymo、Cruise、百度等),恰恰是没有做端到端的公司。它们还在用上一代的模块化方法,用激光雷达提供的精确距离信息来弥补算法能力的不足。而当端到端模型足够强大时,从视觉中提取距离信息的能力已经足够。
郎咸朋将自动驾驶的发展本质概括为从"做功能"到"做能力"的范式转换——他称之为从"软件1.0"到"软件2.0"。
"软件1.0"是用产品需求定义(PRD)的方式做自动驾驶:定义场景、编写规则、覆盖案例。"软件2.0"则是让系统拥有自我迭代和学习的能力,不再是人一行行教机器怎么做。
有创业公司试图用"严格的手段"定义所有场景——天气(晴天/大雨/中雨/小雨)、车流密度、光照条件、自车速度等,每个因素都是变量。但郎咸朋指出:"你这个小雨和中雨怎么分?是看你一分钟掉几个雨点吗?"这些变量相乘后产生上千万种组合。
修改一个场景的规则可能会破坏另一个场景的表现。"你可能写了一个晴天路况下的右转,但你可能忽略了车流量大的下雨天的右转——可能又不太一样了。"
"你再怎么想再怎么定义,你也想不到半路会穿出一个马来。"——路面塌陷、突发异物等场景无法预先定义。而人类遇到未知情况时可以推理应对,功能式的自动驾驶做不到。
从"人去一行行编码教机器怎么做",转变为"让系统有自我迭代和学习的能力"。郎咸朋用类比说明:
端到端(End-to-End)是自动驾驶第三个关键节点,也是郎咸朋认为"非常大的突破和飞跃"的技术范式。
传统自动驾驶系统分为感知-决策-规划-控制等模块。每个模块之间存在信息衰减:
感知结果"可能对,可能错,有可能信息丢失,有可能掺杂错误的感知结果"——带着瑕疵传给下游。
收到的"已经不是一手信息了",在此基础上做出的规划"可能又有些问题"。
"这个偏5厘米,这个偏5厘米,最后叠加出来你偏15厘米。"——15厘米就是路面一条白线的宽度,可能导致车辆压线或偏离车道。
让输入和输出之间尽量减少过程,让所有模块都用一手信息去生成最后的驾驶路线和行为。"我看到这张图,过了这个模型之后,直接给你说——我要这么开。"不再经过感知-翻译-决策-再翻译的多次中转。
郎咸朋详细解释了大模型(特别是Transformer架构和Tokenizer技术)为何是端到端落地的关键使能技术。
在此之前,图像和文字被认为"很难被学习"——因为没办法将它们表达成"便于学习训练的方式"。Tokenizer技术解决了这个问题:一旦能被编码(转化为Token),就能被学习。
郎咸朋的类比非常精确:很多人早就想到"让车自己学会开车"——这是端到端的理念。但没有实现手段。大模型(特别是Tokenizer + Transformer)提供了"质能方程"——让这个理念变成可执行的方案。之后的模型参数选择(7B还是70B)、训练策略(预训练+RLHF等)都是"用裂变还是聚变"的技术细节问题。
理想的端到端研发过程堪称一部战争片——从2024年3月被李想拍桌子怒批,到6月第一次试车震惊创始人,整个过程高度戏剧化。
李想对自动驾驶团队拍桌子、情绪激烈。核心问题:自动驾驶表现不如业界头部水平,销售因此丢单——"推门进了对面的问界"。有团队成员不服气,说"看指标我们跟华为、小鹏也非常接近"。郎咸朋的判断:"你跟别人做的差不多,你是追不上的。你必须比别人好很多才有可能扭转局面。"
180人搬到中关村电子大厦进行封闭开发。此前理想的有图/无图方案团队已有1000人。
封闭开发仅半个多月,郎咸朋从中关村到北京交通大学的一段路——"竟然能开起来。才一个月时间。我能完全确定这里边没有用一行规则。"
李想带着经纬张颖做副驾一起试车。"开了一个多小时,可能终于就接管了一次还是两次。"李想越开越兴奋,开始大谈AI和大模型。试车后李想"完全就是接受和认可"。当时模型训练数据不到100万clips。
端到端版本正式交付用户。代码量从有图/无图版本的200万行缩减到不到20万行——减少了90%。
纵向加减速(跟车起步、制动停车)是自动驾驶体验中用户感知最直接的环节。人类驾驶时的制动是"前快后慢"——先踩,快停时抬一下——这种细微的控制在规则驱动时代怎么调都调不好。但端到端模型在半个月的训练后"就能把之前所有人类规则全打败"——因为它直接从人类驾驶数据中学到了这种细腻的控制感。
理想的自动驾驶系统不止端到端一个模块,而是端到端 + VLM + 世界模型的完整架构。
世界模型用于评测这套系统——相当于给AI驾驶员出考卷。
以前的测试方式是"衡量功能是否达到设计标准"——但现在"没有产品设计了",不能"拿前朝的剑斩明朝的官"。理想参考了人类能力测试的方式——考试,设计了安全、舒适、导航、合规等五个维度的题目体系。
| 维度 | 设计 |
|---|---|
| 题目类型 | 基础题 + 难题 + 拔高题,覆盖各考点 |
| 最低标准 | 安全类题目必须全对;舒适、效率等可以有容错 |
| 成长要求 | 每个版本分数不能比上个版本低,否则不发布 |
| 真题 | 用3DGS(高斯泼溅)从真实场景重建 |
| 模拟题 | 用Diffusion模型生成变体(如不同车流量的右转场景) |
| 防背答案 | 每次考试混合真题和模拟题,避免"背过答案" |
郎咸朋提出了一个颠覆传统认知的观点:L3不是L2的延长,而是L4的先导。
大多数人认为L2不断加场景、修bug就能逐渐升级到L3——"L2加加加就L3了"。但郎咸朋明确否定:L2的场景设计不完、解决不好、改一个会影响另一个。L3和L4在技术路线上是同一体系(数据驱动+模型学习),与L2(规则+功能设计)是完全不同的方法论。
郎咸朋在2018年面试理想时,李想问他"做自动驾驶最重要的是什么",他的回答是:数据。
理想采集的是车外数据,不涉及用户个人数据(人脸、声音等属于舱内数据)。回传时人脸和车牌都会模糊处理——这得益于郎咸朋在百度做街景时的专业积累。
郎咸朋详细回忆了自己在百度的经历,揭示了中国自动驾驶行业的真正起源故事。
加入百度地图团队做百度街景。当时竞争对手是已上线的腾讯街景。"现在我还是很自豪地说,百度地图打开街景,你看到的所有图片都是用我当年写的代码处理的。"
宝马中国研发团队需要高精地图来测试自动驾驶。评估了百度、高德、四维三家,选择了百度——"因为觉得百度技术能力最优秀"。四个人的小组成立:百度研究院的李凯、陶吉,地图团队的郎咸朋和另一人。"一边服务宝马,一边学习宝马。"
用百度自有测绘资质和采集车,按宝马要求把整个北京的高精地图做完。宝马为此还提供了两辆测试车——后来2015年上了北京五环的就是这两辆。
深度学习研究院(IDL)做偏L4/偏研究的方向;郎咸朋团队做偏量产/偏车厂对接的方向——"一个像Waymo那套东西,一个像特斯拉这套东西"。
很多人知道百度2015年在乌镇演示自动驾驶,但很少人知道这个项目的真正起源是宝马中国的一个研发需求。高精地图团队和自动驾驶团队最初是因为服务宝马而产生深度合作的。李彦宏将任务交给于凯,于凯找到地图团队,当时的地图负责人是顾维灏(现在豪末的CEO)。
2018年到2021年,理想在自动驾驶上的投入极少——这背后有清晰的战略节奏逻辑。
认真讨论自研方案。郎咸朋主动找李想:"咱不能被别人牵着鼻子走。"
李想主动打电话:"郎伯你这事你有决心没有?"郎咸朋:"我来理想三年就等这个时候了。如果真做不出来,我就引咎辞职。"李想:"只要你有信心,我就支持你。"放下电话,立刻拉微信群,所有合伙人在群里宣布:自动驾驶自研,郎伯负责。
召开自研启动大会。全公司调配资源,约100多人参与。
理想的自动驾驶路径是有图→轻图→无图→端到端,每一步都被外界批评"落后于竞品"。但郎咸朋认为这种"看似笨的方法其实是最捷径的方式":
在所有新势力中,理想是自动驾驶投入最晚、起步最慢的——2018-2021年基本没有投入,2022年才开始自研。但也正因此,他们在技术认知上没有太多历史包袱,能够更彻底地拥抱端到端范式。郎咸朋坦言"我们拼不过华为几千人,也拼不过楼天成那样的天才少年"——但他们有数据和算力的优势,且"看准了就赶紧去做"。
郎咸朋在访谈最后透露了理想的更大野心——做自己的基座大模型(MindGPT)。
郎咸朋在访谈中手绘了一张架构图:
最底层是MindGPT基座模型——一个多模态(视频、声音、文字、图像)的超大模型,涵盖公司所有数据(自动驾驶数据、座舱数据、工厂数据、互联网数据)。在此基础上生长出:自动驾驶(VLA)、理想同学(座舱交互)、智能商业、智能工业等所有应用。
举例:自动驾驶遇到一个掀起的井盖,目前需要专门收集井盖数据来训练。但如果有基座模型,"它对整个物理世界有基本的理解——知道这是井盖、这是窟窿、这是危险区域"——不需要单独为每个领域训练独立模型。
| 数据点 | 具体内容 |
|---|---|
| 自动驾驶三大节点 | 高精地图+激光雷达 → BEV+Transformer → 端到端 |
| 百度测试车成本 | ~500万人民币/辆(2014年) |
| Velodyne 64线价格 | 五六十万人民币/台 |
| 特斯拉传感器+芯片全套 | ~1000美元/车 |
| 特斯拉算力 | 72 TOPS x 2 = 144 TOPS(ASIC) |
| 理想当前算力 | 两个Orin X = 500+ TOPS |
| 摄像头分辨率 | ~800万像素(4K x 2K) |
| 激光雷达分辨率 | 128线,约为摄像头的1% |
| 中国道路里程 | 高速30万km + 普通970万km |
| 理想端到端代码量 | 从200万行 → 不到20万行(减少90%) |
| 理想自驾团队 | 800+人(特斯拉200-300人) |
| 理想搭载车辆 | 100万+辆 |
| L3 MPI目标 | 综合200km/次(高速350km,城市50km) |
| 安全性目标 | 十倍于人类驾驶 |
| 封闭开发 | 180人,2024年4月15日启动 |
| 第一版端到端试车 | 启动后约半个月(2024年5月初) |
| VLA预期 | 1-3年内出成果 |
| 宝马合作 | 2013年底启动,4人小组 |
| 自研启动 | 2022年大年初一决策 |
| 历代方案路径 | 有图 → 轻图 → 无图 → 端到端(1年内完成) |
郎咸朋梳理的三个关键节点本质上都是"升维":第一次从一维雷达信号升维到高精地图+激光雷达的三维表示(但仍是轨道思维);第二次从单摄像头后融合升维到BEV前融合(解决了感知一致性问题);第三次从模块化升维到端到端(解决了信息衰减和场景穷举问题)。每一次升维都是用更高维度的方法论替代低维度的补丁式修复——这个模式对所有技术领域都有启发。
郎咸朋多次强调"在特斯拉身上学到最好的一点就是用升维的方法解决问题"。高精地图有问题→不修补地图,而是用纯视觉;后融合有问题→不优化融合算法,而是用BEV前融合;模块化有问题→不修复模块间传递,而是用端到端。这意味着:如果你正在一点点修补一个系统的缺陷,你可能需要的不是更好的修补方法,而是一个更高维度的重新思考。
软件1.0思维——定义场景、编写规则、逐一覆盖——在AI时代全面过时。当场景的组合爆炸超过人类穷举能力时,唯一的出路是让系统自己学习能力。这个转换正在编程(Copilot/Cursor)、设计(Midjourney)、搜索(Perplexity)等领域同步发生。郎咸朋用的"不是做软件了,是做模型了"这句话,可能是对AI时代最精炼的技术哲学总结。
理想2018-2021年几乎没有投入自动驾驶,被认为是"三家新势力中最落后的"。但回头看,这恰恰让理想避开了在过时范式上的巨大沉没成本。小鹏早期投入的"高精地图+激光雷达"体系后来大部分被废弃;华为的几千人团队很多在做规则优化。理想在2024年才正式进入端到端,但几乎没有历史包袱——这是一个"后发优势"在AI时代被放大的典型案例。
供应商要求理想"解散自研团队,把所有研发都交给我们"——这不是个别现象,而是整个汽车行业Tier 1体系在智能化时代的结构性危机。当软件(AI)可能占到汽车价值的50%时,把核心能力外包给Tier 1等于放弃未来一半的价值创造权。李想的"老子就算死也要站着死"不是意气用事,而是对行业终局的清醒判断。
"人可以挖,算力有钱能买,但数据挖不来买不到。"郎咸朋2018年面试时的这个判断,在六年后被完全验证。理想100万+在售车辆的实时驾驶数据是端到端成功的基础——端到端模型不到100万clips训练数据就能跑通,而这些数据只有拥有大量量产车的公司才能获得。这解释了为什么"几条枪十几个人"的自动驾驶创业公司即使有更聪明的算法也难以竞争。
半个月训练的端到端模型在纵向加减速上"打败了之前所有人类规则"——这个细节极其有说服力。人类驾驶的制动感觉("前快后慢、快停时抬一下")是极其微妙的控制,用规则"怎么调也调不好"。但模型直接从人类驾驶数据中学到了这种细腻的body language。这证明了端到端不是一个理论概念,而是已经在最基础的驾驶体验上产生了质的飞跃。
郎咸朋描绘的MindGPT架构——一个统一的基座模型支撑自动驾驶、座舱交互、智能工业等所有应用——本质上是在说:理想的终局不是一家汽车公司,而是一家以物理世界数据为核心的AI公司。"将来的智能一定是触类旁通的"——这个判断如果成立,意味着未来的汽车公司和机器人公司之间的界限将消失,取而代之的是"拥有物理世界基座模型"的AI企业。