刘先明是小鹏汽车自动驾驶中心的第四任负责人,接替李力耘,于2025年10月9日正式上任。这是他上任后首次接受专访。他的职业轨迹横跨学术、大厂研究院和自动驾驶创业公司,形成了一条独特的"使命驱动型工程师"路径。
从传统Computer Vision入行,"那个时候大家还叫Computer Vision,还没有叫AI"。经历了从手工特征到Deep Learning的完整变迁。
参与高空无人机、激光通信、卫星图像分析。曾用不到两天时间完成海地地震后的人口与建筑分布数据分析,为Red Cross提供救援支持。实习加正式工作约三年半。
在Facebook期间与开明(Kaiming He)共事,"基本上能想到Facebook在那个时间的Meta就是FAIR的基本的主要的research paper都是有他的名字"。
加入Cruise时正值其成立Cruise AI部门,全面AI化。亲历了"continuous learning machine"理念的实践。Cruise基础设施拥有数百人的Infra团队。
与何小鹏在硅谷办公室面谈一小时后当场决定加入。最初负责世界基座模型,2025年10月接任自动驾驶中心负责人。
当时美国成熟的Robotaxi公司只有Waymo和Cruise两家,"恰好那个时候Cruise又是老二,加入老二逆袭的故事永远是一个让人觉得非常兴奋的故事"。这一选择模式后来在加入小鹏时重现——选择一个有潜力但需要突破的平台。
2024年1月,刘先明在硅谷办公室与何小鹏("大师兄")面谈了一个小时。3月正式入职。这次面谈的核心问题只有一个:
刘先明的核心判断是:如果Physical AI和自动驾驶的未来趋势是大规模数据、快速迭代和Infrastructure建立数据闭环体系,那"一定要去找一个主机厂,因为只有主机厂才有这样的数据,才有可控的数据链路"。这一判断贯穿了他在小鹏的全部技术决策。
刘先明在CVPR演讲中系统梳理了自动驾驶的技术演进史,将其划分为四个清晰的阶段:
| 阶段 | 名称 | 时间 | 核心特征 | 瓶颈 |
|---|---|---|---|---|
| 1.0 | Software 1.0 | ~2009-2017 | 激光雷达聚类 + 传统数学最优化规控 | 纯规则天花板 |
| 1.5 | Software 1.5 | ~2017-2020 | 一半模型(感知检测/分割)+ 一半规则 | 规则代码成为上限瓶颈 |
| 2.0 | Software 2.0 | ~2020-2024 | 端到端神经网络,数据迭代驱动 | 网络结构与数据量的参数规模限制 |
| 3.0 | Software 3.0 | 2024- | VLA/VLM大模型,更大芯片算力 + 更多参数 + 更多数据 | 安全下限、泛化性验证 |
刘先明将2017年前后的阶段命名为"Software 1.5"——"你是一半的模型加上一半的规则,但其实它是有一个上限的,你的模型做的再强,但你会发现你最终的上限是在那些规则代码上"。这一命名精准概括了"混合架构"的本质矛盾。
本期访谈最核心的技术论点——刘先明主导了小鹏VLA模型中拆除Language中间层的决策,这一做法在业界属于反共识的激进路线。
张小珺提到理想汽车使用DeepSeek开源模型,L在其架构中占重要位置。刘先明明确表示"我们没有这么用"。小鹏曾经尝试过类似方案,但发现"它并不能让你达到随心所欲去增大数据量的效果,因为中间始终有Language去作为你的Supervision"。他进一步引用DeepSeek的OCR论文作为支撑论据——"没有必要把一个图像对齐到文字的token space里面"。
拆L的决策发生在2025年上半年到年中。团队内部讨论了一下,"好像也没有讨论太久,就觉得好像就应该这么做"。关键验证结果:拆掉后基本没有明显回落,"上来就看到一个明显的scaling、明显的结果的提升",原因是数据量足够大(27万-30万小时真实驾驶数据)。
刘先明反复强调的核心信念是"简单就是美"——世界上好的东西一定是简单的。这一哲学贯穿了他在小鹏的所有技术决策。
内部有很多debate,但何小鹏说"对长期来说一定是更有利的一件事情"。
最难拆的部分——阻力最大,因为"传统方法能短期内让系统走上正轨"。为此拍过桌子。
感知和Planning合到一块做端到端。X14/540车型时期完成切换。
"反paper里面的常识",但结果验证成功。
"现在实际上跑的版本就是模型直接输出控制信号了"——包括ETC等场景,全部拆掉。
刘先明明确引用了Rich Sutton的"The Bitter Lesson"——"长远看,我们试图构建以我们自以为是的思维方式相似的系统是行不通的,手工特征在短期来看都非常work,但长期看都是人工智能的一个回撤"。他的所有"拆"的决策本质上都是这一原则的激进实践。
刘先明透露了小鹏VLA的技术架构细节,并对行业流行术语做了一次"去魅"。
输入:Vision + Language联合语料。输出:Action(连续控制量)。中间推理:Latent COT——不用文字做Chain of Thought,而是让模型在隐空间中做推理,通过Diffusion/Generation看它生成什么样的视频和Bird-Eye View图,理解模型对世界的理解程度。
| 维度 | VLA 1.0 | VLA 2.0 |
|---|---|---|
| Language角色 | 中间监督信号,Bottleneck | 仅作为输入的一部分,不做中间监督 |
| COT方式 | 文字COT或无COT | Latent COT(隐空间推理) |
| 数据使用效率 | 受限于Language Supervision | 自监督,数据可无限流入 |
| Scaling效果 | 有瓶颈 | 明显更好 |
| 上车状态 | 已量产 | 已上车,"非常惊艳" |
拆规则是刘先明在小鹏做过的"阻力最大"的决策,也是最能体现其"头铁"风格的战役。
大约在2024年的X14/540车型时期,模型性能突然超过了规则系统:
张小珺提到理想汽车通过"在公司里面发了一场大火"才将规则算法拿掉。小鹏的路径更偏渐进式——等待模型在某个时间点性能超过规则,然后自然切换。刘先明形容为"所有人觉得我们希望这个东西发生,但他需要时间。等到它发生的那一刻、超越那一刻,就让它顺其自然的去发生"。
刘先明透露小鹏已在上一代架构上验证了Scaling Law,新架构下效果更好。
主机厂的核心优势在于数据闭环:车跑在路上有Shadow模式和用户接管数据,已有的0到1系统能告诉你"什么数据是之前没有见过的Corner Case"。对数据分布做分析统计,用模型判断"什么数据应该Trigger上来"。"今天有一个模型出现问题,可以自动化找到数据分布的single of the point,迅速让车队明天就收上来数据"。
VLA 2.0的泛化性"明显好很多"。在广州城中村小路、不同城市、不同天气条件下表现良好。刘先明特别提到:
小鹏在十周年(2024年)时宣布自己是"一家AI企业"。刘先明对这一定位做了深入解读。
过去:分别做机器人、做车、做芯片,资源"像撒芝麻一样全部分到每个人头上"。
集中资源、优秀团队、大量Infrastructure做平台做系统,合力做物理AI这一件事。核心模型团队在合。
当模型达到好的状态,在上面spawn出不同的application——"当你有一个很强大的模型,并不需要很多的人就可以做一个应用"。业务线上已开始分化。
刘先明透露了一个关键细节:当他去年向何小鹏提出要做物理AI大模型时,"没有任何demo,没有任何结果",只是问需要多少GPU多少钱。何小鹏的回答是一个字——"好"。"你很难去找到一家企业的一号位老板,有这样一个视野,想去做这件事情并且能看到价值。"
访谈时间(2025.10.30)距刘先明上任仅三周。他对这段极短的时间做了坦诚的复盘。
"坊间传说"他不睡觉或每天只睡四个小时。实际晚上通常工作到两三点,早上七八点。他的带宽管理方式是:同一时间段只关注两三件事,涉及几个人到十几个人的小团队,快速沟通做决策。
刘先明基于在Facebook、Cruise和小鹏的经历,提出了AI企业的组织方法论。
"大家可能有很多误区,就是说AI是不是某个人一拍脑袋想到什么东西。但它一定是个严格体系化的东西。"技术突破自下而上,但需要自上而下的北极星目标和合理的时间预期。上面有一小撮人做核心创新,背后是步调统一、节奏紧凑的大规模工程体系在支撑。
| 要素 | 描述 |
|---|---|
| 集中化小型团队 | 核心模型由少数人做,用足够多资源支持。不是散布天才做各种创新的互联网模式。 |
| 极度扁平 | 不设层级,lead直接写代码,PhD可以说服全团队。 |
| 重视工程/Infra | 第一件事是建Infra团队。数据能力、训练稳定性、系统效率是一切的基础。 |
| 长线考核 | 不能半年一reorg。AI需要从头造体系,短周期考核催生急功近利。 |
| 容忍回退 | 全面AI化可能短期回退,但上限更高。必须能接受回退和delay。 |
| 正向研发 | 不是"给你报一个问题去解决它"(逆向),而是从统计性指标出发做breakdown找问题(正向)。 |
刘先明透露了小鹏在自动驾驶L4上的明确时间表。
稳定性、Infrastructure、Scaling Up是第一优先级。
验证prototype,寻找涌现效应和规模化效应。
自动驾驶的产品化部署是主要KPI。
不同市场、不同产品形态、不同业务线上有明确收益。同时继续探索下一代。
张小珺提到地平线余凯博士的观点——"未来主机厂不会自研自动驾驶,应该交给供应商"。刘先明明确反驳。
刘先明判断国内智能驾驶"好像还没有代际差"的原因是"大家都在准备"。很多厂商会在2025年底和2026年初推出下一代架构,"应该很快就会有代际差出来"。小鹏"会是其中之一,也一定是会走在最前面"。
作为前Meta员工,刘先明对Meta为什么"AI一直做的不太好"做了犀利的内部视角分析。
刘先明认为Google的真正变化发生在"Brain回来之后"。这暗示了一个关键洞察:AI组织的成功不仅依赖文化调整,还需要一个核心灵魂人物回归(Jeff Dean/Demis Hassabis)来重塑组织方向。这也侧面解释了为什么何小鹏亲自推动AI转型对小鹏如此重要。
从北美回国到深圳企业工作,刘先明表示"整个团队对我还是挺照顾的,给我很多容忍度"。他与何小鹏直接汇报,而非通过制造业体系(如王凤英)。这一汇报线本身就体现了AI在小鹏组织中的特殊地位。
| 关键人物 | 角色/关系 |
|---|---|
| 何小鹏(大师兄) | 小鹏汽车创始人,刘先明直接汇报对象,"技术直男"风格 |
| 开明(Kaiming He) | Facebook FAIR同期,一人贡献了主要research paper |
| 谷俊丽/吴新宙/李力耘 | 小鹏自驾前三任负责人 |
| 余凯 | 地平线创始人,提出"主机厂不应自研自驾"的观点 |
刘先明的核心方法论不是"加什么"而是"拆什么"——拆激光雷达、拆规控规则、拆端到端中间结构、拆Language。这与深度学习领域的趋势一致:ResNet拆掉了梯度消失问题的旧解法,Transformer拆掉了RNN的序列依赖,GPT拆掉了任务特定的fine-tuning。真正的技术突破往往是做减法而非加法。但这要求工程师拥有反常识的勇气——在短期表现可能回退时坚持做正确的事。
Language在数字AI中是核心能力,但在物理AI中可能恰恰是最大的障碍。这一洞察的深层含义是:人类的语言是对物理世界的高度压缩和离散化表达,当AI需要直接与连续的物理世界交互时,强行通过语言做中间桥梁反而引入了信息损失。这与何小鹏在ep143中提到的"物理AI和数字AI是完全不同的方法论"形成了完美的技术注脚。
刘先明揭示了一个被行业忽略的事实:自动驾驶的数据收集不仅需要规模,更需要"知道什么数据有用"的能力。没有0到1的基础系统,就无法判断Corner Case;没有车队的Shadow模式,就无法触发有效数据回收。这意味着供应商即使获得了主机厂的数据访问权,也难以建立等效的数据飞轮,因为数据的价值判断本身依赖于已有系统的能力水平。
Meta的"半年周期"催生了互联网时代的极致效率,却成为AI时代的结构性障碍。小鹏面临的挑战恰好相反——作为制造业企业需要向AI组织转型,但制造业的"质量/成本"文化同样不适合AI的"容忍回退/接受不确定性"需求。刘先明的解决方案是让AI团队在组织上独立于制造业体系(直接向何小鹏汇报),但这种特殊安排能否在组织规模扩大后持续,是一个未解的问题。
刘先明描述的"分-合-分"组织演进路径,与OpenAI从研究到产品的路径高度一致:集中力量做出强大的基座模型(合),然后在上面快速长出各种应用(分)。关键差异在于:OpenAI的"分"是在数字世界(API、应用),而小鹏的"分"是在物理世界(不同车型、机器人、海外市场)。物理世界的"分"天然更复杂,因为每一个应用都涉及硬件适配、安全认证和本地法规。
Waymo通过激光雷达+两段式架构实现了商业化落地(旧金山每周25万订单),但刘先明坐过Waymo后"非常不甘心"。其技术判断是:Waymo的当前架构是"更高级的缝合怪",难以在AI层面做到极高强度的泛化。小鹏押注的是纯视觉+大模型的Scaling路线,认为同一架构可以通过Scaling解决L4问题。这两种路线的胜负可能要到2027-2028年才能见分晓。
小鹏自驾四任负责人的更替轨迹揭示了一个关键信号:每一次换帅都对应着技术路线的重大转折。刘先明的上任标志着小鹏从"把现有技术做好"(优化规则系统、改善端到端)转向"追求根本性突破"(纯模型控车、L4)。他自述的风格——"我不是researcher,我是engineer"——与这一阶段的需求完美匹配:当技术路线已经明确(简化+Scaling),需要的不是探索新方向,而是用工程能力把已知的正确方向推到极致。
刘先明提到小鹏正在训练的"图灵模型"——"不一定是语言模型"的基座模型。这可能是小鹏在物理AI领域最大的未公开赌注:一个不以语言为基础的、原生多模态的基座模型,直接面向物理世界的感知和控制。如果成功,这将从根本上改变"先做语言模型再做多模态"的行业范式,使小鹏从"使用AI工具的车企"真正进化为"定义AI范式的物理AI公司"。