← 返回目录
深度研究 Deep Dive

Language是毒药:刘先明的自动驾驶方法论

#120 小鹏新上任的刘先明首次访谈
2025.10.30 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 人物画像:从Facebook到Cruise到小鹏
  2. 加入小鹏:一小时面谈与使命驱动
  3. 自动驾驶技术演进四阶段
  4. 核心决策:拆掉Language
  5. "简单即美"的工程哲学
  6. VLA架构与世界模型
  7. 拆规则:从端到端到纯模型控车
  8. Scaling Law验证与数据引擎
  9. 从自动驾驶企业到AI企业的转型
  10. 换帅:上任三周与组织简化
  11. AI企业的组织范式
  12. L4路线图与安全下限
  13. 主机厂 vs 供应商:数据护城河
  14. Meta的教训与AI组织哲学
  15. 关键数据汇总
  16. 启示与延伸思考

一、人物画像:从Facebook到Cruise到小鹏

刘先明是小鹏汽车自动驾驶中心的第四任负责人,接替李力耘,于2025年10月9日正式上任。这是他上任后首次接受专访。他的职业轨迹横跨学术、大厂研究院和自动驾驶创业公司,形成了一条独特的"使命驱动型工程师"路径。

2008年起 传统CV与Machine Learning

从传统Computer Vision入行,"那个时候大家还叫Computer Vision,还没有叫AI"。经历了从手工特征到Deep Learning的完整变迁。

2015-2018 Facebook Connectivity Lab

参与高空无人机、激光通信、卫星图像分析。曾用不到两天时间完成海地地震后的人口与建筑分布数据分析,为Red Cross提供救援支持。实习加正式工作约三年半。

2016年 UIUC PhD毕业

在Facebook期间与开明(Kaiming He)共事,"基本上能想到Facebook在那个时间的Meta就是FAIR的基本的主要的research paper都是有他的名字"。

2018/2020-2024 Cruise

加入Cruise时正值其成立Cruise AI部门,全面AI化。亲历了"continuous learning machine"理念的实践。Cruise基础设施拥有数百人的Infra团队。

2024年3月 加入小鹏

与何小鹏在硅谷办公室面谈一小时后当场决定加入。最初负责世界基座模型,2025年10月接任自动驾驶中心负责人。

刘先明
我这个人做事一直有一种使命感,也好还是兴趣驱动。当时看到卡车司机一开开几个小时车,经常会一分钟两分钟困着就闭上眼睛,他们也有自己的家人,有自己的老婆孩子在家里等着他们。所以那个时候觉得做自动驾驶是有意义的,真的是能改变人的生活,能去救人。

选择Cruise的逻辑

当时美国成熟的Robotaxi公司只有Waymo和Cruise两家,"恰好那个时候Cruise又是老二,加入老二逆袭的故事永远是一个让人觉得非常兴奋的故事"。这一选择模式后来在加入小鹏时重现——选择一个有潜力但需要突破的平台。

二、加入小鹏:一小时面谈与使命驱动

2024年1月,刘先明在硅谷办公室与何小鹏("大师兄")面谈了一个小时。3月正式入职。这次面谈的核心问题只有一个:

刘先明 转述何小鹏的提问
我想做下一代,我想去远远甩开当前的对手这一代,我们应该怎么做?

面谈的关键发现

  • 不像面试,更像是"我要去做这件事情,要怎么去做"的战略讨论
  • 何小鹏需要找到一个能理解他、把事情做出来的人;刘先明需要找到一个支持他、理解他的老板
  • "他其实一点架子都没有,坐下来开始给你讨论问题,你发现你说什么他真的懂"
  • 出来后直接跟HR说"准备offer吧"

为什么选择主机厂而非继续Robotaxi

核心逻辑

数据闭环只有主机厂能实现

刘先明的核心判断是:如果Physical AI和自动驾驶的未来趋势是大规模数据、快速迭代和Infrastructure建立数据闭环体系,那"一定要去找一个主机厂,因为只有主机厂才有这样的数据,才有可控的数据链路"。这一判断贯穿了他在小鹏的全部技术决策。

在Cruise学到的两个核心方法论

极致的简化 + 大规模Infra

  • Cruise拥有所有自驾企业中最大规模的Infra团队(数百人)
  • 包含Data Infrastructure、Training Infrastructure、整个软件分析链路
  • 这一经验直接影响了他在小鹏的第一优先级:建Infra

Continuous Learning Machine

  • 内部愿景:"所有人躺在夏威夷的海滩上,等着Cruise Core金币从树上掉下来"
  • 数据迭代解决一切问题,实现商业化
  • 这一理念在当下已成为Physical AI企业的主流方向
刘先明
自动驾驶做了这么多年,我感觉我看到了一条比较明确的路,一条曙光。如果最终证明我错了,我接受。但是如果证明我是对的,但是我好像不在这个赛道上,这个事情跟我没有关系,我可能会受不了。

三、自动驾驶技术演进四阶段

刘先明在CVPR演讲中系统梳理了自动驾驶的技术演进史,将其划分为四个清晰的阶段:

阶段名称时间核心特征瓶颈
1.0Software 1.0~2009-2017激光雷达聚类 + 传统数学最优化规控纯规则天花板
1.5Software 1.5~2017-2020一半模型(感知检测/分割)+ 一半规则规则代码成为上限瓶颈
2.0Software 2.0~2020-2024端到端神经网络,数据迭代驱动网络结构与数据量的参数规模限制
3.0Software 3.02024-VLA/VLM大模型,更大芯片算力 + 更多参数 + 更多数据安全下限、泛化性验证
自动驾驶技术演进四阶段:模型占比与规则占比
关键洞察

Software 1.5的名称来源

刘先明将2017年前后的阶段命名为"Software 1.5"——"你是一半的模型加上一半的规则,但其实它是有一个上限的,你的模型做的再强,但你会发现你最终的上限是在那些规则代码上"。这一命名精准概括了"混合架构"的本质矛盾。

云端工厂模式

从车端到云端的必然逻辑

  • 如果Scaling is working,需要更多数据、更多参数、更多训练量
  • 车端硬件一定支撑不了如此大的模型
  • 解决方案:云端训练巨大模型,通过蒸馏、量化、减枝部署到车端
  • 形成一个Factory——训练好后不停generate不同的模型,deploy到不同硬件
  • "这是目前自动驾驶最为可靠的一种前进方式"

四、核心决策:拆掉Language

本期访谈最核心的技术论点——刘先明主导了小鹏VLA模型中拆除Language中间层的决策,这一做法在业界属于反共识的激进路线。

为什么Language是"毒药"

刘先明
这是最简单最直接的一个路径。但实际上这么做,它一定会带来像一种毒药一样,就是你会越来越重的去依赖于它。

Language作为中间层的四大问题

  • 数据效率瓶颈:Language作为监督信号需要人工标注或模型生成后人工质检,无法实现纯自监督的数据流
  • 离散空间与连续空间的矛盾:物理世界的输入是连续视觉信号,输出是连续控制量(纵向加速度、方向盘转角),Language是离散的Tokenized空间,中间翻译过程低效
  • 冗余膨胀:加入语言后"增加了几百个token,但只增加了很少的信号",设计上不make sense
  • 模态混淆:Language依赖过高导致输出Action不灵活,模态区分度差——"拆掉之后这个效果好了非常多"

传统VLA路径(使用L)

  • Vision + Text Prompt输入
  • 输出Language Token作为监督信号
  • Language Token再Decode为Trajectory
  • 需要生成Supervision(人工或模型标注)
  • 上瘾性依赖——"能力不是你自己的"

小鹏路径(拆掉L)

  • Vision + Language联合输入
  • 直接输出Action(连续控制量)
  • 自监督学习,数据流无需人工干预
  • 用Latent COT替代文字COT做中间推理
  • "像机器一样,数据作为燃料流进来"

与理想汽车路线的差异

张小珺提到理想汽车使用DeepSeek开源模型,L在其架构中占重要位置。刘先明明确表示"我们没有这么用"。小鹏曾经尝试过类似方案,但发现"它并不能让你达到随心所欲去增大数据量的效果,因为中间始终有Language去作为你的Supervision"。他进一步引用DeepSeek的OCR论文作为支撑论据——"没有必要把一个图像对齐到文字的token space里面"。

决策时间线

拆L的决策发生在2025年上半年到年中。团队内部讨论了一下,"好像也没有讨论太久,就觉得好像就应该这么做"。关键验证结果:拆掉后基本没有明显回落,"上来就看到一个明显的scaling、明显的结果的提升",原因是数据量足够大(27万-30万小时真实驾驶数据)。

五、"简单即美"的工程哲学

刘先明反复强调的核心信念是"简单就是美"——世界上好的东西一定是简单的。这一哲学贯穿了他在小鹏的所有技术决策。

刘先明
我读PhD的时候,我老板就会经常说一句话——简单就是美。世界上好的东西都一定是简单的。往往技术突破不是一个很复杂的过程。你直觉上觉得它是对的,然后你敢去踏出那一步,并且像疯子一样去推规模,发现它就是work。

拆掉一切的路径

2024年中 拆激光雷达

内部有很多debate,但何小鹏说"对长期来说一定是更有利的一件事情"。

2024年底 拆规控规则

最难拆的部分——阻力最大,因为"传统方法能短期内让系统走上正轨"。为此拍过桌子。

2024年底-2025年初 端到端整合

感知和Planning合到一块做端到端。X14/540车型时期完成切换。

2025年上半年 拆Language

"反paper里面的常识",但结果验证成功。

2025年下半年 拆最后一张规则

"现在实际上跑的版本就是模型直接输出控制信号了"——包括ETC等场景,全部拆掉。

The Bitter Lesson的实践者

刘先明明确引用了Rich Sutton的"The Bitter Lesson"——"长远看,我们试图构建以我们自以为是的思维方式相似的系统是行不通的,手工特征在短期来看都非常work,但长期看都是人工智能的一个回撤"。他的所有"拆"的决策本质上都是这一原则的激进实践。

通用错误:为小数据加复杂性

当前行业的普遍误区

  • 为了让模型在小数据、小计算量下"看起来更好",往上面加了很多复杂东西
  • 加特定的loss function、加特定规则——本质是handcrafted reward function
  • "往往解决问题的方式就是让它变得更简单,用最原始的方法去解决问题"
  • 同样的问题也出现在强化学习中:用规则写的reward function让系统严重受制于规则

六、VLA架构与世界模型

刘先明透露了小鹏VLA的技术架构细节,并对行业流行术语做了一次"去魅"。

核心架构

小鹏VLA 2.0的训练方式

输入:Vision + Language联合语料。输出:Action(连续控制量)。中间推理:Latent COT——不用文字做Chain of Thought,而是让模型在隐空间中做推理,通过Diffusion/Generation看它生成什么样的视频和Bird-Eye View图,理解模型对世界的理解程度。

世界模型 = VLA + 生成理解

刘先明
我不太想去区分它是一个世界模型、一个VLA、还是一个什么什么模型。本质上是一样的。其实大家不用起那么多的名词,本质上做的东西都差不多。

VLA与世界模型的关系

  • 小鹏训练的是一个模型,不是分开做VLA和世界模型
  • 世界模型 = 对整个世界的生成与理解 + 推演能力
  • 把世界模型中计算复杂的Decoding部分砍掉 = 可直接部署上车的VLA模型
  • 保留中间推理和最终动作输出,就是VLA 2.0
  • 该框架可自然延伸到机器人等其他领域——"重要的是你有一套体系,可以使用不同数据来训练"
小鹏VLA架构:从世界模型到上车部署

从VLA 1.0到2.0的关键变化

维度VLA 1.0VLA 2.0
Language角色中间监督信号,Bottleneck仅作为输入的一部分,不做中间监督
COT方式文字COT或无COTLatent COT(隐空间推理)
数据使用效率受限于Language Supervision自监督,数据可无限流入
Scaling效果有瓶颈明显更好
上车状态已量产已上车,"非常惊艳"

Tesla FSD的关系

不谋而合

  • "我们跟他的路线要像,但不是传统意义上的借鉴"
  • 在Tesla在CVPR上分享后才发现"原来大家做的事情其实很类似"
  • "对的事情,真理可能就这么一条,大家最终可能都会踩在这个路上"
  • 共同面临的挑战:维度灾难——输入token数量很多,但输出空间极小

七、拆规则:从端到端到纯模型控车

拆规则是刘先明在小鹏做过的"阻力最大"的决策,也是最能体现其"头铁"风格的战役。

刘先明
外面讲的已经是共识了,其实很难。在企业里其实做还没有。当你真正有业务目标的时候,真的路上会出现事故的时候,是很难的。

拆规则的阻力

为什么内部反对

  • 模型某些情况表现不好时,自然反应是"加特定loss function或规则"——这是工程师的本能
  • 加规则短期有效,能让系统"走上正轨"
  • 但刘先明坚信:这与最终目标相悖——"你要不要能顶住压力不去做这件事情"
  • 为此"拍过桌子","开会的时候也说过很多不该说的话"

标志性转折点

大约在2024年的X14/540车型时期,模型性能突然超过了规则系统:

刘先明
我还记得特别清楚,当时有一段时间在测试的时候,测试员鼓掌。就是觉得"哇这个开成这样太好了"。

现在的状态

0
残余规则数量
100%
模型直接输出控制信号
包含ETC
此前依赖规则的场景也已拆除

理想与小鹏的不同路径

张小珺提到理想汽车通过"在公司里面发了一场大火"才将规则算法拿掉。小鹏的路径更偏渐进式——等待模型在某个时间点性能超过规则,然后自然切换。刘先明形容为"所有人觉得我们希望这个东西发生,但他需要时间。等到它发生的那一刻、超越那一刻,就让它顺其自然的去发生"。

八、Scaling Law验证与数据引擎

刘先明透露小鹏已在上一代架构上验证了Scaling Law,新架构下效果更好。

27-30万
单次训练数据量(小时)
30-40%
每季度数据增长率
~45亿
2025年AI与自动驾驶投入(元)

数据引擎的核心能力

数据飞轮

Corner Case数据的收集闭环

主机厂的核心优势在于数据闭环:车跑在路上有Shadow模式和用户接管数据,已有的0到1系统能告诉你"什么数据是之前没有见过的Corner Case"。对数据分布做分析统计,用模型判断"什么数据应该Trigger上来"。"今天有一个模型出现问题,可以自动化找到数据分布的single of the point,迅速让车队明天就收上来数据"。

数据质量 vs 数据规模的平衡

核心Know-How

  • Corner Case(非常规场景)是最难获取且最关键的数据
  • "我们现在也许能拿到99%的数据,但肯定还有1%"——不停把小数点向后挪
  • 希望当模型看到足够数据后产生涌现效应——开始做推理,解决剩余所有Case
  • 如果没有0到1的基础系统,收集的很多数据都是无效数据
  • 全部使用真实数据,非仿真数据
数据驱动飞轮:从收集到涌现

泛化性表现

VLA 2.0的泛化性"明显好很多"。在广州城中村小路、不同城市、不同天气条件下表现良好。刘先明特别提到:

刘先明
你可以明显看到这个模型训练,它没有你想象的那样海外或其他市场泛化性明显很差,其实反而很强。以前在旧金山觉得解决不了的问题,现在觉得很容易。

九、从自动驾驶企业到AI企业的转型

小鹏在十周年(2024年)时宣布自己是"一家AI企业"。刘先明对这一定位做了深入解读。

为什么是AI企业而非汽车企业

  • 小鹏做车、做机器人、做飞行汽车、做芯片——本质上做的是两件事:做芯片大脑 + 做跟物理世界交互的device/agent
  • 转型是"一个非常自然的过渡,而不是强行蹭热度"
  • AI是一个乘法因子(scaler),与硬件、芯片、制造共同构成小鹏的价值方程

"分-合-分"的组织演进

第一阶段:分

过去:分别做机器人、做车、做芯片,资源"像撒芝麻一样全部分到每个人头上"。

第二阶段:合(当前)

集中资源、优秀团队、大量Infrastructure做平台做系统,合力做物理AI这一件事。核心模型团队在合。

第三阶段:再分(未来)

当模型达到好的状态,在上面spawn出不同的application——"当你有一个很强大的模型,并不需要很多的人就可以做一个应用"。业务线上已开始分化。

自动驾驶企业的关注点

  • KPI:接管率、用户体验
  • "金屁股"测试:老板坐一趟觉得好就推
  • 优化目标只有产品体验
  • 传统研发方式

AI企业的关注点

  • 产品体验 + 底层技术指标
  • 长线risky指标:模型能力、Scaling曲线
  • 技术突破驱动产品涌现
  • "做AI不是一个短期的事"

何小鹏的决策风格

刘先明透露了一个关键细节:当他去年向何小鹏提出要做物理AI大模型时,"没有任何demo,没有任何结果",只是问需要多少GPU多少钱。何小鹏的回答是一个字——"好"。"你很难去找到一家企业的一号位老板,有这样一个视野,想去做这件事情并且能看到价值。"

十、换帅:上任三周与组织简化

访谈时间(2025.10.30)距刘先明上任仅三周。他对这段极短的时间做了坦诚的复盘。

上任背景

小鹏自动驾驶四任负责人

  • 谷俊丽吴新宙李力耘刘先明
  • 刘先明此前担任世界基座模型负责人
  • 对换帅的定性:"大家就没有那么多背后的故事,正向去看就好了"
  • 人事任命过程他"已经不记得当时怎么说了"

上任后最重要的决策:简化

刘先明
简化应该是我这段时间做的最重要的决策。简化流程,简化研发的工序,简化要做的事情。
不听汇报
直接看debug日汇和前线问题
合并
重复工作合并,低优先级暂停
扁平到一线
直接看代码和实验结果

外界标签

关于"头铁"和"憨脏"

  • "有人说我非常憨脏,有人说我micro management,也有人会说很头铁"
  • "如果没有头铁的性格或者非常憨脏的风格的话,很多事情是推不动的"
  • 扁平到一线:直接看每个人的代码、实验结果,随时在办公室讨论问题
  • 团队lead直接写代码、直接debug——"很难想象一个大团队的lead会直接写代码"
  • 刚毕业的PhD也可以说服整个团队做一件事

带宽管理

"坊间传说"他不睡觉或每天只睡四个小时。实际晚上通常工作到两三点,早上七八点。他的带宽管理方式是:同一时间段只关注两三件事,涉及几个人到十几个人的小团队,快速沟通做决策。

十一、AI企业的组织范式

刘先明基于在Facebook、Cruise和小鹏的经历,提出了AI企业的组织方法论。

组织哲学

AI不是灵光一闪,而是体系化工程

"大家可能有很多误区,就是说AI是不是某个人一拍脑袋想到什么东西。但它一定是个严格体系化的东西。"技术突破自下而上,但需要自上而下的北极星目标和合理的时间预期。上面有一小撮人做核心创新,背后是步调统一、节奏紧凑的大规模工程体系在支撑。

AI组织的关键要素

要素描述
集中化小型团队核心模型由少数人做,用足够多资源支持。不是散布天才做各种创新的互联网模式。
极度扁平不设层级,lead直接写代码,PhD可以说服全团队。
重视工程/Infra第一件事是建Infra团队。数据能力、训练稳定性、系统效率是一切的基础。
长线考核不能半年一reorg。AI需要从头造体系,短周期考核催生急功近利。
容忍回退全面AI化可能短期回退,但上限更高。必须能接受回退和delay。
正向研发不是"给你报一个问题去解决它"(逆向),而是从统计性指标出发做breakdown找问题(正向)。

人才策略

Fresh New Brain

  • 策略转向吸引年轻人——"他们会提供很多新鲜的想法,有更充沛的精力"
  • 年轻人可以"跳脱出现有框架去想问题"
  • 核心团队保持稳定并充足资源分配
  • "不管是OpenAI还是DeepSeek都没有特别的大"——依赖明确分工而非人海战术

十二、L4路线图与安全下限

刘先明透露了小鹏在自动驾驶L4上的明确时间表。

刘先明
我们明年会去推L4。在广州。基于现代架构来做。

L4的技术路径

同一架构的Scaling

  • 不是新架构,是同一个VLA架构的Scaling Up
  • 车端增加更多算力 → 更多Testing Time Scaling → 更大模型体积
  • 解决更复杂问题的可能性随规模增长
  • 可通过云端Teleops/接管作为安全冗余
  • 核心挑战:降低系统出错概率 → 降低云端接管频次 → 降低成本 → 达到商用状态

两大模糊地带

Scaling的极限

  • "Scaling到底能持续到什么程度"
  • 当前验证有效但不知道天花板在哪
  • 软硬件联合定制的影响未知

安全下限

  • "怎么能去守住安全下限"
  • 加规则可以兜底但违背简化原则
  • 需要探索"超级对齐"——对齐人类真实的安全行为
  • 安全对齐"在尝试,但还没有开始"

KPI的阶段演进

过去:建Infra

稳定性、Infrastructure、Scaling Up是第一优先级。

中期:模型Scaling

验证prototype,寻找涌现效应和规模化效应。

当前:量产落地

自动驾驶的产品化部署是主要KPI。

明年:全球泛化

不同市场、不同产品形态、不同业务线上有明确收益。同时继续探索下一代。

十三、主机厂 vs 供应商:数据护城河

张小珺提到地平线余凯博士的观点——"未来主机厂不会自研自动驾驶,应该交给供应商"。刘先明明确反驳。

刘先明
我来小鹏的核心逻辑是数据。数据就是一座金矿。主机厂最大的资源就在于数据。对于第三方来说,它是很难规模化的拿到你想要的数据的。

主机厂数据优势的具体体现

闭环能力差异

  • 模型出现问题 → 自动找到数据分布缺失点 → 车队明天就收上来数据 → 迅速闭环
  • 供应商无法掌控这一完整链路
  • 没有基础系统就不知道什么是有效的Corner Case数据
  • Shadow模式和用户接管数据只有主机厂能大规模获取

智能驾驶的护城河判断

标准化不等于同质化

  • 未来智能驾驶确实会成为标准化组件
  • 但标准化不意味着同质化——"一辆车一个月接管一次很舒服"与"20公里接管一次"是完全不同的体验
  • 只有强能力才能在上面定义不同的产品功能
  • AI做不好的车企"基本可能必定被淘汰",只能选择供应商,但会受限于体验和产品形态
  • "AI是下一阶段的重要赛点"——各车企都在疯狂组建AI团队

代际差即将出现

刘先明判断国内智能驾驶"好像还没有代际差"的原因是"大家都在准备"。很多厂商会在2025年底和2026年初推出下一代架构,"应该很快就会有代际差出来"。小鹏"会是其中之一,也一定是会走在最前面"。

十四、Meta的教训与AI组织哲学

作为前Meta员工,刘先明对Meta为什么"AI一直做的不太好"做了犀利的内部视角分析。

Meta的互联网基因

  • 半年考核周期,半年一次大重组
  • 一个月写OKR + 一个月PSC + 假期 = 只剩三个月做事
  • 半年做不出就被砍掉或调整
  • 强调快速试错、快速迭代、快速产出
  • 人才密度高,依赖"灵光一闪"的天才创新
  • 散布式创新,尊重个体

AI所需的组织文化

  • 长线考核(至少一年制),容忍不确定性
  • 需要从头造一个体系,不能快速spawn
  • 集中化小型核心团队 + 充足资源
  • 体系化工程而非天才灵感
  • 步调统一的大规模工程支撑
  • 自下而上发现 + 自上而下决策

Google/DeepMind为什么好一些

刘先明认为Google的真正变化发生在"Brain回来之后"。这暗示了一个关键洞察:AI组织的成功不仅依赖文化调整,还需要一个核心灵魂人物回归(Jeff Dean/Demis Hassabis)来重塑组织方向。这也侧面解释了为什么何小鹏亲自推动AI转型对小鹏如此重要。

跨文化适应

从北美回国到深圳企业工作,刘先明表示"整个团队对我还是挺照顾的,给我很多容忍度"。他与何小鹏直接汇报,而非通过制造业体系(如王凤英)。这一汇报线本身就体现了AI在小鹏组织中的特殊地位。

十五、关键数据汇总

4
小鹏自驾负责人代数
2016
PhD毕业年份(UIUC)
1小时
与何小鹏的决定性面谈时长
27-30万h
单次模型训练数据量
30-40%
数据季度增长率
45亿元
2025年AI/自驾投入
0
当前车端残余规则数
2026
计划在广州推L4年份
3周
访谈时上任时长
关键人物角色/关系
何小鹏(大师兄)小鹏汽车创始人,刘先明直接汇报对象,"技术直男"风格
开明(Kaiming He)Facebook FAIR同期,一人贡献了主要research paper
谷俊丽/吴新宙/李力耘小鹏自驾前三任负责人
余凯地平线创始人,提出"主机厂不应自研自驾"的观点

十六、启示与延伸思考

1. "拆"即创新:减法思维的工程哲学

刘先明的核心方法论不是"加什么"而是"拆什么"——拆激光雷达、拆规控规则、拆端到端中间结构、拆Language。这与深度学习领域的趋势一致:ResNet拆掉了梯度消失问题的旧解法,Transformer拆掉了RNN的序列依赖,GPT拆掉了任务特定的fine-tuning。真正的技术突破往往是做减法而非加法。但这要求工程师拥有反常识的勇气——在短期表现可能回退时坚持做正确的事。

2. Language的双刃剑:从"桥梁"到"瓶颈"

Language在数字AI中是核心能力,但在物理AI中可能恰恰是最大的障碍。这一洞察的深层含义是:人类的语言是对物理世界的高度压缩和离散化表达,当AI需要直接与连续的物理世界交互时,强行通过语言做中间桥梁反而引入了信息损失。这与何小鹏在ep143中提到的"物理AI和数字AI是完全不同的方法论"形成了完美的技术注脚。

3. 主机厂的不可替代性:数据飞轮的闭环壁垒

刘先明揭示了一个被行业忽略的事实:自动驾驶的数据收集不仅需要规模,更需要"知道什么数据有用"的能力。没有0到1的基础系统,就无法判断Corner Case;没有车队的Shadow模式,就无法触发有效数据回收。这意味着供应商即使获得了主机厂的数据访问权,也难以建立等效的数据飞轮,因为数据的价值判断本身依赖于已有系统的能力水平。

4. AI组织的悖论:快与慢的张力

Meta的"半年周期"催生了互联网时代的极致效率,却成为AI时代的结构性障碍。小鹏面临的挑战恰好相反——作为制造业企业需要向AI组织转型,但制造业的"质量/成本"文化同样不适合AI的"容忍回退/接受不确定性"需求。刘先明的解决方案是让AI团队在组织上独立于制造业体系(直接向何小鹏汇报),但这种特殊安排能否在组织规模扩大后持续,是一个未解的问题。

5. "分-合-分"与OpenAI的殊途同归

刘先明描述的"分-合-分"组织演进路径,与OpenAI从研究到产品的路径高度一致:集中力量做出强大的基座模型(合),然后在上面快速长出各种应用(分)。关键差异在于:OpenAI的"分"是在数字世界(API、应用),而小鹏的"分"是在物理世界(不同车型、机器人、海外市场)。物理世界的"分"天然更复杂,因为每一个应用都涉及硬件适配、安全认证和本地法规。

6. Waymo vs 小鹏的路线之争:两种Scaling哲学

Waymo通过激光雷达+两段式架构实现了商业化落地(旧金山每周25万订单),但刘先明坐过Waymo后"非常不甘心"。其技术判断是:Waymo的当前架构是"更高级的缝合怪",难以在AI层面做到极高强度的泛化。小鹏押注的是纯视觉+大模型的Scaling路线,认为同一架构可以通过Scaling解决L4问题。这两种路线的胜负可能要到2027-2028年才能见分晓。

7. 换帅的深层信号:从"做好"到"做远"

小鹏自驾四任负责人的更替轨迹揭示了一个关键信号:每一次换帅都对应着技术路线的重大转折。刘先明的上任标志着小鹏从"把现有技术做好"(优化规则系统、改善端到端)转向"追求根本性突破"(纯模型控车、L4)。他自述的风格——"我不是researcher,我是engineer"——与这一阶段的需求完美匹配:当技术路线已经明确(简化+Scaling),需要的不是探索新方向,而是用工程能力把已知的正确方向推到极致。

8. 物理AI的"图灵模型":一个未解之谜

刘先明提到小鹏正在训练的"图灵模型"——"不一定是语言模型"的基座模型。这可能是小鹏在物理AI领域最大的未公开赌注:一个不以语言为基础的、原生多模态的基座模型,直接面向物理世界的感知和控制。如果成功,这将从根本上改变"先做语言模型再做多模态"的行业范式,使小鹏从"使用AI工具的车企"真正进化为"定义AI范式的物理AI公司"。