深度研究 — #118 对李想的第二次3小时访谈：CEO大模型、MoE、梁文锋、VLA、能量、记忆、对抗人性、亲密关系、人类的智慧

← 返回目录

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

人像小模型：CEO的上下文窗口
AI工具三级论：信息、辅助、生产
DeepSeek与人类最佳实践
梁文锋：自律、研究与年轻人
VLA司机大模型：三阶进化
VLA训练全流程详解
世界模型与超级对齐
专业Agent vs 通用Agent
战略推理：规模、用户、技术、组织
AGI时代的终端企业
组织变革：学丰田、学华为、学苹果
对抗人性与最佳实践
能量论：3-7人的大脑与心脏
亲密关系与自我认知
智慧与万物的关系
关键数据汇总

一、人像小模型：CEO的上下文窗口

张小珺以"假设你是一个大模型"开场，要求李想做一轮"long context长文本对话"。李想由此展开了一个深刻的人机类比。

李想

人类并不擅长处理特别复杂的信息。所以我们经常讲人类要做熵减，而不要去做熵增。人工智能非常擅长处理足够大的信息，包括今天预训练的规模，数据规模已经不是15T了，现在已经开始有30T的。

核心类比

人像更小的模型

李想认为人类像一个"更小的模型"：读书学习类似预训练，将知识变成业务类似推理，并通过推理去调用各种工具。不同人上完不同专业后进入不同领域，"不是一个巨大的基座大模型"。这与AI面临的挑战一致——处理通用信息很好，但在专业领域"往往又明显不如人"，因为需要更高质量的数据和更专业的CoT。

过去130天的变化

李想的判断：中国AI进步巨大

DeepSeek、千问等让中国基座模型和reasoning模型与美国"基本上在一个水平线上了"
中国企业的训练和推理效率更高
Agent方面有重要突破，包括Manus和DeepSeek
语言模型只是世界的一个重要组成部分，"并不是全部"

一个尖锐的现实

李想

人工智能发展这么好，但我每天工作时间并没有减少，还是在增加。身边所有的同事、朋友，大家都讲人工智能怎么好，但大家工作时间并没有减少，工作成果也基本上没有什么实质性的改善。

AI发展悖论

李想指出了一个被广泛忽视的问题：AI能力在飞速进步，但使用者的工作时间在增加、成果没有实质改善。他认为根源在于——今天的AI产品还停留在"信息工具"阶段，远未成为"生产工具"。这个判断贯穿了整场访谈。

二、AI工具三级论：信息、辅助、生产

李想提出了一个清晰的AI工具分级框架，这是他思考AI价值的底层逻辑。

信息工具：参考作用

辅助工具：提升体验

生产工具：替代工作

级别	特征	用户态度	示例
信息工具	对话/检索，给建议但不行动	不愿付钱	ChatBot、DeepSeek日常搜索
辅助工具	提升现有产品的竞争力	认为产品应自带	辅助驾驶、车机语音助手
生产工具	能替代专业工作、产出真实价值	愿意自费购买	Cursor、OpenAI Deep Research

李想

Agent最重要的评判条件就是它是否是个生产工具。他是否真的能替代我去完成专业的工作，他是否真的在产生有效的生产力，或者他是否真的在解决我工作中那最重要的八小时的时间。

生产工具的核心要素：Action

"知行合一"才能成为生产工具

今天O2、O3、DeepSeek R1再聪明，"并没有真正的去行动，只是给出策略并做策略的推演"
必须有Action——不能只知，必须行
Manus是"往生产工具走的最大的一步"——通过建虚拟机、调用工具来执行
自动驾驶是"控制一个机器在物理世界去行动"

对"模型解决一切"的批评

李想

你比我聪明十倍，你拿勺挖一个坑，我拿铲子去挖一个坑。我再笨，我效率都比你高。工具意味着更高的确定性和更低的能量消耗。有更好的大脑和使用更好的工具并不冲突。

目前被认可的"初级生产工具"

李想调研后认为，目前只有两个AI产品勉强够到生产工具的门槛：Cursor（编程团队在用）和OpenAI Deep Research（商分和战略团队在用）。值得注意的是，"他们是自己付费的，并没有花公司的钱"——自费行为本身就是生产工具的最好证明。

三、DeepSeek与人类最佳实践

李想对DeepSeek的分析极为独特——他不是从技术参数角度，而是从方法论角度解读DeepSeek的成功。

核心框架

DeepSeek V3：构建能力的四步最佳实践

李想从DeepSeek V3（671B MoE模型）中提炼出构建能力的极简路径：

搞研究——任何时候想提升能力，第一步一定是搞研究
搞研发——研究跑通后，研发效率会变得非常高
表达能力——把能力展示出来，让参与者理解
变成业务价值——能力最终要参与到业务中去作战

核心框架

DeepSeek R1：业务推理的四步最佳实践

索引分析——收到需求后先做分析
确定目标——用户给的是提示和方向，模型需要制定推理目标
出策略并执行——推演即执行
反思——检查结果和目标之间的差异

DeepSeek揭示的两套最佳实践闭环

李想

人类我们经常做着做着，就忘记最佳实践了。我们想拉动一群人去推进一个业务，但就你一个人在做分析、一个人在制定目标，然后逼着大家去执行。当你发现目标不对，你又没去做复盘，也不做分析，也不重新设定目标，就直接去改策略。所有的参与者说这到底发生了什么。

理想最容易忘记的步骤

做能力时

容易上来就搞研发
既不做研究
研发完也不做能力展示
不去面对市场实战

做业务时

遇到问题只想改策略
不去做复盘
不做用户和市场分析
不一起确定目标

DeepSeek对理想的直接帮助

缩短9个月、节省大几亿

理想原计划到2025年9月才能做出满足需求的语言模型，DeepSeek开源让这个时间提前了9个月
节省了"大概大几亿"的成本
训练卡比原计划多买了三倍
因为感谢DeepSeek的帮助，理想也决定将自研操作系统开源——"这是一个几天的决定"

四、梁文锋：自律、研究与年轻人

李想在2024年9月（ChatGPT o1发布前几天）与梁文锋会面，印象深刻。

李想

我只跟他聊过一次，两个特点：第一他是个特别自律的人。第二，我个人认为他会在全世界范围之内去研究和学习最佳实践和最好的方法论。

梁文锋的三个关键输入

年轻人做研究更好

"成熟的研究者都有自己的框架了"——经验对于搞研究反而是障碍。理想因此大胆用校招，自动驾驶团队没进什么"大拿"，校招占比达到60%-70%。

中国教辅是强化学习的最佳实践

梁文锋提到中国教辅材料具备完整的解题过程讲解，是"非常好的做强化的体系"。这启发了理想在VLA训练中使用交通规则、人类接管等作为强化反馈信号。

研究等于能力

最近一次交流中，梁文锋进一步强化了"研究等于能力"的观点——在人工智能时代，研究等于认知，认知很容易就变成能力。如果没有搞研究，就没有开放认知，也无法把认知变成能力。

李想对梁文锋的本质判断

"我始终认为他自己就是个最佳实践"——做任何事情先搞研究、先搞分析，成功率很高。从浙大到量化交易到AI，他把这个最佳实践在组织里内化了。李想对自己的定位则不同："成长是我的驱动力"——通过成长来实现用户价值。

五、VLA司机大模型：三阶进化

李想将自动驾驶的技术演进比作生物智能的进化——从昆虫到哺乳动物再到人类。

第一阶段：昆虫智能（2021年起）

积极学习的感知 + 规则算法（规划/控制/执行）。依赖高精地图，像蚂蚁的行动方式。模型参数只有几百万，"那么小的一个脑子"，只能不停限定限定限定，"几乎把它做成了一个有轨交通"。

第二阶段：哺乳动物智能（2023-2024年端到端）

像马戏团动物向人类学习行为——看到三维图像并给出轨迹。"应付大部分的泛化没问题"，但面对从未见过的复杂场景就会出问题。配合VLM（视觉语言模型）只能起"非常有限的辅助作用"。

第三阶段：人类智能（VLA）

像人类一样用3D+2D vision看物理世界、理解导航软件、有自己的脑系统和CoT推理能力、像人类司机一样执行行动和沟通。理想称之为"司机大模型"。

自动驾驶三阶进化：能力维度对比

为什么交通是VLA最早实现的领域

三个关键优势

规则清晰——车只能开在有路的地方，不能飞、不能下水。"复杂但具备确定性"
自由度低——汽车只有3个自由度（左右、前后、轻微旋转），机器人上来就是40多个。模仿学习"特别容易"
强化信号明确——舒适性（G值）、碰撞、交通规则违规，三个指标都可量化表达

端到端 vs VLA的具体差异

端到端的局限

遇到修路等复杂场景能停但不知道怎么办
"跟猴子一样，你影响不了他"
在公交车道反复进出，无法接受语言指令
导航错过出口后不知所措

VLA的突破

能理解复杂场景并主动处理
可以生成数据训练，"三天内解决相关场景"
通过Agent接受自然语言指令
错过出口后可漫游再汇合，"跟人类完全一样"

李想

它变得更像人，其实没什么惊奇的。相反，一个动物忽然会了一些东西，你觉得挺惊讶。但一个人做好的东西，你认为其实是正常的。

六、VLA训练全流程详解

李想罕见地详细拆解了VLA的完整训练流程。他指出"大家都在讲VLA，但讲的并不清楚，尤其到后边训的时候大家就一带而过"。

技术详解

VLA训练三大阶段

整个训练过程类比人类学开车：预训练=学习世界知识，后训练=去驾校学车，强化=到社会上开车。

阶段一：预训练（VL基座）

云端32B模型 → 蒸馏为端侧3.2B MoE

训练一个32B（320亿参数）的VL基座模型
三类数据：Vision数据（3D Vision + 高清2D Vision，距离提升3-5倍）、Language数据（交通与驾驶相关语义语料）、VL联合数据（如导航地图+人类判断的配对语料——"没有原始数据，这是我们自己才有的"）
蒸馏为3.2B的8专家MoE模型以在端侧流畅运行
如果直接跑3.2B完整模型，双Orin-X和Thor-U的帧率/token输出率都达不到

阶段二：后训练（模仿学习）

"像去驾校学开车"

将VL基座变成VLA——加入Action，模型规模从3.2B扩大到接近4B
CoT链条只做2-3步，不做更多——"否则延时太长"
Action完成后还做一个Diffusion预测——预测4-8秒后的场景和轨迹

阶段三：强化训练（两个子阶段）

子阶段	方法	目标	类比
RLHF	人类接管数据、驾驶习惯、安全对齐	和人类驾驶价值观对齐，融入社会	新手司机在社会上学规矩
纯RL	世界模型生成数据，仅给结果反馈	开得比人类更好	自主练车超越人类平均值

纯RL的三个反馈信号：G值（舒适性）、碰撞（安全性）、交通规则（合规性）。

最后一步：司机Agent

让人类用自然语言与VLA沟通

短指令由端侧VLA直接处理
复杂长指令传到云端32B VL模型处理后下发
类比："你跟男朋友开车怎么说话，你跟代驾怎么说话"

关键工程细节

为什么理想能跑VLA而其他团队很难？核心是自研编译团队——Orin-X芯片原生不支持语言模型，理想自己写了底层，用INT4方式跑VLM（类似DeepSeek用FP8做训练优化）。此外还有芯片能力、板子设计能力、操作系统能力。每万公里验证成本从18万降到4000元，全靠世界模型仿真。

七、世界模型与超级对齐

世界模型的两种定义之争

理想的定义

世界模型 = 仿真的物理世界
VLA像司机，世界模型像真实的交通世界
司机在真实世界和仿真世界里都能运行
"如果是交通世界模型，它就是个交通的世界"

机器人领域的定义

世界模型 = Action之后的Diffusion预测
预测未来几秒的环境和轨迹
理想认为这只是"司机能力的一部分"
"人类本身就具备预测轨迹的能力"

世界模型的三个阶段

阶段一：考试验证

模拟真实交通场景，测试VLA的舒适性、合规性和安全性。从A点到B点进行考试。

阶段二：生成训练数据

用于RL强化训练。可以100%还原特定场景（多个交通参与物的精确位置和速度），这在真实道路上"凑在一起几乎没有可能"。

阶段三：L4运营系统

未来全自动驾驶（车上无人）的运营管理系统——"我不可能写一个传统的IT软件来运营跑在路上的无人自动驾驶车"。

超级对齐：100多人的团队

模型能力越强，职业性要求越高

在模型能力达到1000万公里数后开始建设超级对齐团队
目前团队规模100多人
核心问题：模型能力很强但不遵守交通规则、经常加塞、做出让乘客不安全的行为
类比："我不可能雇佣一个职业赛车手来每天给我开车，我要雇一个职业司机——开车能力不错，同时有非常强的职业性"

李想

模型能力越强，也意味着他胡来的可能性越高。就跟一个人能力越强，他干好事也很强，他干坏事能力也很强。所以这时候就需要职业性来约束。你能力越强，责任越大。

八、专业Agent vs 通用Agent

李想

我个人认为并不会出现通用的Agent，而是每个专业领域做专业的Agent。5年之内没有通用Agent，会有一个Agent OS，方便各个专业的人在Agent OS上开发出来自己需要的Agent。

为什么通用Agent不如专业Agent

每个专业领域的全部要素都不同

开好车——Vision语料、Language语料、Action都和其他领域完全不同
做好医生、律师——背后的思维链、数据完全不同
生产工具会和专业人员直接比较——"你是否比一个专业的司机开得更好？你是否比一个专业的律师表现得更好？"
涉及收入、资产、财产和生命安全——对齐要求完全不同

理想的Agent OS构想

组织设计

平台搭建 + 专业自建

智能商业团队 + 基座模型团队 + 操作系统团队联合搭建Agent OS，但各专业领域在此之上自己开发Agent：

客服团队自己开发客服Agent
销售团队自己开发电话专家Agent
开发人员自己做编程Agent和验证实验Agent
每个专业自己放入数据语料、调整思维链

类比Manus的To-Do List：架构和OS由平台搭建，但每个To-Do里的思维链怎么做"才是真正的专业Agent"。

司机Agent的定价逻辑

李想

我一个月雇一个司机1万块钱，我是否愿意2000到3000雇佣一个司机Agent？可能你对车而言也不需要付保险费了，保险费也包在里边了。

九、战略推理：规模、用户、技术、组织

被问到"CEO大模型最长的一次推理"时，李想展示了他的战略思维结构。

战略模型

一个圆心 + 三个动态变量

圆心是规模（确定性的）。外围三个动态变量围绕规模相互诊断：

用户需求变化——如果只有技术变化但用户需求没变，不会急于调整组织
技术产品变化——当技术变化和用户需求变化产生结合时，组织变化就必须跟上
组织能力变化——不能因为"今天出了个东西就调整一下，明天出了个东西就调整一下"

理想战略模型：规模驱动的三变量诊断

规模跃迁带来的挑战

1450亿

2024年收入

1000+亿

2025年预期收入

50万辆

2024年销量

5万人

千亿美金收入时的目标人数

用户需求的扩展

从SUV到轿车和MPV

只卖SUV做不到3000亿以上收入——路虎也没做到
需要做家庭轿车（不是运动轿车）和家庭MPV
用户群要从50万辆扩大到100万辆以上，与BBA同等规模
但要有效控制SKU数量

十、AGI时代的终端企业

李想明确了理想的新定位：全球领先的人工智能终端企业。这是"去年底今年初开始做的选择"。

AGI终端的四个特征

360°

物理世界感知能力

认知

决策能力

Action

执行能力

反思

反馈能力

PC时代→移动时代→AGI时代：终端vs平台

时代	终端企业	平台企业	结果
PC时代	苹果（Mac）	微软（DOS/Windows）	微软赢，苹果活下来
移动互联网	苹果（iPhone）	谷歌（Android）	打平手，各~1000亿美金净利润
AGI时代	理想（汽车+机器人）	OpenAI（模型+Agent OS）	李想判断：终端企业将超越平台企业

李想

至少在物理世界——因为它涉及到生命安全、财产安全，这些一致性由一个主体来解决，还是分离多个主体去解决，是不一样的。

AGI终端的三层能力体系

软件三要素

模型能力——理解物理世界、横穿数字世界
操作系统——实时性、高性能、并行计算，非传统排列式
工具——Agent也要调用工具，工具随AI进化变得更高效

硬件三要素

本体变化——线控系统、分布式计算（中央大脑+分脑）
NPU——端侧从3B到30B是十倍性能差距，"大脑强了心脏也要强"
制造变革——用AGI生产AGI终端，关注生产效率而非人的替代

终端扩展的节奏判断

李想

这件事情的判断只跟我们规模相关。规模小的时候尽可能收敛，规模大的时候必须去扩张。如果我们只有两三百亿收入做这些东西是不合理的，但有1000多亿收入并往2000亿迈的时候，做这些是合理的。

操作系统的投入产出

理想自研操作系统投入约10亿元，但节省的成本达到五六十亿——比AutoSAR和QNX性能好得多，还支持了国产芯片适配。

十一、组织变革：学丰田、学华为、学苹果

理想的组织能力建设经历了三个阶段，每个阶段对应不同的学习对象。

第一阶段：学丰田和GM（理想ONE时期）

学习丰田工作法、GM的研发流程、Google的OKR。帮助完成理想ONE的研发和交付，创造了超过100亿美金收入，卖了20多万辆。

第二阶段：学华为（百亿→千亿）

学习华为的组织能力：IPD流程、财务流程、人力资源三支柱。配合L系列平台化研发和大规模销售管理，做到超过1000亿收入。

第三阶段：学苹果（千亿→万亿）

小时候看不懂苹果，做到千亿收入后"再去看万亿收入公司的能力，模模糊糊能看懂一些了"。学习苹果从电脑到iPod到iPhone的终端扩展逻辑。

高维兼容低维

AI企业文化可以包容传统制造文化

面对"AI文化和汽车制造文化冲突"的问题，李想认为"高维的信息管理方式是兼容低维的"——数字化能力可以把传统流程放入其中，AI能力同样可以包容IPD流程。理想管理工厂效率高、质量好，管理销售成本效率都好，核心是"管理更复杂的大型软件团队的能力"。

自动驾驶团队的精简之道

200人

端到端核心团队

100+人

VL训练/多模态团队

60-70%

校招占比

~3000人

去年校招研发管理人员

竞争对手用规则算法的团队是2000-6000人，但理想200人的端到端团队"至少今天看到的体验是更好的"。

十二、对抗人性与最佳实践

李想

严格按照最佳实践其实是反人性的。随心所欲才是满足人性的。所以一个卓越的组织、一个卓越的人，很多时候其实要跟人性做对抗。

李想做过的最反人性的事

"每次遇到问题都愿意做巨大的变化"

变化包含能力的变化、业务的变化和组织的变化
"这是我创业一路走来做的最坚决的事情"
做汽车之家时"基本功极为扎实"，做理想汽车时"只要做什么事情，基本功都做的非常扎实"

"不可能直接摘第十个包子"

李想

如果你没有做过规则算法，你根本不知道怎么做端到端。如果你端到端没有做到非常极致的水平，你连VLA怎么去训练都不知道。很多人想直接摘第十个包子，像练葵花宝典。DeepSeek的出现并不是练葵花宝典练出来的。

工程能力的自信

"AI是工程，不是科学——工程忽悠不了我"

汽车之家的架构"成为了所有垂直网站统一的架构，到今天为止都没变过"
增程的架构"今天大家都没变过"
"从小比较喜欢物理"——工程思维是直觉
给团队带来的帮助不是做事，而是"通过问一些更好的问题，帮他们澄清更好的架构"

ETC问题的经典案例

团队执着于用VLM解决ETC通行问题（VLM对位置判断很糟糕），在十几个ETC口前混乱。花了三四个月没解决。李想说"解决ETC为什么不能用规则算法？最多15个口，写个程序三天就能完成"。团队一周内解决了。

李想

我们作为正常的人也会背乘法口诀，乘法口诀就是个规则算法。但它的结果是消耗的脑力更少、token更少、准确性更高。它就是个好东西。

十三、能量论：3-7人的大脑与心脏

李想将"能量"视为比能力、比业务更重要的因素，尤其在大规模组织和混乱时代。

核心模型

三人支撑体：更强大的大脑 + 更强大的心脏 + 更强的能量

3-7人组成一个核心圈层。三个人不内卷、一致对外，通过吵架思考形成更全面的判断。一旦形成决策，三人互相支撑——"你永远不用担心倒下来"。

从汽车之家到理想汽车的三人支撑

公司	核心三人+	作用
汽车之家	李想、秦致、樊铮	"每次遇到困难都会变得更强"
理想早期	李想、沈亚楠、马东辉、李铁	沈亚楠离开后，李想和李铁"必须变成马东辉的心理支撑"
理想现在	李想 + 谢炎 + 邹良军等5人	"五个人形成一个更强的大脑，一定比我一个人更强"

李想

当人和人之间的能量始终存在的时候，这些争执、这些讨论、这些吵架就是一个更完善的大脑。当这些能量消失的时候，这些讨论不同的想法，其实就是内耗。

能量的三个来源

自产 + 给予 + 获取

自产能量：接受自己的优点、接受自己的不足（往往不足就是优势的另一面）、用成长替代改变
给予能量：先看别人的优点、看到别人的不足是你的价值（你能帮到他）
获取能量：看别人的成长——"成长带来能量，因为变好就有能量"。别人给你能量，别人也不会丢掉能量——"他是个辐射作用"

实验验证

李想透露他已经在内部做了实验——让团队按照"3-7人组成更强的大脑和心脏"的模式去工作，"他们的产出可能跟我们没什么区别，甚至比我们更强。只是他过去没有掌握这个模式"。他也承认，这个模式符合人工智能时代的方式——更多的小组织形成脑力和心力的支撑，同时连接更大的网络。

十四、亲密关系与自我认知

人和人连接的本质

李想

两个在意。第一大家要在意客户、在意用户——在意用户是一种最重要的价值观共识。第二要在意你身边这几个人。要先对人再做事，而不是对事不对人。

亲密关系中的关键认知

"是我需要他们，超过他们需要我"

我需要我爱人——我爱人让我变得更好
我需要孩子——孩子让我变得更好
我需要下属——"他们对我的重要性甚至超过了我对他们的重要性"
"所有人都希望被需要"——大胆表达需求会产生非常好的能量场

从女儿身上学到的三件事

人是用来发挥的，不是用来改变的

"我连孩子都不能改变"——每个孩子完全不一样，应该放大和发挥其特性。这个认知直接影响了组织管理。

"是我需要他们"的意识觉醒

一直在这么做，但从未意识到背后逻辑。有了这个意识后"会更加主动积极，不会等着事情变糟糕再行动"。

孩子是用来完善自己的

孩子对你没有掩饰，让你"把人看得更全面、更透彻"。孩子你没得选，但必须处理好——这是更大的挑战和成长。

家庭中的"三人支撑"

14岁女儿成为第三个支撑

过去李想和妻子的相互支撑"还是有限的"。但春节后14岁的大女儿开始形成完善的三观，能够和父母进行高质量讨论——"关于她自己的人生规划、喜好、对人和事物的理解"。家庭实现了三人支撑，"家里的能量在大幅提升"。

记忆管理

李想

为了让自己有一个更好的正能量，我尽可能的只保留那些有价值的、美好的片段。哪怕是不好的东西——我们被黑被打击——我会转变成"正因为这件事情我们增长了三倍"。创业确实不容易，但没必要苦哈哈的。

十五、智慧与万物的关系

访谈的最后部分，李想展开了对"智慧"这一终极命题的思考——他认为这是人类区别于AI的核心。

核心命题

智能 vs 智慧

"我们今天解决的是智能的问题，没有解决智慧的问题。很多聪明的人一点都不智慧。"李想认为，智慧就是处理与万物之间的关系——包括人和人、人和万物。

李想

如果你没有在森林里认真地玩、住过几天，你可能觉得木头就是做筷子的、做纸的、做桌子的，而并不意味着它是一个生命。什么是智慧？智慧就是我们和万物的关系。

AI让人类更需要智慧

智能归AI，智慧归人类

人类的算力有限、能量有限，应该把算力用于"解决智慧、处理跟万物的关系、增加能量、做熵减"
让AI处理复杂信息、存储数据、压缩知识、自动化Action
人类和AI是合作关系而非矛盾关系——工厂里也不是人类做焊接涂装，但机器没有取代人类的地位
"5年到10年AI一定比人的能力更强。人干什么？"——答案是提升智慧

对AI安全的乐观判断

李想

今天Transformer这个架构、Token和Next Token这个架构，并不具备自我自主意识，也不能进化——进化还是要通过再做训练。今天的大模型架构对人类是挺安全的，很多人是多虑了。如果突破了这个架构，可能人类就解决不了了。但能不能突破也不知道。

李想的智慧时间线

2008年——开始拥有初步智慧

在汽车之家差点被赶出公司之后，"开始初步知道掌握一点智慧了"——核心是开始知道怎么处理跟自己的关系。至今"90%的状态、思维方式跟上高中时差不多"：遇到问题去解决问题，去解决消费者遇到的最大的问题。

所有人性都值得保留

李想

所有的人性都应该得以保留，无论好的和坏的。没有坏的其实就没有好的。一个人的优点的另一面就是他的缺点。你可以把好的东西和不好的东西都当成一种特质——文化的特质、生命的特质、性格的特质。这样才是活生生的、有生命力的世界。

十六、关键数据汇总

判断	具体内容
理想的新定位	全球领先的人工智能终端企业（2024年底-2025年初确定）
VLA模型规模	云端32B VL基座，蒸馏为端侧3.2B 8专家MoE，加Action后约4B
理想同学模型	300B（3000亿参数）多模态模型
DeepSeek带来的加速	缩短9个月，节省大几亿成本
训练卡采购	比原计划多买了3倍
验证成本	每万公里从18万降到4000元（基本全是算力成本）
Vision提升	2D Vision距离提升3-5倍
CoT长度	2-3步（不做更多，否则延时太长）
Diffusion预测	4-8秒的轨迹和环境预测
超级对齐团队	100多人
端到端核心团队	仅200人（竞争对手规则算法团队2000-6000人）
校招占比	智驾和模型团队60-70%
L3时间判断	最快2025年Q3，最晚Q4
L4限制因素	"这代算力不行"——端侧只能跑3.2B@10Hz，需要32B@10Hz才可能L4
2024年收入	1450亿元
2024年销量	50万辆
操作系统投入	约10亿元，节省五六十亿
千亿美金收入目标人数	5-10万人（vs BBA的约100万人）
能量场最优人数	3-7人
自由度对比	汽车3个 vs 机器人40+个
初级生产工具	仅Cursor和OpenAI Deep Research（员工自费购买）
通用Agent判断	5年内不会出现，会有Agent OS
AI安全判断	Transformer架构下人类是安全的
司机Agent定价	人类司机费用的几分之一（约2000-3000元/月）

启示与延伸思考

1. "AI工具三级论"是当前最清晰的价值判断框架

李想将AI产品划分为信息工具、辅助工具、生产工具三个层级，用"用户是否愿意自费购买"作为判别标准。他的调研结果令人清醒：3万多人的企业里，只有Cursor和Deep Research被认为是初级生产工具。这意味着绝大多数AI产品还停留在"信息工具"阶段——用户不愿付钱，不能替代真实工作。核心缺失是Action：知而不行，等于没有价值。

2. VLA训练流程是迄今最完整的CEO级技术拆解

李想罕见地从预训练（VL基座/三类数据/32B→3.2B MoE蒸馏）、后训练（模仿学习/4B/CoT仅2-3步/Diffusion预测4-8秒）到强化（RLHF对齐+纯RL超越人类），完整披露了VLA司机大模型的训练路径。尤其值得注意的是他强调的"VL联合数据"——将导航地图理解与人类判断配对，"没有原始数据，这是我们自己才有的"。这暗示了数据壁垒是VLA竞争的核心。

3. DeepSeek的方法论价值可能大于技术价值

李想不是从参数和跑分角度分析DeepSeek，而是从中提炼出两套"人类最佳实践"：构建能力四步法（研究→研发→表达→业务）和业务推理四步法（分析→目标→策略→反思）。他的洞察是：这些不是DeepSeek发明的，而是人类本就应该遵循但"经常做着做着就忘掉了"的最佳实践。坚守最佳实践是反人性的，这正是DeepSeek成功的根本原因——自律。

4. "专业Agent而非通用Agent"是一个被低估的判断

李想认为5年内不会有通用Agent，只会有Agent OS + 各专业领域的专业Agent。他的逻辑是：生产工具必须能替代专业工作，这要求Vision/Language/Action全部领域特化。一个通用Agent不可能同时比专业司机开得好、比专业律师表现好。这与硅谷主流的"大一统AGI"叙事形成鲜明对比。如果李想是对的，那么未来AI的竞争将是千百个垂直Agent的竞争，而非少数通用模型的竞争。

5. "终端企业将超越平台企业"的AGI时代判断

李想从PC时代（微软赢）、移动时代（苹果和谷歌打平手）推导出AGI时代的判断：涉及物理世界的生命安全和财产安全时，一致性由一个主体解决比多主体分离解决更有优势。因此终端企业（理想定位）将超越平台企业（OpenAI定位）。这是一个大胆的逆共识判断，其核心假设是物理世界AI的安全和可靠性需要硬件-软件-服务的垂直整合。

6. "能量论"是对传统管理学的一次根本性补充

李想提出的"3-7人形成更强的大脑、心脏和能量"的模型，本质上是MoE架构在人类组织中的映射——多个专家组合成比任何单个专家更强的整体。但他强调的核心不是能力而是能量：有能量时争执是完善大脑，没能量时争执是内耗。能量的来源是"我需要你"而非"你需要我"。这个框架解释了为什么很多"能力很强"的团队产出平庸——他们缺的不是能力，而是能量连接模式。

7. 智慧与智能的区分可能是AI时代最重要的人类命题

李想在访谈最后提出：AI解决智能问题，但人类需要解决智慧问题。智慧是处理与万物的关系，而智能是处理信息和执行任务。5-10年后AI能力必然超越人类，人类的出路不是与AI竞争智能，而是提升智慧——更好地处理与自己、与他人、与万物的关系。他甚至提出一个大胆设想：智慧能否成为一种可教育、可训练的学科？这或许是比AGI安全更紧迫的问题。

李想：CEO大模型与人类的智慧

目录