广密在本期季报中提出的最大非共识,是对Pre-training的重新坚信。在2024年下半年行业普遍转向Post-training和强化学习叙事之后,广密认为这一风向存在根本性的误判。
广密的核心论证逻辑是:Pre-training的空间仍然巨大,它决定了一个模型能力的内在天花板。Post-training + RL(强化学习)本质上是对已有能力的强化与提纯,而不是产生全新涌现能力的来源。把主要资源投入Post-training,相当于在已有的矿脉上反复精炼,而忽略了去发现新的矿脉。
2024年Q3-Q4,随着OpenAI o1/o3的发布和DeepSeek R1的技术报告,行业叙事急剧转向"推理时计算"(test-time compute)和后训练范式。Scaling Law的Pre-training版本被普遍认为已到瓶颈(所谓"撞墙"叙事),资源转向RL和Post-training。广密认为这个转向过度了——Pre-training的Scaling Law远未到尽头,只是需要更聪明的工程方法(如DeepSeek V3的架构创新),而非简单堆算力。
广密对Coding的定位远超"编程辅助工具"的通常认知。他将Coding视为数字经济中最重要的赛博空间环境,是模型通往AGI的关键中间阶段。
在广密的AGI山脉隐喻中,Coding是第一座主峰——ChatGPT只是山脚下的第一个驿站,而Coding/Coding Agent才是真正攀登的开始。广密表达了"前所未有的信心",认为两年内可以实现AGI,而这个信心的核心来源正是Coding能力的快速进展。
从Coding到Coding Agent的跃迁至关重要。单纯的代码补全(Copilot模式)只是辅助工具,而Coding Agent(如Cursor、Devin等)代表模型能够自主完成完整的软件工程任务。这意味着模型从"助手"变成"执行者"——它不仅理解代码,还能理解需求、设计架构、调试错误、部署测试。这是通往通用Agent的第一个成功验证场景。
广密对OpenAI和Anthropic这两家同源公司的战略走向进行了深入剖析,认为它们的分野反映了当下硅谷AI界最核心的认知分裂。
广密将硅谷当下的认知分裂归结为这一个问题。OpenAI的行动越来越倾向"流量"——追求MAU、推出消费产品、大量投放。而以Anthropic为代表的另一极则坚持"智能"——认为模型能力的持续突破才是根本价值。广密坚定地站在"智能"一侧,认为这是当下的主线,而流量思维是短期诱惑。
广密以"AGI原教旨主义者"自居,提出了一个清晰的AGI路线图。他的核心信条是:智能提升是唯一的主线,智能本身就是最大的应用。
只是"前菜"——让人类第一次看到大模型的对话能力。但这只是山脚下的第一个休息站,远非目的地。
模型获得"手"的能力——从对话走向执行。Cursor、Devin等产品验证了这条路。不到18个月就产生了巨大变化。
从Coding领域扩展到通用任务执行——浏览网页、操作软件、完成复杂多步骤工作流。Manus是这个方向的早期探索。
AI在科学发现中产生实质性突破——不是辅助科学家,而是独立做出科学发现。广密预测这一波爆发在2026-2027年。
智能进入物理世界。这是最远的一座山峰,也是最具变革性的——意味着AI不仅理解数字世界,还能操纵物理世界。
这个判断意味着:当前绝大多数围绕ChatGPT式对话体验构建的商业模式,都可能只是过渡态。真正的价值在于Agent——能自主执行任务、产出成果的AI系统。广密用"前菜vs正餐"的比喻,暗示当前对话式AI的商业价值被严重高估,而Agent的商业价值被严重低估。
广密提出了一个颇具洞察力的框架:Token消耗量可以作为智能复杂度的代理指标。不同智能水平对应不同量级的Token消耗。
| 产品/场景 | 单次Token消耗量 | 智能等级 |
|---|---|---|
| ChatGPT对话 | 数千个Token | 问答式智能 |
| Perplexity搜索 | 数万个Token | 检索+推理智能 |
| Manus任务执行 | 70-80万Token(平均值) | Agent式智能 |
| 复杂Coding任务 | 百万级Token | 自主工程智能 |
| 未来AGI任务 | ?(可能千万级以上) | 通用智能 |
按这个框架,当前的AI正处于"自动化"阶段的早期——它能够自动化越来越多的人类任务。但真正的AGI可能需要进入"探索"阶段——即AI能够自主发现人类未知的知识。
如果Token消耗量与智能复杂度正相关,那么:(1)模型推理成本的下降速度直接决定Agent经济的到来时间;(2)能够高效使用大量Token完成复杂任务的产品将获得最大价值;(3)当前$20/月的定价模式几乎不可能覆盖Agent级别的Token消耗——Manus单次任务的成本就可能超过用户月费。这意味着AI商业模式的根本重构不可避免。
广密将Agent视为一个新物种的诞生,而非简单的产品迭代。他认为智能水平越接近AGI,变化越可能像宇宙大爆炸一样剧烈。
广密做了一个重要预测:AGI的下一个里程碑是Long-term Memory(长期记忆),它最终会取代Long Context。当前的长上下文方案(如百万Token窗口)本质上是"短期记忆的扩大"——所有信息都在一次会话中处理。而真正的Long-term Memory意味着模型能够跨会话积累和调用知识,像人类一样形成持久的记忆结构。这将从根本上改变人机交互范式——AI从"每次对话都是陌生人"变成"真正认识你的助手"。
广密提出Online Learning可能是下一个范式级别的路线——让模型能够自主地、实时地在线探索和学习。
如果Online Learning成为现实,GPU/算力的需求模式会发生根本性变化——不再是"集中式大训练+分布式推理",而是每个推理节点都同时在训练。这对NVIDIA的叙事既是利好(总算力需求可能更大),也是挑战(算力类型需求可能变化)。广密在讨论中涉及了贾扬清公司被收购的事件,以及NVIDIA更大的战略棋局。
广密指出当前AI产品普遍采用的$20/月定价模式本质上是复制SaaS定价,但SaaS不需要大量消耗Token。当Agent时代到来,单次任务消耗70-80万Token时,这个定价模式将彻底崩塌。
广密提出了一个投资者面临的核心难题:如果模型最终会吞噬产品,那么投资AI应用层是否注定是过渡性投资?他的回答是微妙的——短期内(1-3年),产品层有巨大的"窗口期"机会,因为模型能力需要通过产品形态才能变现;但长期(5年以上),只有那些能够与模型深度融合甚至本身就是模型的产品才能存活。
广密将Perplexity、Cursor和Manus称为"模型的盗火者"——它们像普罗米修斯一样,将模型的力量从实验室带入真实的用户场景。
有趣的是,广密同时给Manus和Perplexity另一个称号——"套壳之王"。这看似贬义,实则是褒义:它们不拥有底层模型,但通过极致的产品工程和场景设计,将模型能力放大了数倍。"套壳"不是贬义词,而是一种极高的产品工程能力。真正的能力在于:知道在什么场景下调用什么模型的什么能力,如何编排多步推理,如何处理失败和边界情况。
| 产品 | 盗的"火" | 替代的对象 | Token消耗量级 |
|---|---|---|---|
| Perplexity | 搜索+推理能力 | Google搜索 | 数万/次 |
| Cursor | Coding+上下文理解 | 传统IDE | 数十万-百万/次 |
| Manus | Agent执行能力 | 人类助手/分析师 | 70-80万/次(平均) |
广密暗示OpenAI在图像生成上的高调投入可能是转移注意力的策略——让竞争对手和公众关注图像生成,而自己在更核心的方向上蓄力。但广密的判断是:即使是"烟雾弹",也可能说明OpenAI在核心方向上遇到了困难——需要用"烟雾弹"来维持叙事。
广密给出了一个假设性的AI投资组合,以表达他对全球AI公司的价值判断。这个组合的信息密度极高——仓位分配本身就是观点。
| 仓位 | 标的 | 核心逻辑 |
|---|---|---|
| 25% | Anthropic | 安全+能力并重,MCP生态,最有可能成为AI时代的"OS" |
| 25% | 字节跳动 | 中国最强的AI执行者,拥有流量+算力+人才三重优势 |
| 10% | OpenAI | 仍有领先地位但风险加大,仓位从应有的25%降至10% |
| 10% | Mirror(Thinking Machine Lab) | 代表开放AGI路线,Post-training能力极强 |
| 5% | SSI(Ilya的新公司) | Ilya的技术判断力是稀缺资产 |
| 5% | Cursor | Coding Agent赛道的领跑者 |
| 5% | Manus | 通用Agent的早期验证者 |
| 15% | 待定 | 留给未知的突破者 |
几个值得注意的点:(1)OpenAI仅10%——这在2024年Q3几乎不可想象,广密对OpenAI的信心明显下降;(2)Anthropic获最高配(之一)——说明广密认为技术正统性的价值在回归;(3)字节跳动25%——在中国公司中独占鳌头,甚至超过OpenAI;(4)如果DeepSeek融资,广密会给25%——这意味着在他心中DeepSeek可能是全球最有价值的AI公司之一,只是目前不融资;(5)15%待定——保持对未知突破者的开放性。
广密对DeepSeek和Mirror代表的路线进行了意识形态层面的分析,将AI发展的路线之争提升到了价值观的高度。
DeepSeek的开源策略正在产生广密所描述的"意识形态"效应:它不仅是技术选择,更是关于"AGI的权力应该属于谁"的政治主张。Mirror在DeepSeek V3基础上做Post-training,验证了开源模型作为"公共基础设施"的可能性。如果这条路走通,意味着Pre-training的规模效应壁垒可能被消解——任何有能力做Post-training的团队都可以基于开源Pre-train模型构建有竞争力的产品。
广密在本期季报中对中美AI格局的判断更加尖锐,并对投资方法论提出了批评。
| 判断 | 具体内容 |
|---|---|
| 最大非共识 | Pre-training空间仍然巨大,决定模型内在上限;Post-training + RL只是强化 |
| AGI时间框架 | 2年内,"前所未有的信心" |
| Coding定位 | "比搜索引擎和推荐引擎重要",是"模型的手" |
| AGI山脉序列 | ChatGPT → Coding → Coding Agent → General Agent → AI for Science → Robotics |
| 下一个AGI里程碑 | Long-term Memory,将取代Long Context |
| 下一个范式 | Online Learning——模型在使用中持续学习 |
| Manus平均Token消耗 | 70-80万Token/次 |
| Coding变革时间窗口 | 不到18个月 |
| AI for Science爆发 | 预计2026-2027年 |
| 对OpenAI的判断 | GPT-4.5领先存疑,GPT-5反复推迟,存在失败风险 |
| 对文生图的判断 | 可能是OpenAI的"烟雾弹" |
| 裸模型发布时代 | 即将结束 |
| 护城河两条路 | 成为Cloud 或 成为OS |
| 理想投资组合 | Anthropic 25% / 字节 25% / OpenAI 10% / Mirror 10% / SSI 5% / Cursor 5% / Manus 5% / 待定 15% |
| DeepSeek融资假设 | "会放基金的25%" |
| $20/月定价 | 复制SaaS定价,Agent时代将崩塌 |
| Mirror动向 | 可能在DeepSeek V3基础上做Post-training,Mid-Train + Post Training |
| Agent三大能力 | 长上下文推理、工具使用、指令遵循 |
| 人类进化关键词 | 生存 → 探索 → 自动化 |
2024年下半年,行业集体转向"推理时计算"和Post-training叙事。广密认为这是矫枉过正。他的判断如果成立,意味着:(1)大量投入Post-training优化的公司可能在"矿脉枯竭"后发现上限被Pre-train阶段锁死;(2)真正掌握Pre-training工程能力的团队(如DeepSeek)将在下一轮竞争中占据结构性优势;(3)所谓的"Scaling Law撞墙"可能只是方法论不够聪明,而非物理极限。
"Coding是比搜索引擎和推荐引擎重要的东西"——这个判断若成立,意味着整个软件开发行业(全球数千万开发者的生态)将在18个月内发生剧变。传统IDE、代码托管平台、CI/CD工具链、甚至编程语言本身的价值都可能被重新评估。掌控Coding Agent就是掌控数字世界的生产工具——这是一个比搜索引擎更大的生意。
当前的Long Context方案(百万Token窗口)本质是"一次性大记忆",每次会话结束就遗忘。Long-term Memory意味着AI能够跨会话积累对用户的理解——这将催生真正的"个人AI":它记得你的偏好、理解你的工作方式、能基于长期积累做出更精准的判断。这可能是比Agent更具颠覆性的方向,因为它改变的不是"AI能做什么",而是"AI和你的关系"。
作为"AGI原教旨主义者",广密对技术正统性有极高的要求。他将OpenAI仓位从应有的最高位降至10%,同时将Anthropic提至25%,反映了一个根本性判断:OpenAI正在从"AGI追求者"滑向"消费互联网公司"。这不仅是投资判断,更是对AGI路线的站队。一年前的广密不太可能做出这样的分配。
Manus单次70-80万Token的消耗量,按当前定价大约需要$5-15的成本。如果一个用户每天使用5次,月成本就是$750-2250,远超$20/月的订阅费。这意味着:(1)当前的AI产品定价是大规模补贴,靠VC资金维持;(2)Agent时代到来后,要么模型推理成本需要下降1-2个数量级,要么定价模式需要根本性重构(按任务计费?按价值分成?);(3)能够用最少Token完成最复杂任务的模型/产品将获得巨大竞争优势。
当前的"模型"是一个静态对象——训练完毕后冻结参数,部署推理。Online Learning将模型变成动态实体——它在使用中不断进化,每个用户的交互都可能改变它。这带来了深刻的哲学问题:一个持续学习的模型还是同一个模型吗?它的行为还可预测吗?安全性如何保障?如果每个部署实例都在独立学习,最终会产生数十亿个不同的"模型个体"——这更像生物进化而非软件工程。
回溯6期季报的主题演进:大基建(算力+电力)→ 应用爆发(Perplexity)→ 范式转移(Self-play RL)→ LLM超越Google → Pre-training回归。每一期都在修正前一期的偏差,形成了一个动态的认知校准过程。这本身就说明:在AI领域,没有永恒的共识,所有的"共识"都是下一期的"非共识"候选。保持认知弹性——而非执着于任何单一叙事——可能是在AI时代生存的最重要能力。
广密将Mirror/DeepSeek的开源路线描述为一种"意识形态"——AGI的权力应交给社区。如果这种意识形态获得足够多的支持者(包括Mirror这样在其上做Post-training的公司),就可能形成一个"开源AGI联盟",与Anthropic/OpenAI的"精英主义"路线形成持久对抗。这不再只是商业竞争,而是关于AI权力分配的政治博弈。DeepSeek作为中国公司在这场博弈中扮演的角色尤其值得关注——它的开源选择可能比任何技术突破都更具地缘政治意义。