深度研究 — #97 25年Q1大模型季报：和广密聊当下最大非共识、AGI的主线与主峰

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

最大非共识：Pre-training回归
Coding：通往AGI的赛博世界环境
OpenAI vs Anthropic：战略分野
AGI路线图：山脉隐喻与里程碑
智能的本质：Token消耗与复杂度
Agent作为新物种
下一个范式：Online Learning
模型与产品的关系：护城河与商业模式
"盗火者"：Perplexity、Cursor与Manus
全球大模型竞争格局
广密的理想投资组合
DeepSeek与Mirror的意识形态
中美AI格局与地缘壁垒
关键数据与判断汇总
启示与延伸思考

一、最大非共识：Pre-training回归

广密在本期季报中提出的最大非共识，是对Pre-training的重新坚信。在2024年下半年行业普遍转向Post-training和强化学习叙事之后，广密认为这一风向存在根本性的误判。

广密

还是要再喊一下，大家还是要重视Pre-training了，我觉得这个才最本质。

核心论点

Pre-training决定模型的内在上限

广密的核心论证逻辑是：Pre-training的空间仍然巨大，它决定了一个模型能力的内在天花板。Post-training + RL（强化学习）本质上是对已有能力的强化与提纯，而不是产生全新涌现能力的来源。把主要资源投入Post-training，相当于在已有的矿脉上反复精炼，而忽略了去发现新的矿脉。

对OpenAI Pre-train团队的批评

OpenAI内部的团队动荡

OpenAI的Pre-train核心团队一直处于动荡/不稳定的状态
广密认为OpenAI在Pre-training上的投入和重视度不够
这解释了GPT-4.5为何没有形成压倒性优势，以及GPT-5为何反复推迟
相比之下，DeepSeek在Pre-training上的工程创新（如V3的MoE架构）产生了显著效果

Pre-training（广密认为更本质）

决定模型能力的内在上限
产生真正新涌现能力的来源
空间仍然巨大，远未到天花板
需要大量算力和工程创新
DeepSeek V3是成功案例

Post-training + RL（行业共识）

对已有能力的强化与提纯
OpenAI o1/o3代表的推理范式
见效快，但有上限约束
不能产生Pre-train未曾蕴含的能力
2024下半年成为行业主流叙事

为什么这是"非共识"

2024年Q3-Q4，随着OpenAI o1/o3的发布和DeepSeek R1的技术报告，行业叙事急剧转向"推理时计算"（test-time compute）和后训练范式。Scaling Law的Pre-training版本被普遍认为已到瓶颈（所谓"撞墙"叙事），资源转向RL和Post-training。广密认为这个转向过度了——Pre-training的Scaling Law远未到尽头，只是需要更聪明的工程方法（如DeepSeek V3的架构创新），而非简单堆算力。

二、Coding：通往AGI的赛博世界环境

广密对Coding的定位远超"编程辅助工具"的通常认知。他将Coding视为数字经济中最重要的赛博空间环境，是模型通往AGI的关键中间阶段。

广密

Coding是比搜索引擎和推荐引擎重要的东西。Coding是模型的手。

Coding的三层意义

从工具到环境的认知跃迁

表层：AI辅助编程，提高开发者效率——这是目前大多数人理解的层面
中层：数字经济GDP活动中最核心的环境——所有数字产品的底层都是代码，掌控Coding就是掌控数字世界的生产工具
深层：模型的"手"——Coding让模型从"说话"进化为"做事"，是Agent能力的基础设施。没有Coding能力的模型只能对话，有Coding能力的模型可以操纵整个数字世界

<18个月

Coding领域产生巨大变化的时间窗口

2年内

广密对AGI实现的信心时间框架

前所未有

广密对AGI实现的信心程度

Coding在AGI路线图中的位置

在广密的AGI山脉隐喻中，Coding是第一座主峰——ChatGPT只是山脚下的第一个驿站，而Coding/Coding Agent才是真正攀登的开始。广密表达了"前所未有的信心"，认为两年内可以实现AGI，而这个信心的核心来源正是Coding能力的快速进展。

Coding Agent是关键跳板

从Coding到Coding Agent的跃迁至关重要。单纯的代码补全（Copilot模式）只是辅助工具，而Coding Agent（如Cursor、Devin等）代表模型能够自主完成完整的软件工程任务。这意味着模型从"助手"变成"执行者"——它不仅理解代码，还能理解需求、设计架构、调试错误、部署测试。这是通往通用Agent的第一个成功验证场景。

三、OpenAI vs Anthropic：战略分野

广密对OpenAI和Anthropic这两家同源公司的战略走向进行了深入剖析，认为它们的分野反映了当下硅谷AI界最核心的认知分裂。

OpenAI的路径

O系列（o1/o3）由Frontier团队主导
Mark Chen（Frontier团队负责人）成为实际上的第三号人物
快速向消费级互联网公司转型
流量和用户规模优先
支持Anthropic的MCP协议——暗示开始追随？
广密的担忧：过早成为消费互联网公司

Anthropic的路径

坚持安全与能力并重的路线
MCP协议成为行业标准的尝试
更克制的产品策略
在模型能力上保持竞争力
代表"精英主义"路线
广密给予25%仓位——最高配置之一

硅谷的核心认知分裂

关键问题

智能重要，还是流量重要？

广密将硅谷当下的认知分裂归结为这一个问题。OpenAI的行动越来越倾向"流量"——追求MAU、推出消费产品、大量投放。而以Anthropic为代表的另一极则坚持"智能"——认为模型能力的持续突破才是根本价值。广密坚定地站在"智能"一侧，认为这是当下的主线，而流量思维是短期诱惑。

OpenAI的风险信号

广密对OpenAI的具体担忧

GPT-4.5到底算不算领先？——发布后市场反应平淡，没有形成代际碾压
GPT-5为何反复推迟？——这指向Pre-training团队动荡和路线选择问题
是否存在失败风险？——广密提出了这个此前罕见的问题
与微软关系出现裂痕——分离对微软的冲击可能巨大
支持MCP协议——作为生态标准的提出者竟然追随竞争对手的协议，暗示话语权流失

广密（大意）

策略是组织能力的表达。OpenAI和Anthropic同源但分道扬镳，它们的战略选择不是凭空产生的，而是各自组织基因的必然结果。

四、AGI路线图：山脉隐喻与里程碑

广密以"AGI原教旨主义者"自居，提出了一个清晰的AGI路线图。他的核心信条是：智能提升是唯一的主线，智能本身就是最大的应用。

广密

智能提升是唯一的主线。智能本身就是最大的应用。所以我们还是要围绕智能本身去投入和思考。

AGI山脉的里程碑序列

驿站：ChatGPT（2022-2023）

只是"前菜"——让人类第一次看到大模型的对话能力。但这只是山脚下的第一个休息站，远非目的地。

第一峰：Coding / Coding Agent（2024-2025）

模型获得"手"的能力——从对话走向执行。Cursor、Devin等产品验证了这条路。不到18个月就产生了巨大变化。

第二峰：General Agent（2025-2026）

从Coding领域扩展到通用任务执行——浏览网页、操作软件、完成复杂多步骤工作流。Manus是这个方向的早期探索。

第三峰：AI for Science（2026-2027）

AI在科学发现中产生实质性突破——不是辅助科学家，而是独立做出科学发现。广密预测这一波爆发在2026-2027年。

第四峰：Robotics / 具身智能

智能进入物理世界。这是最远的一座山峰，也是最具变革性的——意味着AI不仅理解数字世界，还能操纵物理世界。

AGI山脉：从ChatGPT到具身智能的里程碑序列

"ChatGPT只是前菜"的深层含义

这个判断意味着：当前绝大多数围绕ChatGPT式对话体验构建的商业模式，都可能只是过渡态。真正的价值在于Agent——能自主执行任务、产出成果的AI系统。广密用"前菜vs正餐"的比喻，暗示当前对话式AI的商业价值被严重高估，而Agent的商业价值被严重低估。

五、智能的本质：Token消耗与复杂度

广密提出了一个颇具洞察力的框架：Token消耗量可以作为智能复杂度的代理指标。不同智能水平对应不同量级的Token消耗。

Token消耗的阶梯

产品/场景	单次Token消耗量	智能等级
ChatGPT对话	数千个Token	问答式智能
Perplexity搜索	数万个Token	检索+推理智能
Manus任务执行	70-80万Token（平均值）	Agent式智能
复杂Coding任务	百万级Token	自主工程智能
未来AGI任务	？（可能千万级以上）	通用智能

~1K

简单对话的Token量

~10K

Perplexity搜索Token量

70-80万

Manus平均Token消耗

人类进化的三个关键词

广密对智能本质的哲学思考

生存（Survival）：最基本的驱动力，所有智能的起点
探索（Exploration）：超越生存的好奇心驱动，科学发现的根源
自动化（Automation）：将已理解的能力系统化、规模化——这正是AI最擅长的

按这个框架，当前的AI正处于"自动化"阶段的早期——它能够自动化越来越多的人类任务。但真正的AGI可能需要进入"探索"阶段——即AI能够自主发现人类未知的知识。

Token消耗量揭示的投资逻辑

如果Token消耗量与智能复杂度正相关，那么：（1）模型推理成本的下降速度直接决定Agent经济的到来时间；（2）能够高效使用大量Token完成复杂任务的产品将获得最大价值；（3）当前$20/月的定价模式几乎不可能覆盖Agent级别的Token消耗——Manus单次任务的成本就可能超过用户月费。这意味着AI商业模式的根本重构不可避免。

六、Agent作为新物种

广密将Agent视为一个新物种的诞生，而非简单的产品迭代。他认为智能水平越接近AGI，变化越可能像宇宙大爆炸一样剧烈。

广密

智能水平离AGI越近，可能就越像宇宙大爆炸。

Agent的三大关键能力

长上下文推理 Long Context Reasoning

工具使用 Tool Use

指令遵循 Instruction Following

三大能力的深层含义

长上下文推理：Agent需要在一个长时间、多步骤的任务中保持上下文一致性。这不是简单的"记忆窗口更大"，而是能在70-80万Token的复杂交互中保持逻辑连贯——这是当前模型的主要瓶颈之一
工具使用：Agent必须能调用外部工具（代码执行、网页浏览、API调用等），将自然语言意图转化为具体操作。这是模型从"理解"到"执行"的桥梁
指令遵循：在复杂场景中精确遵循人类意图，不偏离、不自作主张、不遗漏——听起来简单但在实际Agent场景中极难

下一个AGI里程碑：Long-term Memory

前沿判断

Long-term Memory将取代Long Context

广密做了一个重要预测：AGI的下一个里程碑是Long-term Memory（长期记忆），它最终会取代Long Context。当前的长上下文方案（如百万Token窗口）本质上是"短期记忆的扩大"——所有信息都在一次会话中处理。而真正的Long-term Memory意味着模型能够跨会话积累和调用知识，像人类一样形成持久的记忆结构。这将从根本上改变人机交互范式——AI从"每次对话都是陌生人"变成"真正认识你的助手"。

七、下一个范式：Online Learning

广密提出Online Learning可能是下一个范式级别的路线——让模型能够自主地、实时地在线探索和学习。

当前范式

Pre-training → Post-training → 部署
训练和推理严格分离
模型部署后能力固定
更新需要重新训练
知识有截止日期

Online Learning范式

模型在使用过程中持续学习
训练和推理融合
模型能力随使用增长
实时吸收新知识
更接近人类的学习方式

Online Learning对算力格局的影响

如果Online Learning成为现实，GPU/算力的需求模式会发生根本性变化——不再是"集中式大训练+分布式推理"，而是每个推理节点都同时在训练。这对NVIDIA的叙事既是利好（总算力需求可能更大），也是挑战（算力类型需求可能变化）。广密在讨论中涉及了贾扬清公司被收购的事件，以及NVIDIA更大的战略棋局。

Online Learning与Self-play RL的关系

演进脉络

2024 Q3季报中，广密预言了Self-play RL（OpenAI o1印证）
Self-play RL是训练阶段的范式创新——模型自我对弈生成训练数据
Online Learning是更进一步——将Self-play的逻辑延伸到推理/部署阶段
这意味着模型不仅在训练时自我进化，在使用中也在进化

八、模型与产品的关系：护城河与商业模式

$20/月定价的困境

广密指出当前AI产品普遍采用的$20/月定价模式本质上是复制SaaS定价，但SaaS不需要大量消耗Token。当Agent时代到来，单次任务消耗70-80万Token时，这个定价模式将彻底崩塌。

广密（大意）

裸模型发布的时代即将结束。

两条护城河路径

路径一：成为Cloud

OpenAI正在走的路——构建自己的"Azure"
从模型提供商变成基础设施提供商
掌控计算、存储、网络的全栈
与微软的关系裂痕可能加速这一进程

路径二：成为OS

构建生态系统，成为新一代操作系统
MCP协议是这一路径的尝试
让所有应用都在自己的平台上运行
Anthropic的MCP、OpenAI的Plugin都是早期探索

模型会吞噬产品吗？

Feature System vs Learning System

传统产品是Feature System——由人设计功能、用户选择使用
AI模型是Learning System——能力边界不断扩展、自动适应用户需求
核心问题：哪个进化得更快？
如果Learning System进化速度持续超过Feature System，那么大量独立产品将被模型原生能力"吞噬"
搜索已经在被吞噬（Perplexity vs Google），代码编辑正在被吞噬（Cursor改变编程方式）

对AI应用投资的启示

广密提出了一个投资者面临的核心难题：如果模型最终会吞噬产品，那么投资AI应用层是否注定是过渡性投资？他的回答是微妙的——短期内（1-3年），产品层有巨大的"窗口期"机会，因为模型能力需要通过产品形态才能变现；但长期（5年以上），只有那些能够与模型深度融合甚至本身就是模型的产品才能存活。

九、"盗火者"：Perplexity、Cursor与Manus

广密将Perplexity、Cursor和Manus称为"模型的盗火者"——它们像普罗米修斯一样，将模型的力量从实验室带入真实的用户场景。

核心定义

"盗火者"与"套壳之王"

有趣的是，广密同时给Manus和Perplexity另一个称号——"套壳之王"。这看似贬义，实则是褒义：它们不拥有底层模型，但通过极致的产品工程和场景设计，将模型能力放大了数倍。"套壳"不是贬义词，而是一种极高的产品工程能力。真正的能力在于：知道在什么场景下调用什么模型的什么能力，如何编排多步推理，如何处理失败和边界情况。

三个"盗火者"的定位

产品	盗的"火"	替代的对象	Token消耗量级
Perplexity	搜索+推理能力	Google搜索	数万/次
Cursor	Coding+上下文理解	传统IDE	数十万-百万/次
Manus	Agent执行能力	人类助手/分析师	70-80万/次（平均）

为什么广密高度评价这三家

它们都找到了模型能力溢出的最佳承接点
它们都用工程手段把模型能力放大了（而非简单调用API）
它们的执行力极强——被称为"高执行力团队"
它们各自代表了AI产品演进的三个阶段：搜索→编程→通用Agent

"盗火者"Token消耗量级对比（对数尺度）

十、全球大模型竞争格局

GPT-4.5与OpenAI的困境

广密对OpenAI的核心质疑

GPT-4.5算不算领先？——这个问题本身就说明了问题。在GPT-3.5到GPT-4的时代，没人会问"算不算领先"
GPT-5为什么反复推迟？——指向Pre-training团队的动荡和方向摇摆
OpenAI是否存在失败风险？——广密首次提出这个问题，虽未给出确定答案，但问题本身就是信号
支持Anthropic的MCP协议——一个平台型公司开始追随竞争对手的生态标准，是话语权流失的信号

图像生成是"烟雾弹"？

广密（大意）

文生图可能是OpenAI的烟雾弹。当前对机器人基础模型/研究的主流方法也不够本质。

广密暗示OpenAI在图像生成上的高调投入可能是转移注意力的策略——让竞争对手和公众关注图像生成，而自己在更核心的方向上蓄力。但广密的判断是：即使是"烟雾弹"，也可能说明OpenAI在核心方向上遇到了困难——需要用"烟雾弹"来维持叙事。

微软-OpenAI关系的裂痕

分离的可能影响

OpenAI正在构建自己的云基础设施——直接与Azure竞争
微软已经在对冲风险——投资并使用其他模型（Anthropic、开源模型）
如果完全分离，微软失去的不仅是模型，还有AI叙事的锚点
但OpenAI也需要微软的分发渠道和企业客户资源

十一、广密的理想投资组合

广密给出了一个假设性的AI投资组合，以表达他对全球AI公司的价值判断。这个组合的信息密度极高——仓位分配本身就是观点。

广密的理想AI投资组合分配

仓位	标的	核心逻辑
25%	Anthropic	安全+能力并重，MCP生态，最有可能成为AI时代的"OS"
25%	字节跳动	中国最强的AI执行者，拥有流量+算力+人才三重优势
10%	OpenAI	仍有领先地位但风险加大，仓位从应有的25%降至10%
10%	Mirror（Thinking Machine Lab）	代表开放AGI路线，Post-training能力极强
5%	SSI（Ilya的新公司）	Ilya的技术判断力是稀缺资产
5%	Cursor	Coding Agent赛道的领跑者
5%	Manus	通用Agent的早期验证者
15%	待定	留给未知的突破者

组合背后的深层信号

几个值得注意的点：（1）OpenAI仅10%——这在2024年Q3几乎不可想象，广密对OpenAI的信心明显下降；（2）Anthropic获最高配（之一）——说明广密认为技术正统性的价值在回归；（3）字节跳动25%——在中国公司中独占鳌头，甚至超过OpenAI；（4）如果DeepSeek融资，广密会给25%——这意味着在他心中DeepSeek可能是全球最有价值的AI公司之一，只是目前不融资；（5）15%待定——保持对未知突破者的开放性。

十二、DeepSeek与Mirror的意识形态

广密对DeepSeek和Mirror代表的路线进行了意识形态层面的分析，将AI发展的路线之争提升到了价值观的高度。

美国精英主义路线（Anthropic / OpenAI）

核心信念：精英阶层有道德约束
Leadership能确保AGI不做坏事
安全性由公司治理保障
闭源或有限开源
代表：Anthropic的"负责任AI"叙事

开放AGI路线（Mirror / DeepSeek）

核心信念：AGI的权力应交给社区
开源是对权力集中的制衡
安全性由社区治理保障
深度开源
Mirror比较欣赏梁文峰的路线

Mirror的具体动向

广密透露的信息

Mirror可能在DeepSeek V3的基础上做Post-training——利用开源模型作为基座
Mirror的Post-training能力特别强——这是他们的核心竞争力
未来方向：Mid-Train + Post Training——在Pre-train和Post-train之间寻找新的训练范式
这意味着开源模型正在催生一种新的生态：一家做Pre-train开源，另一家在其基础上做Post-train创新

开源与闭源的新博弈格局

DeepSeek的开源策略正在产生广密所描述的"意识形态"效应：它不仅是技术选择，更是关于"AGI的权力应该属于谁"的政治主张。Mirror在DeepSeek V3基础上做Post-training，验证了开源模型作为"公共基础设施"的可能性。如果这条路走通，意味着Pre-training的规模效应壁垒可能被消解——任何有能力做Post-training的团队都可以基于开源Pre-train模型构建有竞争力的产品。

十三、中美AI格局与地缘壁垒

广密在本期季报中对中美AI格局的判断更加尖锐，并对投资方法论提出了批评。

广密（大意）

技术投资不能靠混圈子成功，必须靠创造。

中美AI的不对称竞争

各自的优势与约束

美国优势：算力（NVIDIA）、人才密度（全球精英汇聚硅谷）、资本深度、基础研究传统
中国优势：应用场景（最大单一市场）、工程效率（DeepSeek证明）、政策支持、成本优势
地缘壁垒：芯片出口管制限制中国获取最先进GPU，但DeepSeek证明了在有限算力下仍可产生重大创新
广密的判断：字节跳动在中国AI版图中独占鳌头（给予25%仓位），说明他认为中国AI的最大变量不是创业公司而是科技巨头

投资方法论的批评

"混圈子"vs"创造"

广密批评当下AI投资圈的"混圈子"文化——靠社交网络而非技术判断做决策
他强调技术投资必须由创造驱动——投资人需要真正理解技术方向，而非仅凭社交信号
这与季报系列一贯的"AGI原教旨主义"立场一致——回归技术本质，拒绝叙事投机

十四、关键数据与判断汇总

判断	具体内容
最大非共识	Pre-training空间仍然巨大，决定模型内在上限；Post-training + RL只是强化
AGI时间框架	2年内，"前所未有的信心"
Coding定位	"比搜索引擎和推荐引擎重要"，是"模型的手"
AGI山脉序列	ChatGPT → Coding → Coding Agent → General Agent → AI for Science → Robotics
下一个AGI里程碑	Long-term Memory，将取代Long Context
下一个范式	Online Learning——模型在使用中持续学习
Manus平均Token消耗	70-80万Token/次
Coding变革时间窗口	不到18个月
AI for Science爆发	预计2026-2027年
对OpenAI的判断	GPT-4.5领先存疑，GPT-5反复推迟，存在失败风险
对文生图的判断	可能是OpenAI的"烟雾弹"
裸模型发布时代	即将结束
护城河两条路	成为Cloud 或成为OS
理想投资组合	Anthropic 25% / 字节 25% / OpenAI 10% / Mirror 10% / SSI 5% / Cursor 5% / Manus 5% / 待定 15%
DeepSeek融资假设	"会放基金的25%"
$20/月定价	复制SaaS定价，Agent时代将崩塌
Mirror动向	可能在DeepSeek V3基础上做Post-training，Mid-Train + Post Training
Agent三大能力	长上下文推理、工具使用、指令遵循
人类进化关键词	生存 → 探索 → 自动化

季报系列演进脉络

2023年 — EP.54 口述全球大模型这一年

人类千亿科学豪赌与参差的中美景观

2024 Q1 — EP.64 AGI大基建时代

电+芯片=产出智能

2024 Q2 — EP.69 Perplexity突然火爆

尚未爆发的AI应用生态

2024 Q3 — EP.73 AGI范式大转移

预言草莓、OpenAI o1和Self-play RL

2024 Q4 — EP.86 年终特辑

预言LLM产品超越Google之路

2025 Q1 — EP.97 本期

Pre-training回归、Coding主线、AGI山脉、Online Learning

十五、启示与延伸思考

1. Pre-training vs Post-training的"非共识"暗含对整个行业叙事的警示

2024年下半年，行业集体转向"推理时计算"和Post-training叙事。广密认为这是矫枉过正。他的判断如果成立，意味着：（1）大量投入Post-training优化的公司可能在"矿脉枯竭"后发现上限被Pre-train阶段锁死；（2）真正掌握Pre-training工程能力的团队（如DeepSeek）将在下一轮竞争中占据结构性优势；（3）所谓的"Scaling Law撞墙"可能只是方法论不够聪明，而非物理极限。

2. Coding作为AGI"主峰"可能意味着开发者生态的彻底重构

"Coding是比搜索引擎和推荐引擎重要的东西"——这个判断若成立，意味着整个软件开发行业（全球数千万开发者的生态）将在18个月内发生剧变。传统IDE、代码托管平台、CI/CD工具链、甚至编程语言本身的价值都可能被重新评估。掌控Coding Agent就是掌控数字世界的生产工具——这是一个比搜索引擎更大的生意。

3. Long-term Memory取代Long Context将引发"个人AI"革命

当前的Long Context方案（百万Token窗口）本质是"一次性大记忆"，每次会话结束就遗忘。Long-term Memory意味着AI能够跨会话积累对用户的理解——这将催生真正的"个人AI"：它记得你的偏好、理解你的工作方式、能基于长期积累做出更精准的判断。这可能是比Agent更具颠覆性的方向，因为它改变的不是"AI能做什么"，而是"AI和你的关系"。

4. 广密对OpenAI的降仓（25%→10%）是一个标志性信号

作为"AGI原教旨主义者"，广密对技术正统性有极高的要求。他将OpenAI仓位从应有的最高位降至10%，同时将Anthropic提至25%，反映了一个根本性判断：OpenAI正在从"AGI追求者"滑向"消费互联网公司"。这不仅是投资判断，更是对AGI路线的站队。一年前的广密不太可能做出这样的分配。

5. Token消耗量作为智能代理指标揭示了AI商业模式的根本矛盾

Manus单次70-80万Token的消耗量，按当前定价大约需要$5-15的成本。如果一个用户每天使用5次，月成本就是$750-2250，远超$20/月的订阅费。这意味着：（1）当前的AI产品定价是大规模补贴，靠VC资金维持；（2）Agent时代到来后，要么模型推理成本需要下降1-2个数量级，要么定价模式需要根本性重构（按任务计费？按价值分成？）；（3）能够用最少Token完成最复杂任务的模型/产品将获得巨大竞争优势。

6. Online Learning如果实现将重新定义"模型"的概念

当前的"模型"是一个静态对象——训练完毕后冻结参数，部署推理。Online Learning将模型变成动态实体——它在使用中不断进化，每个用户的交互都可能改变它。这带来了深刻的哲学问题：一个持续学习的模型还是同一个模型吗？它的行为还可预测吗？安全性如何保障？如果每个部署实例都在独立学习，最终会产生数十亿个不同的"模型个体"——这更像生物进化而非软件工程。

7. 大模型季报系列本身记录了AGI认知的演化史

回溯6期季报的主题演进：大基建（算力+电力）→ 应用爆发（Perplexity）→ 范式转移（Self-play RL）→ LLM超越Google → Pre-training回归。每一期都在修正前一期的偏差，形成了一个动态的认知校准过程。这本身就说明：在AI领域，没有永恒的共识，所有的"共识"都是下一期的"非共识"候选。保持认知弹性——而非执着于任何单一叙事——可能是在AI时代生存的最重要能力。

8. DeepSeek的"开源即意识形态"可能改变全球AI权力格局

广密将Mirror/DeepSeek的开源路线描述为一种"意识形态"——AGI的权力应交给社区。如果这种意识形态获得足够多的支持者（包括Mirror这样在其上做Post-training的公司），就可能形成一个"开源AGI联盟"，与Anthropic/OpenAI的"精英主义"路线形成持久对抗。这不再只是商业竞争，而是关于AI权力分配的政治博弈。DeepSeek作为中国公司在这场博弈中扮演的角色尤其值得关注——它的开源选择可能比任何技术突破都更具地缘政治意义。

25年Q1大模型季报：当下最大非共识、AGI的主线与主峰

目录

一、最大非共识：Pre-training回归

Pre-training决定模型的内在上限

对OpenAI Pre-train团队的批评

OpenAI内部的团队动荡

Pre-training（广密认为更本质）

Post-training + RL（行业共识）

为什么这是"非共识"

二、Coding：通往AGI的赛博世界环境

Coding的三层意义

从工具到环境的认知跃迁

Coding在AGI路线图中的位置

Coding Agent是关键跳板

三、OpenAI vs Anthropic：战略分野

OpenAI的路径

Anthropic的路径

硅谷的核心认知分裂

智能重要，还是流量重要？

OpenAI的风险信号

广密对OpenAI的具体担忧

四、AGI路线图：山脉隐喻与里程碑

AGI山脉的里程碑序列

驿站：ChatGPT（2022-2023）

第一峰：Coding / Coding Agent（2024-2025）

第二峰：General Agent（2025-2026）

第三峰：AI for Science（2026-2027）

第四峰：Robotics / 具身智能

五、智能的本质：Token消耗与复杂度

Token消耗的阶梯

人类进化的三个关键词

广密对智能本质的哲学思考

Token消耗量揭示的投资逻辑

六、Agent作为新物种

Agent的三大关键能力

三大能力的深层含义

下一个AGI里程碑：Long-term Memory

Long-term Memory将取代Long Context

七、下一个范式：Online Learning

当前范式

Online Learning范式

Online Learning对算力格局的影响

Online Learning与Self-play RL的关系

演进脉络

八、模型与产品的关系：护城河与商业模式

$20/月定价的困境

两条护城河路径

路径一：成为Cloud

路径二：成为OS

模型会吞噬产品吗？

Feature System vs Learning System

对AI应用投资的启示

九、"盗火者"：Perplexity、Cursor与Manus

"盗火者"与"套壳之王"

三个"盗火者"的定位

为什么广密高度评价这三家

十、全球大模型竞争格局

GPT-4.5与OpenAI的困境

广密对OpenAI的核心质疑

图像生成是"烟雾弹"？

微软-OpenAI关系的裂痕

分离的可能影响

十一、广密的理想投资组合

组合背后的深层信号

十二、DeepSeek与Mirror的意识形态

美国精英主义路线（Anthropic / OpenAI）

开放AGI路线（Mirror / DeepSeek）

Mirror的具体动向

广密透露的信息

开源与闭源的新博弈格局

十三、中美AI格局与地缘壁垒

中美AI的不对称竞争

各自的优势与约束

投资方法论的批评

"混圈子"vs"创造"

十四、关键数据与判断汇总

季报系列演进脉络

2023年 — EP.54 口述全球大模型这一年

2024 Q1 — EP.64 AGI大基建时代

2024 Q2 — EP.69 Perplexity突然火爆