深度研究 — #136 全球大模型季报第9集

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

季报概览：推背感最强的一季
硅谷一线体感：研究员已不写代码
Coding的本质：语言即世界，代码即方案
AGI三幕剧：从Chatbot到Coding Agent到AI Researcher
做好Coding的难度：组织与数据的双重壁垒
Anthropic：战略聚焦的胜利
OpenAI：被ChatGPT成功反噬
Google Gemini：最领先的追随者
Meta与xAI：挑战者与掉队者
Cursor与应用层公司的窗口困境
Harness Engineering与Agent范式
模型即操作系统：终局形态
社会冲击：白领通缩与失业窗口
投资视角：模型公司就是未来的Mega7
启示与延伸思考

一、季报概览：推背感最强的一季

这是全球大模型季报的第九集，从2023年到2026年，小珺与广密持续用季报记录大模型的技术进步与趋势走向。站在2026年第一季度，广密用"推背感非常强"来形容过去三个月的感受。

Opus 4.5→4.6

本季度最关键转折点

>2025全年

一季度模型进步幅度

GPT-5级

Mesos与Spark即将发布

6-7月

可能再迎GPT3→4级跨越

广密

过去一个季度最本质、最关键的一个转折点就是Anthropic的Opus 4.5到4.6。我觉得算是一个从GPT-3到GPT-4水平的跨时代提升，让我们从chat问问题变成了真正的Agent模式，可以做高价值任务了。

广密认为，去年还担心技术进步曲线放缓，但第一季度的感受完全相反。即便Anthropic和OpenAI的新模型Mesos与Spark很强，它们的下一代已经在训练中，加速度本身还在加速。

代际跨越的信号

从Chat到Agent的转变不只是功能升级，而是价值量级的跃迁。以前模型只能对话和联网搜索，商业价值有限；今天Agent可以完成复杂任务，价值量和usage同步爆发。广密判断AI的"基点时刻"（inflection point）已经到了。

二、硅谷一线体感：研究员已不写代码

广密分享了多个来自硅谷前沿实验室的真实案例，让"代际跨越"变得具有体感。

<1%

2026年人写代码的比例（去年70-80%）

数百美金/天

塔尖开发者Token消耗

1-2天

想法到跑通代码（原2-3周）

70+

Anthropic 50个工作日的产品/功能数

具体案例

研究员不写代码了：前沿实验室的AI researcher和强程序员，日常工作变成"像leader带学生一样"，AI来写人来审。甚至"人来审的能力都不够了"。
Cloud Code和Codex已到CTO水平：在很多任务上已对标Meta的R8或R9级别，开发一个feature两三次迭代就跑通。
AI突破不再由人类带来：有朋友反馈，最近很多AI research上的突破是Codex和Cloud Code带来的，而非人类工程师。
多模态研究加速：做多模态模型的整个数据迭代从一两个月缩短到几天或一周。
Anthropic的产出速度：50多个工作日发了70多款产品和features，在互联网时代"根本做不到"。

广密

最近很多AI research上的突破不是人类工程师带来的，而是Codex和Cloud Code带来的。我觉得这是一个更质变的信号——AI今天可以显著地加速AI，而且带来一些突破了。

Coding让顶尖1%的生产力放大几十倍

这不是"所有人都变强"的民主化叙事，而是强者恒强的加速器。Coding让最顶尖的千分之一的人的生产力放大了几十倍，带来的是生产力的极端集中。

三、Coding的本质：语言即世界，代码即方案

广密提出了对Coding的几个"强观点"，将其从一个垂直应用场景提升到AGI路线图的核心位置。

核心命题

语言即世界，代码即方案

自然语言是对世界的描述，Code是对Solution的描述。语言和代码是高度浓缩且覆盖范围极广的表达方式。如果这个假设成立——Code可以表达数字世界的绝大多数任务——那么Coding Agent做好了，就可以把白领知识工作者的大部分任务自动化。

广密的四个强观点

观点一：Code表达了数字世界的绝大多数任务

今天在办公室电脑上操作的大部分工作任务，基本上都可以被自动化。这不是一个垂直场景，而是对整个白领工作的覆盖。

观点二：不重视Coding的模型公司会掉队

领先的Coding模型就像领先的GPU。你用A100跟别人用GB，差别是巨大的。而且不存在"只给自己用的Coding Model"——自家任务数据分布不够全，肯定落后。更危险的是，一旦你做到第一梯队对Anthropic有威胁，大概率被断供——OpenAI被断供了，xAI被断供了。

观点三：Coding就像亚马逊当年卖书

借助卖书把仓储、物流、用户、供应链全部拉通，再横向扩展。Coding也是如此——先跑通反馈闭环最短的场景，再横向扩展到所有Agent任务。从长期看，Coding只是AGI实现后很小的一部分，更多是起到加速和打样的意义。

观点四：Coding之所以最先跑出来，是因为反馈闭环最短

过去几年AI跑得最快的地方，都是feedback loop最清晰的。数学能表达的东西太有限了，而语言和代码的泛化性是被充分证明了的。

广密

如果领先的模型公司不重视Coding，它大概会掉出第一梯队。也不可能是最高级的模型公司。

四、AGI三幕剧：从Chatbot到Coding Agent到AI Researcher

广密勾画了一个清晰的AGI路线图——三幕剧结构，我们正从第一幕走入第二幕。

第一幕：Chatbot（ChatGPT）

模型可以对话、联网搜索，但商业价值有限。本质是"聊天机器人"。

第二幕：Coding Agent（当前）

Agent帮我们直接完成任务，本质是"能干活了"。价值量级跃迁。Coding Agent实现了，AGI可能90%已经实现了——不需要什么范式创新，就可以把大多数知识工作者的任务自动化。

第三幕：Automated AI Researcher

自动化的AI研究员。每个人可能都有一个强大的研究助理，去解决基础科学问题——脑科学、神经科学、材料学。这也是OpenAI最想做的。

AGI三幕剧路线图：价值量级与时间

Coding Agent = AGI的90%？

这是本集最大胆的判断。广密认为Coding Agent不需要范式创新就能自动化大多数白领工作。如果"语言即世界、代码即方案"的前提成立，那么Coding的泛化性确实覆盖了绝大多数数字世界的任务。第三幕（AI Researcher）的核心突破方向是基础科学——这也是一个"跳过Coding直接做爱因斯坦"被证明行不通的原因。

五、做好Coding的难度：组织与数据的双重壁垒

广密提出了一个关键问题：做好Coding的难度系数到底是几分？如果四分，大家都能做好；如果八九分，领先的Anthropic可能一家独大。

第一壁垒：组织与文化

Coding不只是技术know-how，更是战略和组织的问题
能否组织几百个最聪明的人all in一件事？
最聪明的人都想做0到1的突破，不愿做脏活苦活
搞数据清理数据是"没人想做"的事
每个lab最大的挑战是让人才愿意做1到100的工作

第二壁垒：数据

Chatbot时代只需要文本类Chat数据
Coding/Agentic是一套：任务+环境+评估
数据比以前的数据难了很多
需要大量造出来数据
Anthropic创始人"重视数据刻在骨子里"
传闻首席科学家亲自日常盯数据

两条AGI路线的分化

路线	追求目标	代表公司	关键指标
路线一	C端流量	ChatGPT、Gemini、豆包	DAU、付费用户数
路线二	高价值任务	Anthropic领先	Token Usage、塔尖用户价值

广密

ChatGPT和Google忙着抢C端的窗口才错过了Coding的窗口。你今天资源很有限，到底是搞C端还是搞Coding？因为资源精力是有限的，可能是要放弃一些东西的。

DAU可能不再是核心指标

广密提出了一个颠覆性观点：在AI时代，DAU可能不重要了。塔尖用户（可能只有一两百万人）的Token Usage可能比几千万DAU更有价值。因为"绝大多数人的智力没有模型高了"——人类在整个社会中的价值可能正在发生根本变化。

六、Anthropic：战略聚焦的胜利

广密对Anthropic的分析是本集最深入的部分，从战略、组织、文化、产品四个维度解读了这家公司的崛起逻辑。

战略：不做什么比做什么更重要

放弃C端——C端窗口错过了，不追了
放弃多模态——多模态不在科技树的主线上
没有跟风做Reasoning Model——当所有人神化RL/O1时，没有把RL当神
2024年夏天Sonnet 3.5之后，只all in了一件事：Coding

组织与文化特征

Anthropic vs OpenAI的组织文化对比

Top-down vs Bottom-up：Anthropic战略非常Top-down，有明确一致的目标；OpenAI特别Bottom-up，一个人做一个新事
一帮人做一件事 vs 一个人做一个新事：Anthropic的专注度和聚焦度更高
不招Big Name，招Underdog：文化面试严格，会问"AGI实现后你怎么做"之类的问题
团队稳定：早期选择Anthropic的人在风险更大时加入，本身就是筛选，人才流失少
不神化任何环节：没有刻意神化某个人或某个技术，更像球队/工业化体系

创始团队

CEO Dario和首席科学家Jerry Kaplan都是物理学家出身。他们对AI的理解更多是从物理观察的角度出发——没想着创造新的Transformer架构，而是像物理学家一样洞察AI的规律，找到Data Efficiency、架构的Efficiency、工程的Efficiency。踏踏实实把工程和细节做好。

产品Sense

广密

Cloud Code的创始人Boris其实是很强的Coder，他想deliver一个最强的Coding工作方式，在引领整个开发范式。Cursor火了以后很多人讨论模型公司要不要做IDE，Anthropic没有做IDE，而是做了终端形式的Cloud Code——因为这可能是更能承接住模型指数级增长红利的产品形态。

Anthropic的风险

广密也指出了Anthropic面临的挑战：(1) 算力规划保守，过去一季度需求爆发超出内部预期，今年实现1000亿AR的最大bottleneck可能就是算力；(2) Revenue高度集中在Coding/Agentic（可能70-80%），存在集中风险；(3) 竞争激烈，OpenAI和Google最终都能追上来。

七、OpenAI：被ChatGPT成功反噬

广密对OpenAI的分析充满辩证——既不像市场叙事那样悲观，也直指其核心战略失误。

核心优势

C端遥遥领先：9亿+周活，5-6千万付费用户（但最近flat没怎么涨）
过去Lead过两次翻身仗
综合人才密度和资源能力不差
GPT-5.4的Coding能力社区反馈"非常好，甚至不弱"
算力可能比Anthropic多很多

核心问题

"今天胜利的秘籍就是下个时代的毒药"

ChatGPT在C端过于成功 → 专注2C而忽视了Coding
要重视inference成本 → 模型一直没有做很大
C端赢了，但发现Coding比Chatbot要大十倍到一百倍
大概两三个月前才意识到Coding很重要，之前还在跟Gemini抢C端流量
从Meta招Fizi做商业化 → "还是像互联网的老人"，已被调走
Sora被关掉 → 意识到Coding才是主线，多模态不是

文化与组织的深层问题

做得不好的

Sam是VC出身，容易摊大饼、FOMO
Bottom-up文化：每个人都想做0→1突破，没人做脏活苦活
ChatGPT很成功但"没有灵魂"，不知道产品经理是谁
喜欢造新概念、神化某个环节（Pretrain→Posttrain→O1/O3→...）
预训练和Coding两个最根本的事没做好

被低估的

50%概率AGI最终winner还是OpenAI
Bottom-up文化的另一面：可能搞出惊天动地的新范式
"一两个人就能干出惊天动地的大事"
战略大转向已经开始
Spark（真正的GPT-5）即将发布

广密

OpenAI一直想做爱因斯坦，Anthropic就是把整个白领工作给automate。OpenAI想跨过Coding直接做爱因斯坦，但发现这条路很难而且没那么实用。Anthropic做的很实用，实战特别好，所以revenue爆发也快。

八、Google Gemini：最领先的追随者

广密对Google Gemini的评价可以用一句话概括：短期需要调整，长期最稳。

Gemini 3.0的功过

被高估的"王者归来"

Benchmark刷得很高，但实际体验用起来"没那么好"——benchmark过度优化了
C端没有持续增长，用户不太买单
连PC桌面版今天都还没有
除了让Google股价翻倍证明"不是AI的loser"，其他好处有限
3.1也没有真正大的突破
沉浸于Gemini 3.0的成果，严重误判了Coding的重要性——晚了三四个月才意识到

长期优势

算力最足——TPU可以成为另一个英伟达（worst case）
现金流最足
到了第三代职业经理人还运行良好——"很少有科技公司能做到"
更像机器/体系化运转，任意换掉几个人对机器没太大影响
有操作系统、有Google Workspace
资源和布局上没什么短板，战略上只要跟随就不会掉队

广密

火一个模型其实没什么，还是要持续地deliver牛逼的模型。这需要：第一，每年几百亿美金的投入，且持续三到五年；第二，管理层的魄力和认知；第三，牛逼的团队。持续deliver牛逼模型是对所有科技公司的大考。

九、Meta与xAI：挑战者与掉队者

Meta：最有机会的挑战者

取代xAI成为硅谷4号种子
FAIR团队人才密度很高，9-10个月做出不错的模型
七八成学Google对标Gemini，20%学OpenAI的Post-train
收购了Manus——"Harness的鼻祖"
产品战略不够清楚，适合做个人助理/更低门槛
"砸钱文化"的长期稳定性存疑
中国团队的产品创新力比Meta强

xAI：短期掉队

核心founding team（国动、自航、同理之星）都已离开
最大问题：战略摇摆——多模态→Chatbot→AI搜索→Coding
Elon不够聚焦，缺乏耐心，"两个星期就想看效果"
盲目scale模型参数，但bottleneck在数据不在模型大小
"别人用小十几倍的模型可能比你做的还好"
中国蒸馏模型都可能比xAI好
但手上还有很多GPU，Elon调整能力强

广密

AGI的竞赛很像是你开着F1的速度跑一个马拉松，而且在城市里跑。需要200%、300%的聚焦。如果CEO和leadership不聚焦，肯定是不行的。

Manus被收购：卖便宜了

广密认为Manus"肯定卖便宜了"——如果当时更快地做到一两个billion的AR，可能就是百亿美金估值。但"再过一两个月Opus都出来了，Manus还怎么卖？" AI的Beta（大水漫灌）更重要，每个人都在涨，但窗口终归是阶段性的。

十、Cursor与应用层公司的窗口困境

Cursor作为Coding领域最火的应用公司，广密对其前景给出了一个尖锐的判断。

核心逻辑

技术溢出的红利是阶段性的

Cursor的本质是吃到了模型公司技术溢出的红利。如果最强的模型公司选择不把Mesos和Spark的最强模型API开放出来，而是优先通过自己的产品（Cloud Code、Codex）提供服务——那Cursor用不了最强的模型怎么办？

应用层的结构性困境

除非开源模型或自训模型跟frontier差不多——但今天还有gap
模型公司的速度"好像比创业公司速度更快"，自闭环了
"壳公司好像还是阶段性的窗口"
但也存在机会：如果未来有新的交互方式，用户context都在了，窗口之后还有机遇
广密的判断：Cursor最好的出路是卖给微软或Musk

Cloud Code vs Codex 市占率估计

1500-2000万

Cloud Code 估计用户数

300万

Codex 周活跃（Sam公布）

7:3

估计市占率比例

1PC（一人公司）仍然可能

如果模型平台变成全球基础设施足够powerful，每个个体都可以做很多事情。从一个idea到代码跑通到revenue实现可能非常高效。一个值得关注的指标：消耗100美金的Token，能不能赚到110美金？——这个ROI闭环很多人还没有跑正。

十一、Harness Engineering与Agent范式

广密对2026年Q1另一个热词"Harness Engineering"提供了三个思维框架。

三个核心思路

思路一：Agent是一等公民

未来应该把AI Agent当人看，看成一等公民。人类知识工作者有工作环境、工作电脑、信用卡——未来在一个平行世界，你也要给Agent搭一套作为一等公民需要的环境。

思路二：Harness是Agent的管理学

Agent就像一个人加入公司团队，好的管理和组织可以让普通人的下限很高。Agent也需要它的"管理学和组织"——这就是Harness的意义。有了Harness以后，普通模型也可以做高价值任务了。加上Cloud Code的需求溢出，非Frontier Model和开源模型也能被用上了。

思路三：从2C/2B到2Human/2Agent

传统时代看2C和2B，今天要区分"到底是面向人类还是面向Agent"。如果是面向Agent，看中的不再是DAU，而是Token的Usage和Token的价值Margin。因为以后用什么工具，可能不是人决策了，可能是Agent去调用哪些工具来决策。

广密

有了Harness以后，普通的模型也可以做高价值的任务了。加上Cloud Code整个需求的溢出接不住，所以非Frontier Model包括开源的很多模型也能被用上了。我觉得这是一个更大的意义。

十二、模型即操作系统：终局形态

广密提出了对模型公司竞争终局的判断：模型就是新一代的操作系统。

终局判断

模型 = 新一代OS

未来最领先的几个模型可能就是世界最重要的基础设施。你生活的问题问它、工作的自动化靠它、科研的支持也是它。操作系统的定义是支持应用的无限扩展——这就是今天的Agent。它会形成新的生态，就像Android、iOS、Windows的生态。

历史上称得上"操作系统"的

Windows

PC时代

iOS

移动时代

Android

移动时代

微信

超级App时代

不管你追求工作助理、Coding还是生活助理——ChatGPT、Gemini、豆包——最终最终，大家都会走向Global GDP的OS的方向。模型不只是在电脑和手机上，可能还在眼镜等各种设备上，兼容各种硬件。

硅谷御三家：战略定位与竞争态势

以前的壁垒可能都失效了

广密指出：以前讨论的壁垒——规模效应、数据飞轮、网络效应——在模型时代可能都不适用了。"以前的壁垒是防冷兵器的，但今天是各种现代化，模型又开始自我迭代。"有可能最后只拼GPU了——因为全球三五家都能迈过AI的G点，而AI自己成长比人快，研究员可能都插不上手了。

十三、社会冲击：白领通缩与失业窗口

广密在社会影响层面给出了相当严峻的判断，认为2026年是"人类开始面临失业比较痛苦的一年"。

正在发生的变化

美国本科毕业生就业率历史新低——AI已经把工作2-4年的Junior的工作岗位自动化了
Meta裁员1.6万人，未来可能再裁1.6万人
微软可能不需要15万人——3万人可能比今天15万人干得更好
今年可能30%的Junior工作岗位消失
印度IT外包可能已经步入末路
最牛的AI Researcher都担心1-2年后没有工作——"可能自己未来一到两年是仅有的工作和赚钱的窗口"

广密

人类的知识和智力变得廉价了。以前我们通过学习读书获取知识可以有个工作，但今天这些智力和知识模型里面都有了，被大幅压缩成了计算资源或Token。有可能百分之七八十的人在社会上的价值和意义会发生微妙的变化。

通缩效应

AI驱动的结构性通缩

用了ChatGPT和Cloud后，找顾问、买其他软件的需求大幅减少
一个产品满足很多需求 → 很多SaaS可能消失
人才成长和培养的路径被AI"拦腰截断"
强者恒强是残酷的趋势——塔尖的人会贡献整个世界更集中的生产力

人的未来出路

创造力

以前想创造但没有技术支持
未来一两个人可能做出惊天动地的大事
从有想法到跑通代码可能很快
创造力会被极大释放

审美与Taste

有审美和Taste的人最终还是能deliver很多东西
AI取代的是不拥抱AI的人
积极拥抱AI的人可能是受益者
整个infra极大繁荣后，以前无法实现的想法都能实现

Sam Altman遇袭的信号意义

广密提到Sam最近两次被袭击，认为这可能只是开始——"有可能未来这种事情会越来越多"。AI带来的社会矛盾激化、贫富差距拉大，对于中产阶级为主体的美国社会（程序员、律师、医生、banker）挑战尤其巨大。AI终究会带来繁荣，但中间可能有一个"痛苦的窗口"——"AI过去一个季度的智商进步可能比人类过去两百年智商的进步要快，但人类没做好准备。"

十四、投资视角：模型公司就是未来的Mega7

头部AI产品营收图景

公司/产品	当前AR（估计）	年底预期AR
Anthropic	300+亿美金	800-1000亿美金
OpenAI	250+亿美金	800-1000亿美金
Cursor	~25亿美金	—
Perplexity	超过5亿美金	—
Manus/Loveable	各超过4亿美金	—
ElevenLabs/Suno	各超过3亿美金	—
Genspark	快速增长中	—

广密的判断：明年Anthropic和OpenAI可能奔着2000亿美金的AR去。它们已经是新时代的Mega7。Coding的Run Rate从过去两三年就超过了Google Cloud做了十七八年的规模。

投资框架

理想的AGI Portfolio

最领先的三四家模型公司各放20%
机器人 10%
AI for Science 10%
Agent Infra（Agent平行世界需要的东西） 10%
核心指标：能否持续做好Frontier Model

10万亿

每家模型公司的潜在市值（美金）

30-50%

3-8年后全球GDP被模型automate的比例

年底

OpenAI/Anthropic可能IPO

广密

有可能未来投资者会卖掉其他所有科技公司去买模型公司。模型公司可能就是未来科技投资的主线。做好AI产品是对所有科技公司的大考——做不好就被淘汰，做得好就受到投资者喜欢。

中国模型公司的格局

广密观察到，国内的深势（DeepSeek）、MiniMax、智谱都在追赶Anthropic的路线——高价值任务而非C端。这个共识在过去三到六个月形成。豆包在C端做得最好，其他几家"觉得跟豆包没得打才转型的"。最终可能还是拼组织能力和资源。

十五、启示与延伸思考

1. "语言即世界，代码即方案"是本集最核心的命题

这个命题的推论极为深远：如果Code可以表达数字世界的绝大多数任务，那么Coding Agent做好了，白领工作的大部分就可以被自动化。这不是一个关于"程序员工具"的讨论，而是关于人类知识工作的终局形态。广密认为"Coding Agent实现了，AGI可能90%已经实现了"——不需要范式创新。这意味着AGI可能不是某个"eureka moment"，而是Coding能力的持续外推。

2. 硅谷御三家的真相：没有赢家，只有持续的淘汰赛

"各领风骚一百天"——过去三年格局从未稳定。Anthropic的胜利本质是战略聚焦和组织纪律的胜利，而非某个技术秘密。OpenAI被ChatGPT的C端成功反噬，但Bottom-up文化可能产出下一个范式级突破。Google最稳（算力、现金流、体系化运转），但短期误判了Coding。关键判断：今年格局定不下来。以前的壁垒（规模效应、网络效应、数据飞轮）在模型时代可能全部失效。

3. 模型公司正在吞噬应用层的生存空间

Cursor、Manus等应用公司本质是吃模型公司"技术溢出的红利"。问题是模型公司可以选择不溢出——优先通过自己的产品提供最强能力。更危险的是，模型公司的迭代速度已经快于创业公司。Anthropic 50天发70个产品——互联网时代做不到的事情，AI原生公司做到了。这种速度差可能让"壳公司"的窗口越来越短。

4. DAU可能不再是核心指标——塔尖用户的Token Usage更重要

Anthropic头部一两百万用户贡献的收入超过OpenAI五六千万订阅用户。这个数据点颠覆了互联网时代的规模逻辑。广密的推论更激进："绝大多数人的智力没有模型高了，我不知道人类在社会中的价值是否发生了变化。"如果这个判断成立，从2C到2Agent的转变不只是商业模式的变化，而是文明层面的重构。

5. 2026年是"痛苦窗口"的开端

30%的Junior岗位可能消失、美国本科毕业生就业率历史新低、最强的AI Researcher都担心1-2年后失业——这些不是远期预测，而是正在发生的现实。AI过去一季度的智商进步"可能比人类过去200年的进步还快"，但社会的准备完全不够。人才成长路径被拦腰截断是一个深层问题：不是技能过时，而是整个学习-实践-成长的阶梯被AI跳过了。

6. AGI时间表在加速——可能年底或明年初就有公司宣布

广密表示AGI路线图比之前更清晰了（三幕剧），时间表也在加速。以前说还需要两三年，现在可能年底或明年初就有公司宣布。这与"做好Coding的难度系数"直接相关——如果Coding Agent真的覆盖了90%的AGI，那么当前Coding能力的指数级增长就在直接推进AGI的实现。关键变量是GPT-5级别模型（Mesos/Spark）的表现。

7. 做好模型是一场"开F1速度跑马拉松"的综合考验

每年投入三五百亿美金且持续三到五年、创始人有认知和魄力、招到上百名世界级AI科学家、有战略bet和产品go-to-market——四个条件缺一不可。这不是一个技术问题，也不是一个资金问题，而是一个极度综合的组织/战略/执行/人才问题。广密的结论：再出现新的模型公司"难度比想象的大非常非常多"——就像再造一个台积电。

Coding是AGI第二幕，模型正成为新一代OS

目录