← 返回张小珺主页
一、季报概览:推背感最强的一季
这是全球大模型季报的第九集,从2023年到2026年,小珺与广密持续用季报记录大模型的技术进步与趋势走向。站在2026年第一季度,广密用"推背感非常强"来形容过去三个月的感受。
广密
过去一个季度最本质、最关键的一个转折点就是
Anthropic的Opus 4.5到4.6。我觉得算是一个从
GPT-3到
GPT-4水平的跨时代提升,让我们从chat问问题变成了真正的Agent模式,可以做高价值任务了。
广密认为,去年还担心技术进步曲线放缓,但第一季度的感受完全相反。即便Anthropic和OpenAI的新模型Mesos与Spark很强,它们的下一代已经在训练中,加速度本身还在加速。
代际跨越的信号
从Chat到Agent的转变不只是功能升级,而是价值量级的跃迁。以前模型只能对话和联网搜索,商业价值有限;今天Agent可以完成复杂任务,价值量和usage同步爆发。广密判断AI的"基点时刻"(inflection point)已经到了。
二、硅谷一线体感:研究员已不写代码
广密分享了多个来自硅谷前沿实验室的真实案例,让"代际跨越"变得具有体感。
<1%
2026年人写代码的比例(去年70-80%)
70+
Anthropic 50个工作日的产品/功能数
具体案例
- 研究员不写代码了:前沿实验室的AI researcher和强程序员,日常工作变成"像leader带学生一样",AI来写人来审。甚至"人来审的能力都不够了"。
- Cloud Code和Codex已到CTO水平:在很多任务上已对标Meta的R8或R9级别,开发一个feature两三次迭代就跑通。
- AI突破不再由人类带来:有朋友反馈,最近很多AI research上的突破是Codex和Cloud Code带来的,而非人类工程师。
- 多模态研究加速:做多模态模型的整个数据迭代从一两个月缩短到几天或一周。
- Anthropic的产出速度:50多个工作日发了70多款产品和features,在互联网时代"根本做不到"。
广密
最近很多AI research上的突破不是人类工程师带来的,而是Codex和Cloud Code带来的。我觉得这是一个更质变的信号——AI今天可以显著地加速AI,而且带来一些突破了。
Coding让顶尖1%的生产力放大几十倍
这不是"所有人都变强"的民主化叙事,而是强者恒强的加速器。Coding让最顶尖的千分之一的人的生产力放大了几十倍,带来的是生产力的极端集中。
三、Coding的本质:语言即世界,代码即方案
广密提出了对Coding的几个"强观点",将其从一个垂直应用场景提升到AGI路线图的核心位置。
核心命题
语言即世界,代码即方案
自然语言是对世界的描述,Code是对Solution的描述。语言和代码是高度浓缩且覆盖范围极广的表达方式。如果这个假设成立——Code可以表达数字世界的绝大多数任务——那么Coding Agent做好了,就可以把白领知识工作者的大部分任务自动化。
广密的四个强观点
观点一:Code表达了数字世界的绝大多数任务
今天在办公室电脑上操作的大部分工作任务,基本上都可以被自动化。这不是一个垂直场景,而是对整个白领工作的覆盖。
观点二:不重视Coding的模型公司会掉队
领先的Coding模型就像领先的GPU。你用A100跟别人用GB,差别是巨大的。而且不存在"只给自己用的Coding Model"——自家任务数据分布不够全,肯定落后。更危险的是,一旦你做到第一梯队对Anthropic有威胁,大概率被断供——OpenAI被断供了,xAI被断供了。
观点三:Coding就像亚马逊当年卖书
借助卖书把仓储、物流、用户、供应链全部拉通,再横向扩展。Coding也是如此——先跑通反馈闭环最短的场景,再横向扩展到所有Agent任务。从长期看,Coding只是AGI实现后很小的一部分,更多是起到加速和打样的意义。
观点四:Coding之所以最先跑出来,是因为反馈闭环最短
过去几年AI跑得最快的地方,都是feedback loop最清晰的。数学能表达的东西太有限了,而语言和代码的泛化性是被充分证明了的。
广密
如果领先的模型公司不重视Coding,它大概会掉出第一梯队。也不可能是最高级的模型公司。
四、AGI三幕剧:从Chatbot到Coding Agent到AI Researcher
广密勾画了一个清晰的AGI路线图——三幕剧结构,我们正从第一幕走入第二幕。
模型可以对话、联网搜索,但商业价值有限。本质是"聊天机器人"。
第二幕:Coding Agent(当前)
Agent帮我们直接完成任务,本质是"能干活了"。价值量级跃迁。Coding Agent实现了,AGI可能90%已经实现了——不需要什么范式创新,就可以把大多数知识工作者的任务自动化。
第三幕:Automated AI Researcher
自动化的AI研究员。每个人可能都有一个强大的研究助理,去解决基础科学问题——脑科学、神经科学、材料学。这也是OpenAI最想做的。
Coding Agent = AGI的90%?
这是本集最大胆的判断。广密认为Coding Agent不需要范式创新就能自动化大多数白领工作。如果"语言即世界、代码即方案"的前提成立,那么Coding的泛化性确实覆盖了绝大多数数字世界的任务。第三幕(AI Researcher)的核心突破方向是基础科学——这也是一个"跳过Coding直接做爱因斯坦"被证明行不通的原因。
五、做好Coding的难度:组织与数据的双重壁垒
广密提出了一个关键问题:做好Coding的难度系数到底是几分?如果四分,大家都能做好;如果八九分,领先的Anthropic可能一家独大。
第一壁垒:组织与文化
- Coding不只是技术know-how,更是战略和组织的问题
- 能否组织几百个最聪明的人all in一件事?
- 最聪明的人都想做0到1的突破,不愿做脏活苦活
- 搞数据清理数据是"没人想做"的事
- 每个lab最大的挑战是让人才愿意做1到100的工作
第二壁垒:数据
- Chatbot时代只需要文本类Chat数据
- Coding/Agentic是一套:任务+环境+评估
- 数据比以前的数据难了很多
- 需要大量造出来数据
- Anthropic创始人"重视数据刻在骨子里"
- 传闻首席科学家亲自日常盯数据
两条AGI路线的分化
| 路线 | 追求目标 | 代表公司 | 关键指标 |
| 路线一 | C端流量 | ChatGPT、Gemini、豆包 | DAU、付费用户数 |
| 路线二 | 高价值任务 | Anthropic领先 | Token Usage、塔尖用户价值 |
广密
ChatGPT和Google忙着抢C端的窗口才错过了Coding的窗口。你今天资源很有限,到底是搞C端还是搞Coding?因为资源精力是有限的,可能是要放弃一些东西的。
DAU可能不再是核心指标
广密提出了一个颠覆性观点:在AI时代,DAU可能不重要了。塔尖用户(可能只有一两百万人)的Token Usage可能比几千万DAU更有价值。因为"绝大多数人的智力没有模型高了"——人类在整个社会中的价值可能正在发生根本变化。
六、Anthropic:战略聚焦的胜利
广密对Anthropic的分析是本集最深入的部分,从战略、组织、文化、产品四个维度解读了这家公司的崛起逻辑。
战略:不做什么比做什么更重要
- 放弃C端——C端窗口错过了,不追了
- 放弃多模态——多模态不在科技树的主线上
- 没有跟风做Reasoning Model——当所有人神化RL/O1时,没有把RL当神
- 2024年夏天Sonnet 3.5之后,只all in了一件事:Coding
组织与文化特征
Anthropic vs OpenAI的组织文化对比
- Top-down vs Bottom-up:Anthropic战略非常Top-down,有明确一致的目标;OpenAI特别Bottom-up,一个人做一个新事
- 一帮人做一件事 vs 一个人做一个新事:Anthropic的专注度和聚焦度更高
- 不招Big Name,招Underdog:文化面试严格,会问"AGI实现后你怎么做"之类的问题
- 团队稳定:早期选择Anthropic的人在风险更大时加入,本身就是筛选,人才流失少
- 不神化任何环节:没有刻意神化某个人或某个技术,更像球队/工业化体系
创始团队
CEO Dario和首席科学家Jerry Kaplan都是物理学家出身。他们对AI的理解更多是从物理观察的角度出发——没想着创造新的Transformer架构,而是像物理学家一样洞察AI的规律,找到Data Efficiency、架构的Efficiency、工程的Efficiency。踏踏实实把工程和细节做好。
产品Sense
广密
Cloud Code的创始人Boris其实是很强的Coder,他想deliver一个最强的Coding工作方式,在引领整个开发范式。
Cursor火了以后很多人讨论模型公司要不要做IDE,Anthropic没有做IDE,而是做了终端形式的Cloud Code——因为这可能是更能承接住模型指数级增长红利的产品形态。
Anthropic的风险
广密也指出了Anthropic面临的挑战:(1) 算力规划保守,过去一季度需求爆发超出内部预期,今年实现1000亿AR的最大bottleneck可能就是算力;(2) Revenue高度集中在Coding/Agentic(可能70-80%),存在集中风险;(3) 竞争激烈,OpenAI和Google最终都能追上来。
七、OpenAI:被ChatGPT成功反噬
广密对OpenAI的分析充满辩证——既不像市场叙事那样悲观,也直指其核心战略失误。
核心优势
- C端遥遥领先:9亿+周活,5-6千万付费用户(但最近flat没怎么涨)
- 过去Lead过两次翻身仗
- 综合人才密度和资源能力不差
- GPT-5.4的Coding能力社区反馈"非常好,甚至不弱"
- 算力可能比Anthropic多很多
核心问题
"今天胜利的秘籍就是下个时代的毒药"
- ChatGPT在C端过于成功 → 专注2C而忽视了Coding
- 要重视inference成本 → 模型一直没有做很大
- C端赢了,但发现Coding比Chatbot要大十倍到一百倍
- 大概两三个月前才意识到Coding很重要,之前还在跟Gemini抢C端流量
- 从Meta招Fizi做商业化 → "还是像互联网的老人",已被调走
- Sora被关掉 → 意识到Coding才是主线,多模态不是
文化与组织的深层问题
做得不好的
- Sam是VC出身,容易摊大饼、FOMO
- Bottom-up文化:每个人都想做0→1突破,没人做脏活苦活
- ChatGPT很成功但"没有灵魂",不知道产品经理是谁
- 喜欢造新概念、神化某个环节(Pretrain→Posttrain→O1/O3→...)
- 预训练和Coding两个最根本的事没做好
被低估的
- 50%概率AGI最终winner还是OpenAI
- Bottom-up文化的另一面:可能搞出惊天动地的新范式
- "一两个人就能干出惊天动地的大事"
- 战略大转向已经开始
- Spark(真正的GPT-5)即将发布
广密
OpenAI一直想做爱因斯坦,Anthropic就是把整个白领工作给automate。OpenAI想跨过Coding直接做爱因斯坦,但发现这条路很难而且没那么实用。Anthropic做的很实用,实战特别好,所以revenue爆发也快。
八、Google Gemini:最领先的追随者
广密对Google Gemini的评价可以用一句话概括:短期需要调整,长期最稳。
Gemini 3.0的功过
被高估的"王者归来"
- Benchmark刷得很高,但实际体验用起来"没那么好"——benchmark过度优化了
- C端没有持续增长,用户不太买单
- 连PC桌面版今天都还没有
- 除了让Google股价翻倍证明"不是AI的loser",其他好处有限
- 3.1也没有真正大的突破
- 沉浸于Gemini 3.0的成果,严重误判了Coding的重要性——晚了三四个月才意识到
长期优势
- 算力最足——TPU可以成为另一个英伟达(worst case)
- 现金流最足
- 到了第三代职业经理人还运行良好——"很少有科技公司能做到"
- 更像机器/体系化运转,任意换掉几个人对机器没太大影响
- 有操作系统、有Google Workspace
- 资源和布局上没什么短板,战略上只要跟随就不会掉队
广密
火一个模型其实没什么,还是要持续地deliver牛逼的模型。这需要:第一,每年几百亿美金的投入,且持续三到五年;第二,管理层的魄力和认知;第三,牛逼的团队。持续deliver牛逼模型是对所有科技公司的大考。
九、Meta与xAI:挑战者与掉队者
Meta:最有机会的挑战者
- 取代xAI成为硅谷4号种子
- FAIR团队人才密度很高,9-10个月做出不错的模型
- 七八成学Google对标Gemini,20%学OpenAI的Post-train
- 收购了Manus——"Harness的鼻祖"
- 产品战略不够清楚,适合做个人助理/更低门槛
- "砸钱文化"的长期稳定性存疑
- 中国团队的产品创新力比Meta强
xAI:短期掉队
- 核心founding team(国动、自航、同理之星)都已离开
- 最大问题:战略摇摆——多模态→Chatbot→AI搜索→Coding
- Elon不够聚焦,缺乏耐心,"两个星期就想看效果"
- 盲目scale模型参数,但bottleneck在数据不在模型大小
- "别人用小十几倍的模型可能比你做的还好"
- 中国蒸馏模型都可能比xAI好
- 但手上还有很多GPU,Elon调整能力强
广密
AGI的竞赛很像是你开着F1的速度跑一个马拉松,而且在城市里跑。需要200%、300%的聚焦。如果CEO和leadership不聚焦,肯定是不行的。
Manus被收购:卖便宜了
广密认为Manus"肯定卖便宜了"——如果当时更快地做到一两个billion的AR,可能就是百亿美金估值。但"再过一两个月Opus都出来了,Manus还怎么卖?" AI的Beta(大水漫灌)更重要,每个人都在涨,但窗口终归是阶段性的。
十、Cursor与应用层公司的窗口困境
Cursor作为Coding领域最火的应用公司,广密对其前景给出了一个尖锐的判断。
核心逻辑
技术溢出的红利是阶段性的
Cursor的本质是吃到了模型公司技术溢出的红利。如果最强的模型公司选择不把Mesos和Spark的最强模型API开放出来,而是优先通过自己的产品(Cloud Code、Codex)提供服务——那Cursor用不了最强的模型怎么办?
应用层的结构性困境
- 除非开源模型或自训模型跟frontier差不多——但今天还有gap
- 模型公司的速度"好像比创业公司速度更快",自闭环了
- "壳公司好像还是阶段性的窗口"
- 但也存在机会:如果未来有新的交互方式,用户context都在了,窗口之后还有机遇
- 广密的判断:Cursor最好的出路是卖给微软或Musk
Cloud Code vs Codex 市占率估计
1500-2000万
Cloud Code 估计用户数
1PC(一人公司)仍然可能
如果模型平台变成全球基础设施足够powerful,每个个体都可以做很多事情。从一个idea到代码跑通到revenue实现可能非常高效。一个值得关注的指标:消耗100美金的Token,能不能赚到110美金?——这个ROI闭环很多人还没有跑正。
十一、Harness Engineering与Agent范式
广密对2026年Q1另一个热词"Harness Engineering"提供了三个思维框架。
三个核心思路
思路一:Agent是一等公民
未来应该把AI Agent当人看,看成一等公民。人类知识工作者有工作环境、工作电脑、信用卡——未来在一个平行世界,你也要给Agent搭一套作为一等公民需要的环境。
思路二:Harness是Agent的管理学
Agent就像一个人加入公司团队,好的管理和组织可以让普通人的下限很高。Agent也需要它的"管理学和组织"——这就是Harness的意义。有了Harness以后,普通模型也可以做高价值任务了。加上Cloud Code的需求溢出,非Frontier Model和开源模型也能被用上了。
思路三:从2C/2B到2Human/2Agent
传统时代看2C和2B,今天要区分"到底是面向人类还是面向Agent"。如果是面向Agent,看中的不再是DAU,而是Token的Usage和Token的价值Margin。因为以后用什么工具,可能不是人决策了,可能是Agent去调用哪些工具来决策。
广密
有了Harness以后,普通的模型也可以做高价值的任务了。加上Cloud Code整个需求的溢出接不住,所以非Frontier Model包括开源的很多模型也能被用上了。我觉得这是一个更大的意义。
十二、模型即操作系统:终局形态
广密提出了对模型公司竞争终局的判断:模型就是新一代的操作系统。
终局判断
模型 = 新一代OS
未来最领先的几个模型可能就是世界最重要的基础设施。你生活的问题问它、工作的自动化靠它、科研的支持也是它。操作系统的定义是支持应用的无限扩展——这就是今天的Agent。它会形成新的生态,就像Android、iOS、Windows的生态。
历史上称得上"操作系统"的
不管你追求工作助理、Coding还是生活助理——ChatGPT、Gemini、豆包——最终最终,大家都会走向Global GDP的OS的方向。模型不只是在电脑和手机上,可能还在眼镜等各种设备上,兼容各种硬件。
以前的壁垒可能都失效了
广密指出:以前讨论的壁垒——规模效应、数据飞轮、网络效应——在模型时代可能都不适用了。"以前的壁垒是防冷兵器的,但今天是各种现代化,模型又开始自我迭代。"有可能最后只拼GPU了——因为全球三五家都能迈过AI的G点,而AI自己成长比人快,研究员可能都插不上手了。
十三、社会冲击:白领通缩与失业窗口
广密在社会影响层面给出了相当严峻的判断,认为2026年是"人类开始面临失业比较痛苦的一年"。
正在发生的变化
- 美国本科毕业生就业率历史新低——AI已经把工作2-4年的Junior的工作岗位自动化了
- Meta裁员1.6万人,未来可能再裁1.6万人
- 微软可能不需要15万人——3万人可能比今天15万人干得更好
- 今年可能30%的Junior工作岗位消失
- 印度IT外包可能已经步入末路
- 最牛的AI Researcher都担心1-2年后没有工作——"可能自己未来一到两年是仅有的工作和赚钱的窗口"
广密
人类的知识和智力变得廉价了。以前我们通过学习读书获取知识可以有个工作,但今天这些智力和知识模型里面都有了,被大幅压缩成了计算资源或Token。有可能百分之七八十的人在社会上的价值和意义会发生微妙的变化。
通缩效应
AI驱动的结构性通缩
- 用了ChatGPT和Cloud后,找顾问、买其他软件的需求大幅减少
- 一个产品满足很多需求 → 很多SaaS可能消失
- 人才成长和培养的路径被AI"拦腰截断"
- 强者恒强是残酷的趋势——塔尖的人会贡献整个世界更集中的生产力
人的未来出路
创造力
- 以前想创造但没有技术支持
- 未来一两个人可能做出惊天动地的大事
- 从有想法到跑通代码可能很快
- 创造力会被极大释放
审美与Taste
- 有审美和Taste的人最终还是能deliver很多东西
- AI取代的是不拥抱AI的人
- 积极拥抱AI的人可能是受益者
- 整个infra极大繁荣后,以前无法实现的想法都能实现
广密提到Sam最近两次被袭击,认为这可能只是开始——"有可能未来这种事情会越来越多"。AI带来的社会矛盾激化、贫富差距拉大,对于中产阶级为主体的美国社会(程序员、律师、医生、banker)挑战尤其巨大。AI终究会带来繁荣,但中间可能有一个"痛苦的窗口"——"AI过去一个季度的智商进步可能比人类过去两百年智商的进步要快,但人类没做好准备。"
十四、投资视角:模型公司就是未来的Mega7
头部AI产品营收图景
| 公司/产品 | 当前AR(估计) | 年底预期AR |
| Anthropic | 300+亿美金 | 800-1000亿美金 |
| OpenAI | 250+亿美金 | 800-1000亿美金 |
| Cursor | ~25亿美金 | — |
| Perplexity | 超过5亿美金 | — |
| Manus/Loveable | 各超过4亿美金 | — |
| ElevenLabs/Suno | 各超过3亿美金 | — |
| Genspark | 快速增长中 | — |
广密的判断:明年Anthropic和OpenAI可能奔着2000亿美金的AR去。它们已经是新时代的Mega7。Coding的Run Rate从过去两三年就超过了Google Cloud做了十七八年的规模。
投资框架
理想的AGI Portfolio
- 最领先的三四家模型公司各放20%
- 机器人 10%
- AI for Science 10%
- Agent Infra(Agent平行世界需要的东西) 10%
- 核心指标:能否持续做好Frontier Model
30-50%
3-8年后全球GDP被模型automate的比例
广密
有可能未来投资者会卖掉其他所有科技公司去买模型公司。模型公司可能就是未来科技投资的主线。做好AI产品是对所有科技公司的大考——做不好就被淘汰,做得好就受到投资者喜欢。
中国模型公司的格局
广密观察到,国内的深势(DeepSeek)、MiniMax、智谱都在追赶Anthropic的路线——高价值任务而非C端。这个共识在过去三到六个月形成。豆包在C端做得最好,其他几家"觉得跟豆包没得打才转型的"。最终可能还是拼组织能力和资源。
十五、启示与延伸思考
1. "语言即世界,代码即方案"是本集最核心的命题
这个命题的推论极为深远:如果Code可以表达数字世界的绝大多数任务,那么Coding Agent做好了,白领工作的大部分就可以被自动化。这不是一个关于"程序员工具"的讨论,而是关于人类知识工作的终局形态。广密认为"Coding Agent实现了,AGI可能90%已经实现了"——不需要范式创新。这意味着AGI可能不是某个"eureka moment",而是Coding能力的持续外推。
2. 硅谷御三家的真相:没有赢家,只有持续的淘汰赛
"各领风骚一百天"——过去三年格局从未稳定。Anthropic的胜利本质是战略聚焦和组织纪律的胜利,而非某个技术秘密。OpenAI被ChatGPT的C端成功反噬,但Bottom-up文化可能产出下一个范式级突破。Google最稳(算力、现金流、体系化运转),但短期误判了Coding。关键判断:今年格局定不下来。以前的壁垒(规模效应、网络效应、数据飞轮)在模型时代可能全部失效。
3. 模型公司正在吞噬应用层的生存空间
Cursor、Manus等应用公司本质是吃模型公司"技术溢出的红利"。问题是模型公司可以选择不溢出——优先通过自己的产品提供最强能力。更危险的是,模型公司的迭代速度已经快于创业公司。Anthropic 50天发70个产品——互联网时代做不到的事情,AI原生公司做到了。这种速度差可能让"壳公司"的窗口越来越短。
4. DAU可能不再是核心指标——塔尖用户的Token Usage更重要
Anthropic头部一两百万用户贡献的收入超过OpenAI五六千万订阅用户。这个数据点颠覆了互联网时代的规模逻辑。广密的推论更激进:"绝大多数人的智力没有模型高了,我不知道人类在社会中的价值是否发生了变化。"如果这个判断成立,从2C到2Agent的转变不只是商业模式的变化,而是文明层面的重构。
5. 2026年是"痛苦窗口"的开端
30%的Junior岗位可能消失、美国本科毕业生就业率历史新低、最强的AI Researcher都担心1-2年后失业——这些不是远期预测,而是正在发生的现实。AI过去一季度的智商进步"可能比人类过去200年的进步还快",但社会的准备完全不够。人才成长路径被拦腰截断是一个深层问题:不是技能过时,而是整个学习-实践-成长的阶梯被AI跳过了。
6. AGI时间表在加速——可能年底或明年初就有公司宣布
广密表示AGI路线图比之前更清晰了(三幕剧),时间表也在加速。以前说还需要两三年,现在可能年底或明年初就有公司宣布。这与"做好Coding的难度系数"直接相关——如果Coding Agent真的覆盖了90%的AGI,那么当前Coding能力的指数级增长就在直接推进AGI的实现。关键变量是GPT-5级别模型(Mesos/Spark)的表现。
7. 做好模型是一场"开F1速度跑马拉松"的综合考验
每年投入三五百亿美金且持续三到五年、创始人有认知和魄力、招到上百名世界级AI科学家、有战略bet和产品go-to-market——四个条件缺一不可。这不是一个技术问题,也不是一个资金问题,而是一个极度综合的组织/战略/执行/人才问题。广密的结论:再出现新的模型公司"难度比想象的大非常非常多"——就像再造一个台积电。
延伸阅读
- 全球大模型季报第8集 (2025 Q4) — 当时的主线判断已是"Coding Coding Coding"
- 全球大模型季报第1-7集 — 从2023年到2025年的技术趋势追踪,"很多季报内容慢慢变成了现实"
- EP.143 何小鹏:物理AI的赌注 — 物理AI视角下的不同方法论,与本集数字AI视角形成互补
- Anthropic Opus 4.5/4.6 发布 — 广密认为的"GPT-3到GPT-4级跨越"的关键模型
- OpenAI Spark(GPT-5级)即将发布 — "真正意义上的GPT-5",可能改变竞争格局