← 返回张小珺主页
深度研究 Deep Dive

Coding是AGI第二幕,模型正成为新一代OS

#136 全球大模型季报第9集:和广密聊硅谷御三家真相
2026.4.15 · 01:22:40 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 季报概览:推背感最强的一季
  2. 硅谷一线体感:研究员已不写代码
  3. Coding的本质:语言即世界,代码即方案
  4. AGI三幕剧:从Chatbot到Coding Agent到AI Researcher
  5. 做好Coding的难度:组织与数据的双重壁垒
  6. Anthropic:战略聚焦的胜利
  7. OpenAI:被ChatGPT成功反噬
  8. Google Gemini:最领先的追随者
  9. Meta与xAI:挑战者与掉队者
  10. Cursor与应用层公司的窗口困境
  11. Harness Engineering与Agent范式
  12. 模型即操作系统:终局形态
  13. 社会冲击:白领通缩与失业窗口
  14. 投资视角:模型公司就是未来的Mega7
  15. 启示与延伸思考

一、季报概览:推背感最强的一季

这是全球大模型季报的第九集,从2023年到2026年,小珺与广密持续用季报记录大模型的技术进步与趋势走向。站在2026年第一季度,广密用"推背感非常强"来形容过去三个月的感受。

Opus 4.5→4.6
本季度最关键转折点
>2025全年
一季度模型进步幅度
Mesos与Spark即将发布
6-7月
可能再迎GPT3→4级跨越
广密
过去一个季度最本质、最关键的一个转折点就是Anthropic的Opus 4.5到4.6。我觉得算是一个从GPT-3GPT-4水平的跨时代提升,让我们从chat问问题变成了真正的Agent模式,可以做高价值任务了。

广密认为,去年还担心技术进步曲线放缓,但第一季度的感受完全相反。即便Anthropic和OpenAI的新模型Mesos与Spark很强,它们的下一代已经在训练中,加速度本身还在加速。

代际跨越的信号

从Chat到Agent的转变不只是功能升级,而是价值量级的跃迁。以前模型只能对话和联网搜索,商业价值有限;今天Agent可以完成复杂任务,价值量和usage同步爆发。广密判断AI的"基点时刻"(inflection point)已经到了。

二、硅谷一线体感:研究员已不写代码

广密分享了多个来自硅谷前沿实验室的真实案例,让"代际跨越"变得具有体感。

<1%
2026年人写代码的比例(去年70-80%)
数百美金/天
塔尖开发者Token消耗
1-2天
想法到跑通代码(原2-3周)
70+
Anthropic 50个工作日的产品/功能数

具体案例

广密
最近很多AI research上的突破不是人类工程师带来的,而是Codex和Cloud Code带来的。我觉得这是一个更质变的信号——AI今天可以显著地加速AI,而且带来一些突破了。

Coding让顶尖1%的生产力放大几十倍

这不是"所有人都变强"的民主化叙事,而是强者恒强的加速器。Coding让最顶尖的千分之一的人的生产力放大了几十倍,带来的是生产力的极端集中。

三、Coding的本质:语言即世界,代码即方案

广密提出了对Coding的几个"强观点",将其从一个垂直应用场景提升到AGI路线图的核心位置。

核心命题

语言即世界,代码即方案

自然语言是对世界的描述,Code是对Solution的描述。语言和代码是高度浓缩且覆盖范围极广的表达方式。如果这个假设成立——Code可以表达数字世界的绝大多数任务——那么Coding Agent做好了,就可以把白领知识工作者的大部分任务自动化。

广密的四个强观点

观点一:Code表达了数字世界的绝大多数任务

今天在办公室电脑上操作的大部分工作任务,基本上都可以被自动化。这不是一个垂直场景,而是对整个白领工作的覆盖。

观点二:不重视Coding的模型公司会掉队

领先的Coding模型就像领先的GPU。你用A100跟别人用GB,差别是巨大的。而且不存在"只给自己用的Coding Model"——自家任务数据分布不够全,肯定落后。更危险的是,一旦你做到第一梯队对Anthropic有威胁,大概率被断供——OpenAI被断供了,xAI被断供了。

观点三:Coding就像亚马逊当年卖书

借助卖书把仓储、物流、用户、供应链全部拉通,再横向扩展。Coding也是如此——先跑通反馈闭环最短的场景,再横向扩展到所有Agent任务。从长期看,Coding只是AGI实现后很小的一部分,更多是起到加速和打样的意义。

观点四:Coding之所以最先跑出来,是因为反馈闭环最短

过去几年AI跑得最快的地方,都是feedback loop最清晰的。数学能表达的东西太有限了,而语言和代码的泛化性是被充分证明了的。

广密
如果领先的模型公司不重视Coding,它大概会掉出第一梯队。也不可能是最高级的模型公司。

四、AGI三幕剧:从Chatbot到Coding Agent到AI Researcher

广密勾画了一个清晰的AGI路线图——三幕剧结构,我们正从第一幕走入第二幕。

第一幕:Chatbot(ChatGPT

模型可以对话、联网搜索,但商业价值有限。本质是"聊天机器人"。

第二幕:Coding Agent(当前)

Agent帮我们直接完成任务,本质是"能干活了"。价值量级跃迁。Coding Agent实现了,AGI可能90%已经实现了——不需要什么范式创新,就可以把大多数知识工作者的任务自动化。

第三幕:Automated AI Researcher

自动化的AI研究员。每个人可能都有一个强大的研究助理,去解决基础科学问题——脑科学、神经科学、材料学。这也是OpenAI最想做的。

AGI三幕剧路线图:价值量级与时间

Coding Agent = AGI的90%?

这是本集最大胆的判断。广密认为Coding Agent不需要范式创新就能自动化大多数白领工作。如果"语言即世界、代码即方案"的前提成立,那么Coding的泛化性确实覆盖了绝大多数数字世界的任务。第三幕(AI Researcher)的核心突破方向是基础科学——这也是一个"跳过Coding直接做爱因斯坦"被证明行不通的原因。

五、做好Coding的难度:组织与数据的双重壁垒

广密提出了一个关键问题:做好Coding的难度系数到底是几分?如果四分,大家都能做好;如果八九分,领先的Anthropic可能一家独大。

第一壁垒:组织与文化

  • Coding不只是技术know-how,更是战略和组织的问题
  • 能否组织几百个最聪明的人all in一件事?
  • 最聪明的人都想做0到1的突破,不愿做脏活苦活
  • 搞数据清理数据是"没人想做"的事
  • 每个lab最大的挑战是让人才愿意做1到100的工作

第二壁垒:数据

  • Chatbot时代只需要文本类Chat数据
  • Coding/Agentic是一套:任务+环境+评估
  • 数据比以前的数据难了很多
  • 需要大量造出来数据
  • Anthropic创始人"重视数据刻在骨子里"
  • 传闻首席科学家亲自日常盯数据

两条AGI路线的分化

路线追求目标代表公司关键指标
路线一C端流量ChatGPT、Gemini、豆包DAU、付费用户数
路线二高价值任务Anthropic领先Token Usage、塔尖用户价值
广密
ChatGPT和Google忙着抢C端的窗口才错过了Coding的窗口。你今天资源很有限,到底是搞C端还是搞Coding?因为资源精力是有限的,可能是要放弃一些东西的。

DAU可能不再是核心指标

广密提出了一个颠覆性观点:在AI时代,DAU可能不重要了。塔尖用户(可能只有一两百万人)的Token Usage可能比几千万DAU更有价值。因为"绝大多数人的智力没有模型高了"——人类在整个社会中的价值可能正在发生根本变化。

六、Anthropic:战略聚焦的胜利

广密对Anthropic的分析是本集最深入的部分,从战略、组织、文化、产品四个维度解读了这家公司的崛起逻辑。

战略:不做什么比做什么更重要

组织与文化特征

Anthropic vs OpenAI的组织文化对比

  • Top-down vs Bottom-up:Anthropic战略非常Top-down,有明确一致的目标;OpenAI特别Bottom-up,一个人做一个新事
  • 一帮人做一件事 vs 一个人做一个新事:Anthropic的专注度和聚焦度更高
  • 不招Big Name,招Underdog:文化面试严格,会问"AGI实现后你怎么做"之类的问题
  • 团队稳定:早期选择Anthropic的人在风险更大时加入,本身就是筛选,人才流失少
  • 不神化任何环节:没有刻意神化某个人或某个技术,更像球队/工业化体系

创始团队

CEO Dario和首席科学家Jerry Kaplan都是物理学家出身。他们对AI的理解更多是从物理观察的角度出发——没想着创造新的Transformer架构,而是像物理学家一样洞察AI的规律,找到Data Efficiency、架构的Efficiency、工程的Efficiency。踏踏实实把工程和细节做好。

产品Sense

广密
Cloud Code的创始人Boris其实是很强的Coder,他想deliver一个最强的Coding工作方式,在引领整个开发范式。Cursor火了以后很多人讨论模型公司要不要做IDE,Anthropic没有做IDE,而是做了终端形式的Cloud Code——因为这可能是更能承接住模型指数级增长红利的产品形态。

Anthropic的风险

广密也指出了Anthropic面临的挑战:(1) 算力规划保守,过去一季度需求爆发超出内部预期,今年实现1000亿AR的最大bottleneck可能就是算力;(2) Revenue高度集中在Coding/Agentic(可能70-80%),存在集中风险;(3) 竞争激烈,OpenAI和Google最终都能追上来。

七、OpenAI:被ChatGPT成功反噬

广密对OpenAI的分析充满辩证——既不像市场叙事那样悲观,也直指其核心战略失误。

核心优势

核心问题

"今天胜利的秘籍就是下个时代的毒药"

  • ChatGPT在C端过于成功 → 专注2C而忽视了Coding
  • 要重视inference成本 → 模型一直没有做很大
  • C端赢了,但发现Coding比Chatbot要大十倍到一百倍
  • 大概两三个月前才意识到Coding很重要,之前还在跟Gemini抢C端流量
  • 从Meta招Fizi做商业化 → "还是像互联网的老人",已被调走
  • Sora被关掉 → 意识到Coding才是主线,多模态不是

文化与组织的深层问题

做得不好的

  • Sam是VC出身,容易摊大饼、FOMO
  • Bottom-up文化:每个人都想做0→1突破,没人做脏活苦活
  • ChatGPT很成功但"没有灵魂",不知道产品经理是谁
  • 喜欢造新概念、神化某个环节(Pretrain→Posttrain→O1/O3→...)
  • 预训练和Coding两个最根本的事没做好

被低估的

  • 50%概率AGI最终winner还是OpenAI
  • Bottom-up文化的另一面:可能搞出惊天动地的新范式
  • "一两个人就能干出惊天动地的大事"
  • 战略大转向已经开始
  • Spark(真正的GPT-5)即将发布
广密
OpenAI一直想做爱因斯坦,Anthropic就是把整个白领工作给automate。OpenAI想跨过Coding直接做爱因斯坦,但发现这条路很难而且没那么实用。Anthropic做的很实用,实战特别好,所以revenue爆发也快。

八、Google Gemini:最领先的追随者

广密对Google Gemini的评价可以用一句话概括:短期需要调整,长期最稳

Gemini 3.0的功过

被高估的"王者归来"

  • Benchmark刷得很高,但实际体验用起来"没那么好"——benchmark过度优化了
  • C端没有持续增长,用户不太买单
  • 连PC桌面版今天都还没有
  • 除了让Google股价翻倍证明"不是AI的loser",其他好处有限
  • 3.1也没有真正大的突破
  • 沉浸于Gemini 3.0的成果,严重误判了Coding的重要性——晚了三四个月才意识到

长期优势

广密
火一个模型其实没什么,还是要持续地deliver牛逼的模型。这需要:第一,每年几百亿美金的投入,且持续三到五年;第二,管理层的魄力和认知;第三,牛逼的团队。持续deliver牛逼模型是对所有科技公司的大考。

九、Meta与xAI:挑战者与掉队者

Meta:最有机会的挑战者

  • 取代xAI成为硅谷4号种子
  • FAIR团队人才密度很高,9-10个月做出不错的模型
  • 七八成学Google对标Gemini,20%学OpenAI的Post-train
  • 收购了Manus——"Harness的鼻祖"
  • 产品战略不够清楚,适合做个人助理/更低门槛
  • "砸钱文化"的长期稳定性存疑
  • 中国团队的产品创新力比Meta强

xAI:短期掉队

  • 核心founding team(国动、自航、同理之星)都已离开
  • 最大问题:战略摇摆——多模态→Chatbot→AI搜索→Coding
  • Elon不够聚焦,缺乏耐心,"两个星期就想看效果"
  • 盲目scale模型参数,但bottleneck在数据不在模型大小
  • "别人用小十几倍的模型可能比你做的还好"
  • 中国蒸馏模型都可能比xAI好
  • 但手上还有很多GPU,Elon调整能力强
广密
AGI的竞赛很像是你开着F1的速度跑一个马拉松,而且在城市里跑。需要200%、300%的聚焦。如果CEO和leadership不聚焦,肯定是不行的。

Manus被收购:卖便宜了

广密认为Manus"肯定卖便宜了"——如果当时更快地做到一两个billion的AR,可能就是百亿美金估值。但"再过一两个月Opus都出来了,Manus还怎么卖?" AI的Beta(大水漫灌)更重要,每个人都在涨,但窗口终归是阶段性的。

十、Cursor与应用层公司的窗口困境

Cursor作为Coding领域最火的应用公司,广密对其前景给出了一个尖锐的判断。

核心逻辑

技术溢出的红利是阶段性的

Cursor的本质是吃到了模型公司技术溢出的红利。如果最强的模型公司选择不把Mesos和Spark的最强模型API开放出来,而是优先通过自己的产品(Cloud Code、Codex)提供服务——那Cursor用不了最强的模型怎么办?

应用层的结构性困境

Cloud Code vs Codex 市占率估计

1500-2000万
Cloud Code 估计用户数
300万
Codex 周活跃(Sam公布)
7:3
估计市占率比例

1PC(一人公司)仍然可能

如果模型平台变成全球基础设施足够powerful,每个个体都可以做很多事情。从一个idea到代码跑通到revenue实现可能非常高效。一个值得关注的指标:消耗100美金的Token,能不能赚到110美金?——这个ROI闭环很多人还没有跑正。

十一、Harness Engineering与Agent范式

广密对2026年Q1另一个热词"Harness Engineering"提供了三个思维框架。

三个核心思路

思路一:Agent是一等公民

未来应该把AI Agent当人看,看成一等公民。人类知识工作者有工作环境、工作电脑、信用卡——未来在一个平行世界,你也要给Agent搭一套作为一等公民需要的环境。

思路二:Harness是Agent的管理学

Agent就像一个人加入公司团队,好的管理和组织可以让普通人的下限很高。Agent也需要它的"管理学和组织"——这就是Harness的意义。有了Harness以后,普通模型也可以做高价值任务了。加上Cloud Code的需求溢出,非Frontier Model和开源模型也能被用上了。

思路三:从2C/2B到2Human/2Agent

传统时代看2C和2B,今天要区分"到底是面向人类还是面向Agent"。如果是面向Agent,看中的不再是DAU,而是Token的Usage和Token的价值Margin。因为以后用什么工具,可能不是人决策了,可能是Agent去调用哪些工具来决策。

广密
有了Harness以后,普通的模型也可以做高价值的任务了。加上Cloud Code整个需求的溢出接不住,所以非Frontier Model包括开源的很多模型也能被用上了。我觉得这是一个更大的意义。

十二、模型即操作系统:终局形态

广密提出了对模型公司竞争终局的判断:模型就是新一代的操作系统。

终局判断

模型 = 新一代OS

未来最领先的几个模型可能就是世界最重要的基础设施。你生活的问题问它、工作的自动化靠它、科研的支持也是它。操作系统的定义是支持应用的无限扩展——这就是今天的Agent。它会形成新的生态,就像Android、iOS、Windows的生态。

历史上称得上"操作系统"的

Windows
PC时代
iOS
移动时代
Android
移动时代
微信
超级App时代

不管你追求工作助理、Coding还是生活助理——ChatGPT、Gemini、豆包——最终最终,大家都会走向Global GDP的OS的方向。模型不只是在电脑和手机上,可能还在眼镜等各种设备上,兼容各种硬件。

硅谷御三家:战略定位与竞争态势

以前的壁垒可能都失效了

广密指出:以前讨论的壁垒——规模效应、数据飞轮、网络效应——在模型时代可能都不适用了。"以前的壁垒是防冷兵器的,但今天是各种现代化,模型又开始自我迭代。"有可能最后只拼GPU了——因为全球三五家都能迈过AI的G点,而AI自己成长比人快,研究员可能都插不上手了。

十三、社会冲击:白领通缩与失业窗口

广密在社会影响层面给出了相当严峻的判断,认为2026年是"人类开始面临失业比较痛苦的一年"。

正在发生的变化

广密
人类的知识和智力变得廉价了。以前我们通过学习读书获取知识可以有个工作,但今天这些智力和知识模型里面都有了,被大幅压缩成了计算资源或Token。有可能百分之七八十的人在社会上的价值和意义会发生微妙的变化。

通缩效应

AI驱动的结构性通缩

  • 用了ChatGPT和Cloud后,找顾问、买其他软件的需求大幅减少
  • 一个产品满足很多需求 → 很多SaaS可能消失
  • 人才成长和培养的路径被AI"拦腰截断"
  • 强者恒强是残酷的趋势——塔尖的人会贡献整个世界更集中的生产力

人的未来出路

创造力

  • 以前想创造但没有技术支持
  • 未来一两个人可能做出惊天动地的大事
  • 从有想法到跑通代码可能很快
  • 创造力会被极大释放

审美与Taste

  • 有审美和Taste的人最终还是能deliver很多东西
  • AI取代的是不拥抱AI的人
  • 积极拥抱AI的人可能是受益者
  • 整个infra极大繁荣后,以前无法实现的想法都能实现

Sam Altman遇袭的信号意义

广密提到Sam最近两次被袭击,认为这可能只是开始——"有可能未来这种事情会越来越多"。AI带来的社会矛盾激化、贫富差距拉大,对于中产阶级为主体的美国社会(程序员、律师、医生、banker)挑战尤其巨大。AI终究会带来繁荣,但中间可能有一个"痛苦的窗口"——"AI过去一个季度的智商进步可能比人类过去两百年智商的进步要快,但人类没做好准备。"

十四、投资视角:模型公司就是未来的Mega7

头部AI产品营收图景

公司/产品当前AR(估计)年底预期AR
Anthropic300+亿美金800-1000亿美金
OpenAI250+亿美金800-1000亿美金
Cursor~25亿美金
Perplexity超过5亿美金
Manus/Loveable各超过4亿美金
ElevenLabs/Suno各超过3亿美金
Genspark快速增长中

广密的判断:明年Anthropic和OpenAI可能奔着2000亿美金的AR去。它们已经是新时代的Mega7。Coding的Run Rate从过去两三年就超过了Google Cloud做了十七八年的规模。

投资框架

理想的AGI Portfolio

  • 最领先的三四家模型公司各放20%
  • 机器人 10%
  • AI for Science 10%
  • Agent Infra(Agent平行世界需要的东西) 10%
  • 核心指标:能否持续做好Frontier Model
10万亿
每家模型公司的潜在市值(美金)
30-50%
3-8年后全球GDP被模型automate的比例
年底
OpenAI/Anthropic可能IPO
广密
有可能未来投资者会卖掉其他所有科技公司去买模型公司。模型公司可能就是未来科技投资的主线。做好AI产品是对所有科技公司的大考——做不好就被淘汰,做得好就受到投资者喜欢。

中国模型公司的格局

广密观察到,国内的深势(DeepSeek)、MiniMax智谱都在追赶Anthropic的路线——高价值任务而非C端。这个共识在过去三到六个月形成。豆包在C端做得最好,其他几家"觉得跟豆包没得打才转型的"。最终可能还是拼组织能力和资源。

十五、启示与延伸思考

1. "语言即世界,代码即方案"是本集最核心的命题

这个命题的推论极为深远:如果Code可以表达数字世界的绝大多数任务,那么Coding Agent做好了,白领工作的大部分就可以被自动化。这不是一个关于"程序员工具"的讨论,而是关于人类知识工作的终局形态。广密认为"Coding Agent实现了,AGI可能90%已经实现了"——不需要范式创新。这意味着AGI可能不是某个"eureka moment",而是Coding能力的持续外推。

2. 硅谷御三家的真相:没有赢家,只有持续的淘汰赛

"各领风骚一百天"——过去三年格局从未稳定。Anthropic的胜利本质是战略聚焦和组织纪律的胜利,而非某个技术秘密。OpenAI被ChatGPT的C端成功反噬,但Bottom-up文化可能产出下一个范式级突破。Google最稳(算力、现金流、体系化运转),但短期误判了Coding。关键判断:今年格局定不下来。以前的壁垒(规模效应、网络效应、数据飞轮)在模型时代可能全部失效。

3. 模型公司正在吞噬应用层的生存空间

Cursor、Manus等应用公司本质是吃模型公司"技术溢出的红利"。问题是模型公司可以选择不溢出——优先通过自己的产品提供最强能力。更危险的是,模型公司的迭代速度已经快于创业公司。Anthropic 50天发70个产品——互联网时代做不到的事情,AI原生公司做到了。这种速度差可能让"壳公司"的窗口越来越短。

4. DAU可能不再是核心指标——塔尖用户的Token Usage更重要

Anthropic头部一两百万用户贡献的收入超过OpenAI五六千万订阅用户。这个数据点颠覆了互联网时代的规模逻辑。广密的推论更激进:"绝大多数人的智力没有模型高了,我不知道人类在社会中的价值是否发生了变化。"如果这个判断成立,从2C到2Agent的转变不只是商业模式的变化,而是文明层面的重构。

5. 2026年是"痛苦窗口"的开端

30%的Junior岗位可能消失、美国本科毕业生就业率历史新低、最强的AI Researcher都担心1-2年后失业——这些不是远期预测,而是正在发生的现实。AI过去一季度的智商进步"可能比人类过去200年的进步还快",但社会的准备完全不够。人才成长路径被拦腰截断是一个深层问题:不是技能过时,而是整个学习-实践-成长的阶梯被AI跳过了

6. AGI时间表在加速——可能年底或明年初就有公司宣布

广密表示AGI路线图比之前更清晰了(三幕剧),时间表也在加速。以前说还需要两三年,现在可能年底或明年初就有公司宣布。这与"做好Coding的难度系数"直接相关——如果Coding Agent真的覆盖了90%的AGI,那么当前Coding能力的指数级增长就在直接推进AGI的实现。关键变量是GPT-5级别模型(Mesos/Spark)的表现。

7. 做好模型是一场"开F1速度跑马拉松"的综合考验

每年投入三五百亿美金且持续三到五年、创始人有认知和魄力、招到上百名世界级AI科学家、有战略bet和产品go-to-market——四个条件缺一不可。这不是一个技术问题,也不是一个资金问题,而是一个极度综合的组织/战略/执行/人才问题。广密的结论:再出现新的模型公司"难度比想象的大非常非常多"——就像再造一个台积电。

延伸阅读