← 返回张小珺主页
深度研究 Deep Dive

大模型季报年终特辑:和广密预言LLM产品超越Google之路

#86 全球大模型季报第五集 · 2024年Q4
2025.1 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 核心命题:下一个Google
  2. 信息分发主线的演变史
  3. 任务引擎:AI产品的终极形态
  4. ChatGPT的商业模式困境
  5. Context:被忽视的关键暗线
  6. AI时代最大增量:新时代的软件
  7. OpenAI:品牌壁垒与组织隐忧
  8. Anthropic:Coding之王与OS野心
  9. xAI、Perplexity与创业公司格局
  10. Scaling Law:数据墙与O1天花板
  11. Agent落地:2025年最大期待
  12. 数据飞轮的悖论与破解
  13. 巨头竞争图谱与投资判断
  14. 三大机会与年度关键词
  15. 启示与延伸思考

一、核心命题:下一个Google

广密在本期季报中提出了过去半年他最强烈的认知变化——所有大模型产品的终极叙事殊途同归,收敛到同一个目标:下一个Google

广密
ChatGPT就是奔着下一个Google这个方向去了。不管Anthropic也好、xAI也好、Perplexity也好,甚至国内的豆包、Kimi,做Coding最近比较火的Cursor也好——虽然大家形态有差异,从不同的路径发散,最后都还是殊途同归,最终会收敛在"下一个Google"这个叙事下。你的对手和目标,并不只是ChatGPT,而是如何beat Google。
核心论断

"下一个Google"不是Google本身

广密强调,"下一个Google"不是搜索引擎本身,而是重新组织信息的引擎。过去门户组织了信息,搜索引擎重新组织了网页,推荐引擎又重新组织了内容。未来重新组织token背后的本质是智能,代表的是任务和生产力。这是一张明牌——比拼综合能力:资金、GPU、人才、产品、品牌。

3亿+
ChatGPT周活用户
5-6亿
对应月活规模
历史最快
超越TikTok的增速

二、信息分发主线的演变史

广密建议"来硅谷一定要去逛计算机历史博物馆",这能帮助理解计算架构和信息分发的主线演变。

门户时代(雅虎)

人工编辑listing,最小单元是网页。门户模式只能listing头部网页,覆盖非常有限。

搜索时代(Google)

Index了整个互联网网页,用关键词搜索重新组织信息分发。红杉美国最早投雅虎,后来投Google——Michael Moritz当时希望Google能帮雅虎更好覆盖长尾网页内容。

推荐时代(字节/抖音)

根据用户行为做投票,AI更主动地推荐。最小单元从网页变成了内容。字节也一直在"超越Google的路上"。

搜索+推荐融合(小红书)

融合了社区、信息流推荐、短视频、图文多模态,同时又是"最高质量的搜索引擎"——融合了搜索、推荐、问答。

大模型时代(Token/Agent)

最小单元比网页更小——Token。Token背后是人类几千年抽象的智能。未来会以Agent或做任务的形态输出,成为一个任务引擎

信息分发主线演变:从门户到任务引擎

边缘市场的启示

广密特别强调:做门户的人当时都觉得Google这种关键词搜索"做不大的",但Google恰恰从雅虎的边缘市场做起来了。"一定要重视边缘市场——往往伟大公司都是从边缘市场做大了做起来的。"

三、任务引擎:AI产品的终极形态

广密提出AI产品的终极形态是任务引擎(Task Engine)或任务容器——完成Task Automation。

产品形态

从内容容器到任务容器

以前大家叫"内容容器"——头条是内容容器,微信也是内容容器,它们也都是浏览器。未来AI最大的是做任务——完成有经济价值的Task。以前生成最大的是内容,未来AI生成最大的是任务、Agent、Workflow

Chatbot不是最终形态

  • 对话形态"大概率还不是提取智能最有效的交互方式",但它是"今天唯一work的形态"
  • 单一的Chatbot限制了上下文长度,"一定程度上降低了模型的智能数值"
  • 越聪明的模型,越不需要跟人对话——AI需要自动采集用户行为信息上下文
  • 需要一个天才定义出全新的交互界面——就像从DOS命令行到GUI是"天才的发明"
广密
我幻想我的面前就是一个AI的浏览器,或者一个巨大的白板,或者一个任务看板,很多的任务都跑在上面——To-do list、各种图表,只需要我来确认和指导。

OpenAI五级分级与产品形态

级别名称描述广密判断
L1聊天机器人用自然语言对话的AI当前主流形态
L2推理者解决人类级别智力问题(O1)今天处在二到三之间
L3Agent智能主体代表用户采取行动
L4创新者--
L5组织者重写底层操作系统"架构逻辑复杂度非常非常高"

Agent两年内能干到Manager水平

广密判断:短期干到CEO层面比较难,但"两年左右的时间,干到一个Manager这个水平是有机会的"。长距离多步推理任务如果能落地,会超过90%的Manager。Agent在组织中"肯定还需要人配合,但能完成的任务数量会大幅提升"。

四、ChatGPT的商业模式困境

广密从投资视角算了一笔账,揭示了ChatGPT商业变现效率的核心问题。

ChatGPT变现效率的数学账

  • 工具类产品付费率能做到5%已经非常优秀,ChatGPT猜测仅2%-3%
  • 付费用户20美元/月,按5%付费率算,每MAU仅贡献1美金
  • 付费率2%-3%时,每MAU仅0.5-0.6美金
  • 对比:抖音、淘宝、微信每MAU每月约8-10美金——传统互联网产品变现效率高出10-20倍

为什么ChatGPT不适合做广告

Google搜索 Query

  • 40%-50%是导航类query
  • 直接导航到电商、娱乐、旅游等网页
  • 广告主通过网页提供服务就能赚钱
  • 商业模式有巨大规模效应

Chatbot Query

  • 导航类query非常少
  • 主要是问答类query
  • Google自己也没能把4%-5%的知识问答query商业化
  • 广告主不会来Chatbot投广告获取流量

AI时代的北极星指标:任务完成率

广密提出:电商时代最核心指标是GMV和订单转化率,AI时代最关键的北极星指标可能是任务完成率(Task Completion Rate)。"你本质上要完成有经济价值的任务,只要价值足够厚了,肯定会有全新的商业模式出现——按照value-based的pricing。"

DAU/MAU:使用粘性问题

产品DAU/MAU月使用天数
微信~100%~30天
抖音~70%+~20+天
小红书~70%+~20+天
Google搜索~50-60%~15-20天
ChatGPT~15-20%~6天

广密指出ChatGPT 12个月留存可能有50%("跟Notion差不多"),留存很好,但使用频次和粘性还远不如Google和抖音——"说明它承载的需求和挖掘的空间是非常大的"。

五、Context:被忽视的关键暗线

广密在本期提出了一条新的暗线——继之前的Reasoning和Cost之后,这条暗线是Context

核心概念

Context = 新时代的支付

红杉中国投电商时有一个精辟认知:电商两翼是物流和支付。没有这两个基础设施,网购体验很差,买东西成功率极低。AI模型帮你做任务,任务成功率的高低不完全取决于模型的生成或Coding能力,更取决于Context是否充分同步了。Context就是新时代的支付。

广密
99%的从业者今天都只盯着模型的生成能力或者Coding能力。我觉得更加核心的一个可能是Context的采集能力。如果没有Context的能力的话,其实绝大多数的任务成功率都是非常低的。

Context的具体含义

  • 最简单的例子:再牛的主任医师,没有你的体检报告或健康数据,也很难聊几句就下诊断
  • 用纯语言prompt其实"非常费劲"——比如做个人Agent,描述个半篇也做不好
  • 把个人知识库、各种软件信息同步给模型,再加上搜索引擎补充,成功率大幅提高
  • Context获取应该是自动化的——比如在Slack里放一个Claude Bot,一直默默跟踪团队怎么做投研、怎么讨论话题
  • 让模型阅读过去几个月Chrome浏览记录,就有了更多Context,更懂用户

信息分发 vs 超级助理:同一场战

信息分发路线

  • 代表人类最基础需求:获取信息和娱乐
  • 字节、Google、Meta都在走
  • 也可以从信息分发走向助理

超级助理路线

  • 更主动、跟人更close
  • 有用户更多的Context
  • 能占据用户信任和数据access
  • Apple Siri有可能是入口

广密认为这"都是同一场仗"——所谓下一个Google,有可能是任务引擎,也有可能是助理形态,本质一样。

六、AI时代最大增量:新时代的软件

当被问到"如果AI的生成能力增强了,未来会生成的是什么"时,广密给出了一个判断:新时代的软件

广密
移动互联网增加最大体量的数据是内容——智能手机随时创作和消费内容。AI时代最大的增量数据其实是软件。软件的本质是人类行为的自动化。企业软件是最佳工作流的自动化。但整个人类还有特别特别多的行为和最佳实践是没有被自动化的。

未来软件的范式转变

  • 过去:人为主动定义通用需求 → 大外包团队开发 → 像传统导演拍电影
  • 未来:日常Context自动同步给模型 → 模型自动化生成软件 → 像短视频创作一样门槛极低
  • AI知道你日常怎么做投研,就帮你automate整个过程,你还可以share给同事
  • "今天不可能有几十个人的开发团队专门帮我开发投研workflow——因为只有我自己用嘛"

Coding能力5-10-30倍提升后的机会

广密提出一个值得深思的问题:如果2025年AI Coding能力变强5倍、10倍、30倍,软件开发效率提升10倍,软件生产成本大幅降低——会有哪些机会?"推荐引擎造就了信息流这个产品,Coding未来会造就什么?"他认为需要一个天才来定义这个新的产品形态——就像当年字节定义出信息流。

七、OpenAI:品牌壁垒与组织隐忧

OpenAI的领先优势:局部放大,局部缩小

维度趋势具体分析
C端品牌/心智放大ChatGPT领先第二名可能十倍甚至更多,明年可能十几亿MAU
预训练模型缩小公开互联网文本数据20-30T可能就是极限,收益空间在变小
创新工业体系放大"像好莱坞工业化拍电影——即便告诉你怎么拍的,也不一定能复现"
搜索能力错失给Perplexity留了完整两年窗口,"非常不应该"
Coding能力被反超被Claude Sonnet反超,大量开发者迁移到Claude Sonnet生态
广密
其实大家都说Google的组织问题很大,其实这样看OpenAI的组织问题其实也不小。

OpenAI成为伟大公司的两个必要条件

架构重组

  • 如果马斯克诉讼OpenAI只能保持非盈利,"那人才肯定要流失"
  • 组织问题会随着公司快速奔跑而解决

更高效率的商业模式

  • 每年5-10倍的CapEx持续上涨"肯定不可持续"
  • 需要找到比订阅更强的商业模式

Overhyped vs Underhyped

被高估的

  • Sam说的七万亿
  • GPT-5
  • "合成数据突破了"
  • AGI这个口号
  • (但Hype整体对行业是好事)

被低估的

  • 智能这个技术的长期价值
  • "高估短期,低估长期"
  • 智能能automate非常多最佳实践

八、Anthropic:Coding之王与OS野心

广密
得Coding,得开发者,得API消耗,有机会得生态,做OS。

Anthropic的差异化定位

Anthropic核心优势

  • Claude Sonnet:基本上是专业开发者群体认为最好的模型,6月20号发布后大量人从GPT转向
  • Coding是"最客观评估模型能力的核心指标——开发者不会撒谎的,真金白银在投票"
  • 管理层非常稳定,不像OpenAI那样人才流失
  • 持续从OpenAI挖人,人才流动是关键信号
  • MCP协议——"长期影响会比较大",是协议层的布局

OpenAI vs Anthropic的本质分歧

OpenAI的路线

  • 要做最大的K-Lab
  • 端到端都做
  • C端一枝独秀
  • "但有可能会不够专注做好OS本身"

Anthropic的路线

  • 正在走向AI时代的OS操作系统
  • 占住Coding、占住协议(MCP)
  • 更专注于Agent落地
  • "Claude未来就是一个Coding Model"

Post-train决定模型性格

广密认为今天AI产品都是Post-train环节决定的。有可能未来的"超级产品经理"是从做Post-train的人里面出来的——因为Post-train决定了模型各方面的性格和偏好。"在这个基础上,需要对交互理解更深的人——什么交互效率会更高。"

九、xAI、Perplexity与创业公司格局

xAI:两个巨大赌注

xAI的两个Bet

  • 赌注一:超大GPU集群——全球最快部署上线10万卡集群,马斯克还要搞更大的。但"超大集群会不会带来质变,今天没有人知道",万一赌错了"就下牌桌了"
  • 赌注二:多模态——FSD已验证,可能相信多模态。但"多模态是没有任何evidence能提升智能的","科学界共识是多模态不提智商——因为信息密度比较低"
  • 团队刚过100多人,非常精简,但"人手不够用"
  • 估值过高"不好招人——很多人会考虑手上股票弹性空间"

Perplexity:AI搜索的定义者

Perplexity做对的两件事

  • 第一个把AI Search真正做得比较work,赢到了用户心智
  • 重新定义了AI搜索的交互形态——可以追问和互动,而Google只是静态导航
  • 每天搜索Query量级已达Google的一半左右(仅搜索Query)
  • "明年被收购的概率是比较大的——因为任何一个平台公司都不能miss搜索"

Cursor与Devin:强跑型选手

7000万+
Cursor ARR(美金,从零起步仅数月)
25亿
Cursor新一轮估值(美金)
主要AI公司定位图谱:壁垒类型 vs 产品聚焦
广密
小公司创业者一定要强跑,一定要跑得快。要形成规模效应或者数据飞轮网络效应,才能杀出来形成壁垒。

十、Scaling Law:数据墙与O1天花板

预训练的数据墙

Ilya(Elia)提出的Pre-training Data Wall

  • 互联网数据是线性增长的(每月增加约1T有效Token)
  • 但模型预训练需要的数据是指数级增长
  • 互联网上能用来提升智商的大规模训练数据"可能就20-30个T"
  • "今天预训练百分百遇到困难了"——不管GPT-5、Claude Opus、Gemini Archer
  • 不确定是永久性问题还是短期问题

O1路线的关键分歧

乐观派

  • O1天花板非常高
  • 只要把Task/Reward设计好,就能激发模型能力
  • 70亿人每天产生的新知识 > 老祖先积累 → 合成数据成立
  • 算力可以换数据

悲观派

  • O1收益提的快,但瓶颈也来得快
  • O3、O4可能很快遇到天花板
  • O1只在数学和代码里强,不能通用泛化
  • 通用Reward Model可能不存在
广密
如果O1这条路失败了,AGI可能还要再耽误几年。但即便走不下去,沿途下蛋有可能也会做出来牛逼的东西——毕竟资源很多,牛人也很多。

Reward Model的本质问题

广密指出O1路线最核心的瓶颈是Reward Model的泛化。"整个地球上也没有一个Reward Model能衡量所有人。"限定领域的Reward比较好定义(自动驾驶、Coding、数学、量化),但通用泛化需要科学突破。如果只能各行业垂直构建Reward Model,"那你得雇很多人设计任务、设计Reward——像老师出题一样,scale速度就比较慢了。"

GPU分布的变化

从预训练主导到三分天下

  • 之前:预训练和做实验占GPU分布的80%-90%
  • 未来:Pre-train、Post-train、O1/Inference可能变成1:1:1
  • 推理的主力模型可能不是100B以上,而是3B/5B/8B一档或350B一档

十一、Agent落地:2025年最大期待

Agent
2025年关键词(重复三遍)
Coding
2024年关键词(重复三遍)
Long Horizon
最核心的Agent能力

Agent落地的标志性产品

广密认为具备Agent雏形的产品

  • Perplexity:帮你使用搜索引擎的Agent
  • Devin:第一个真正意义上做长距离复杂任务的Agent
    • 可以在后台工作
    • 可以做多步骤长距离任务
    • 可以在过程中自己根据反馈做决策
    • 可以使用工具(浏览器、搜索等)
  • "上一次播客还没有任何能称得上Agent雏形的产品——Devin的出现属于一个Agent的雏形"

Agent落地的关键基础设施

AI产品演进路线:从Chatbot到任务引擎

SP移动梦网的警示

广密做了一个尖锐的类比:如果商业模式和产品形态问题不解决,今天的AI"有点偏向SP移动梦网的时代——还没有看到iPhone"。更值得警惕的是:SP时代移动梦网的那些公司,在走向移动互联网时没有一家转型成为大公司。"不管头条、美团、拼多多——移动互联网公司没有从上一波留下来的。"

十二、数据飞轮的悖论与破解

为什么LLM产品的数据飞轮一直很差

广密
用户带来的数据平均质量比模型内在分布的数据质量就是差。因为你预训练的数据质量很高的,但大部分用户是没有模型聪明的。就相当于自动驾驶做到一定水平了,然后你还在给它灌大量普通司机的数据——它只能变差。
关键区分

偏好数据 vs 能力数据

用户数据更多代表偏好数据(preference),而非能力数据(capability)。偏好数据能提升MAU和用户时长,但对AGI"可能没那么好,没有啥帮助"。搜索和推荐是整个人类在大规模投票——那是偏好级能力。但ChatGPT如果把用户偏好数据用太多,"答案会趋向一致,丧失多样性——本来可能一万种答案,投票投多了可能就两百种"。

哪些产品里有高价值数据

产品/场景数据类型价值判断
AI搜索(Perplexity)持续性研究话题 + 追问 + COT数据高价值
Notion等笔记软件反复思考得出的知识结论数据资产价值很高
Artifacts/Canvas做任务过程中的拖拽和思考过程记录思考过程的高价值数据
浏览器点击数据用户行为和操作逻辑操作性数据非常重要(但Chrome有合规问题)
Slack/微信工作讨论讨论过程的COT数据"模型记录不了的,有价值的能力数据"
FSD/自动驾驶闭环reward model数据非常典型的端到端好模型

理想的数据飞轮:天才产品经理的使命

广密描绘了一个理想状态:"有个天才的产品经理设计了某个形态,把人类思考的过程——这种高价值数据——都传递给模型。"未来一个形态是:这边是模型,那边是个人软件——"你怎么把个人软件的数据给hack出来,作为Context自动放到模型里面,帮你完成任务。"

十三、巨头竞争图谱与投资判断

科技巨头AI竞争力评估

公司核心优势核心风险/问题
Google端到端Full Stack垂直整合,TPU代表无限算力,Android/Chrome最强分发组织问题、CEO"比较面"、Chatbot形态转型难
OpenAI品牌壁垒最强、综合能力客观第一、创新工业体系组织问题不比Google小、商业模式未定、与微软同床异梦
Anthropic人才最牛的AI Lab、占住Coding和协议、管理层稳定C端比较弱、管理层太科学家
Meta站稳开源生态、AI应用端充分受益Llama4待验证
Amazon/AWS全球最好的云厂商、与Anthropic合作健康、自研芯片(Trainium)-
微软销售和绑定能力极强、最后总能追回来(Teams/Octa)"做产品一直很拉垮"、Copilot未达预期、让Cursor/Devin溜走
Apple握着最好的牌、Siri位置特别好"还不知道怎么打"
xAI数据中心建设最快、马斯克资源超大集群是否带来质变未知、"有点BTC化——算账就输了"
AI巨头竞争力雷达图

模型格局:三加二

绝对第一梯队(3家)

OpenAI、Anthropic、Google——模型格局挺难改变。"谁今天还会再出来进到第一梯队?微软自己、Amazon自己都不容易。"

紧随其后(2家)

xAI、Meta(Llama)——字节"有可能"进入。

下一个万亿美金公司

SpaceX
确定性非常高
字节
确定性非常高
OpenAI
有潜质

十四、三大机会与年度关键词

广密总结的这一轮最大三个机会

机会一:下一个Google

融合搜索、推荐、问答、Coding、做任务,可以更加主动和被动。不管是信息分发还是超级助理——确定性最高,是明牌竞争。

机会二:下一个Meta

核心是互动性——形成新的内容消费和娱乐平台。可能从视频生成或其他路径切入,但"今天还高估了生成环节的重要性"。

机会三:AI for Science

全球最强两个Lab的CEO(Anthropic CEO Dario、DeepMind CEO Demis)都特别看好。Demis个人专注在制药公司。硅谷已有不少AI材料设计等新苗头。

年度复盘与预测

2024年定义时刻

  • 如果只选一个:2024年6月20日 Claude Sonnet发布
  • "真的让大家开始进入生产力提升的阶段——带来Coding编程能力巨大进步"
  • 紧接着才让Cursor、Devin火爆

进入决赛圈的条件

  • C端用户和开发者投票——产品被真正用起来
  • 模型层面:10万张有效已使用的卡是全球第一梯队标准
  • 需要有"大腿"(大厂绑定或收购)

人才流向

硅谷人才正在流向

  • Anthropic
  • OpenAI CTO Mira和Post-train Leader Barret的新公司
  • Cursor
  • Devin

十五、启示与延伸思考

1. "下一个Google"是AI时代最准确的叙事框架

广密的核心洞察在于:不要把各家AI公司看成在做不同的事——ChatGPT做聊天、Perplexity做搜索、Cursor做Coding——它们本质上都在争夺同一个位置:重新组织人类智能和任务的新型引擎。这个框架帮助投资人和从业者跳出产品形态的表象,看到底层竞争的本质。从门户到搜索到推荐到任务引擎,信息分发的主线从未改变,只是最小单元从网页变为内容再变为Token。

2. Context比Model更重要——这是反直觉的

99%的从业者盯着模型生成能力和Coding能力,但广密认为Context才是决定任务成功率的关键。这解释了为什么ChatGPT虽然模型强大但使用频次(DAU/MAU仅15-20%)远不如Google——因为缺少持续的上下文同步。将Context比作"新时代的支付"是一个精准的类比:没有支付,电商再好也无法完成交易;没有Context,模型再聪明也无法完成复杂任务。MCP协议的意义正在于此。

3. ChatGPT的商业模式是一个被忽视的定时炸弹

每MAU仅0.5-0.6美金的变现效率,比传统互联网产品低10-20倍,同时后端CapEx每年5-10倍增长——这个剪刀差是不可持续的。Chatbot的Query结构(以知识问答为主而非导航类)决定了广告模式走不通。"按任务付费"(value-based pricing)可能是出路,但前提是任务完成率要足够高。在iPhone时刻到来之前,AI行业可能真的处于"SP移动梦网时代"——历史表明,那个时代的公司没有一家活到下一个时代。

4. 偏好数据 vs 能力数据的区分极其重要

这个区分解释了一个长期困惑:为什么ChatGPT有海量用户数据但数据飞轮一直转不起来?答案是:用户数据是偏好数据(preference),不是能力数据(capability)。偏好数据让产品更好用,但不让模型更聪明——就像给自动驾驶灌普通司机数据只会变差。真正有价值的能力数据在Notion笔记、Slack讨论、浏览器操作等场景中,但这些数据要么有隐私问题(Chrome数据),要么产品形态不对(Notion不是AI产品)。

5. Anthropic的OS战略可能是最被低估的路线

在所有人关注C端的ChatGPT和搜索端的Perplexity时,Anthropic悄悄占住了Coding(Claude Sonnet)和协议(MCP)。"得Coding,得开发者,得API消耗,有机会得生态,做OS"——这条逻辑链完整且自洽。历史上微软的主线一直是OS,Cloud成为AI时代的OS厂商是一个合理的展望。而且Anthropic与Amazon的合作关系"比微软和OpenAI更健康",这是一个被忽视的结构性优势。

6. O1路线的成败决定AGI的时间表

广密把O1/Reasoning路线定性为"走向AGI的必经之路",但天花板未知。他用了一个精妙的思想实验:70亿人忙碌一年产生的增量知识,是否多于老祖先几千年的积累?如果是,合成数据就成立,算力可以换数据;如果不是,O1很快到天花板。他自己"相信70亿人产生的知识还是多的"。但Reward Model的泛化仍然是核心瓶颈——"最top的researcher也还没想到怎么泛化Reward Model的方法"。

7. 从"看模型"到"看产品"的认知转变正在发生

广密坦承自己的认知也在变化:"之前每期播客我都觉得智能和模型最重要,其他都不重要。但今天看未来两年,AI应用端的落地、Agent的落地是非常重要的。"原因是:最领先的三四家模型"可能在模型层面拉不开绝对差异了"。当模型趋同,竞争转向产品、Context、商业模式——谁能定义出信息流级别的新产品形态,谁就是这个时代的张一鸣。2024年的关键词是"Coding Coding Coding",2025年的关键词是"Agent Agent Agent"。

延伸阅读