← 返回目录
EP.54 深度研究 Deep Dive

口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观

一位 All-in AI 的投资人眼中的 2023 大模型全景
嘉宾:广密亚(海外独角兽) · 2023.12 · 理想国 — 张小珺
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. All-in AI:一个投资人的极致聚焦
  2. 2023 大模型关键时间线
  3. 全球前三:OpenAI、Anthropic、Google
  4. 大模型的核心 Secret:数据与人才
  5. Scaling Law:极少数科学家的登月信仰
  6. 千亿美元豪赌:训练成本的经济学
  7. 巨头定价:硅谷大模型阵营图
  8. 中美参差:两种截然不同的叙事
  9. 开源与闭源:不是软件的开源逻辑
  10. 多模态与 Agent:2024 核心叙事
  11. 新摩尔定律:能力上升 + 成本下降
  12. VC 困局与 AI 投资的金融产品错配
  13. 应用大爆发何时来临
  14. OpenAI 政变与 Sam Altman 的政客面相
  15. 终极问题:Transformer 能否通向 AGI

一、All-in AI:一个投资人的极致聚焦

广密亚(海外独角兽创始人)在 2023 年几乎将全部精力投入大模型赛道,肉身超过一半时间在硅谷,团队 10 人在过去一年接近"一万小时定律"级别的投入。他的公众号和朋友圈全年几乎只发 AI 内容,平均每天三条。

广密亚
去年这个时候我们有一个还挺关键的判断:这一轮的核心赛道只有一个,就是大模型本身。投大模型可能就等于投,比如说十年前投电商一样。

他们的投资策略极度聚焦:团队 90% 的时间只 focus 三家公司——OpenAIAnthropicGoogle。年初投了两家公司,目前都进入全球 chatbot 流量前五名。

10人
团队规模
90%
时间集中在三家公司
~3条/天
朋友圈 AI 内容

极致聚焦的回报

这种 all-in 策略带来了三个直接结果:(1)新旗舰基金超募;(2)年初投的两家公司进入全球 chatbot 流量前五;(3)团队进入"加速成长"状态。广密亚判断"核心的 secret 就在硅谷",因此选择肉身驻扎。这种投资方法论本身就是对大模型这一波浪潮"赢家通吃"特征的押注。

为什么只看三家?

广密亚认为其他公司带来的"噪音比较多",只有 OpenAI、Anthropic 和 Google 这三家"有核心的 secret"。这种判断背后是他对大模型竞争格局的根本认知:这不是一个百花齐放的赛道,而是一场只有极少数选手有资格参与的登月竞赛。

二、2023 大模型关键时间线

广密亚用"闭上眼睛一想"的方式,梳理了 2023 年大模型行业最重要的几个分水岭。

2022.11 ChatGPT 发布

"Chat 就等于 ChatGPT",这个心智占位至今稳固。快速突破百万、一亿用户,稳定在 2 亿+ MAU,年化收入超 10 亿美元。

2023.03 GPT-4 发布

关键分水岭——代表 SOTA 最佳模型的标杆。"谁再能复刻 GPT-4,就是关键节点。"

2023.07 Anthropic Claude 2 发布

"内部几乎复刻了 GPT-4"——比 OpenAI 晚约半年达到同等水平。

2023 全年 开源模型崛起

Llama 和 Mistral 发布多个模型。Mistral 团队是 Llama 1 的核心贡献者。开源最佳模型出自这两家。

2023 全年 多模态突破

Midjourney V1 到 V6 效果快速提升;Runway 和 Pika 视频生成有了大飞跃。

2023.12 Google Gemini 1.0 发布

Pro 版本约等于 GPT-3.5,对标 GPT-4 的 Ultra 版"下个月才能发布"。Google 从头 pretrain 多模态模型,开创了新范式。

2023.11 OpenAI 政变与回归

Sam Altman 被开除又回归,700+ 员工联名支持,"AGI 只耽误了四五天"。

GPT-4 复刻的时间差揭示了竞争格局

OpenAI 在 2023 年 3 月发布 GPT-4,但实际训练完成可能更早(约一年前)。Anthropic 半年后接近复刻,Google 一年后才 deliver,全球其他团队还需 6-12 个月。这种时间差不仅是技术差距,更决定了数据飞轮的先发优势——更早的 GPT-4 能生成更高质量的合成数据,反哺下一代模型训练。

三、全球前三:OpenAI、Anthropic、Google

广密亚判断 2023 年首轮竞赛已经决出前三名。这三家公司是全球仅有的做出 GPT-4 水平模型的团队。

Anthropic:被低估的老大哥

广密亚
Anthropic 核心的 7 到 30 个人,是做出了 GPT-2、做出了 GPT-3 的核心力量。他们的 research 能力我觉得是全球最强的,思考的问题比较 fundamental、比较本质。

Anthropic 的关键标签

  • Dario Amodei 发现了 Scaling Law,发明了 RLHF
  • 更早做出了类似 ChatGPT 的产品,但没有发布
  • 一度模型能力比 OpenAI 更好
  • 2023 年估值 150-250 亿美元,全球第二
  • 表面因 safety 问题从 OpenAI 分出,但"又不止是 safety 问题"

三家排名与验证标准

广密亚
你就看用户和开发者。模型好用不好用,很多的测评可能不一定反映水平,但是用户开发者是用脚投票的。用户选谁和开发者选谁,现在首选还是 GPT,backup 就是 Claude。
公司估值(2023年底)达到 GPT-4 时间核心优势
OpenAI~1000 亿美元2023.03(发布)品牌心智、产品先发、用户规模
Anthropic150-250 亿美元2023.07(内部)Research 深度、safety 领先
Google (Gemini)—(上市公司)2024.01(预计)多模态原生训练、数据与算力

潜在黑马

广密亚看好未来 6 个月三家公司有潜力做出 GPT-4 水平的模型:

四、大模型的核心 Secret:数据与人才

核心判断

GPT-4 的短期壁垒是数据

广密亚认为,如果只说一个 secret,短期就是数据——预训练的数据配比、tokenizer、以及如何实现 reasoning(推理能力)。全球真正知道 GPT-4 data secret 的人只有两三百个,几乎都在前三家公司。其他公司想搞清楚,"至少得有几百次几千次充足的实验"。

天才科学家的稀缺性

广密亚
全球范围真的对大模型能有实际大贡献的天才 researcher 可能就两三百个人,其中一百多个人在 OpenAI,可能二三十个人在 Google。Meta、AWS、NVIDIA 可能是没有的。
200-300
全球核心大模型人才
100+
在 OpenAI
20-30
在 Google

科学家的聚集效应

广密亚强调"天才科学家的聚集效应是很强的"——这种人和这种文化组合在一起,形成了其他公司无法复制的 research lab 文化。OpenAI 的核心特征是"不知疲倦地持续做实验、做探索",而且"research 的卡是无限的",人均 research 用卡量是一个"非常高的数字"。

人才壁垒远超资金壁垒

传统 VC 的投资框架习惯于把"钱"视为核心竞争要素,但大模型竞赛揭示了一个不同的逻辑:人才的稀缺性远比资金更为关键。全球仅 200-300 人掌握核心 secret,而且他们高度聚集在前三家公司。这意味着即使有充足资金,如果无法吸引这些核心人才,复刻 GPT-4 仍然极其困难。"从 GPT-3.5 走到 GPT-4,难度增加 5-10 倍"。

颜乐坤与传统 AI 的分野

广密亚
对很多传统的 AI researcher 其实可能是不懂大模型的。你比如说 Meta 的颜乐坤,我觉得他跟大模型可能无关的。CV 这帮人,这些人的关系可能也没那么大。

这是一个激烈的判断——将传统 AI(计算机视觉等)与大模型 paradigm 做了明确切割,暗示这一波技术革命需要的是完全不同的研究思维和能力集。

五、Scaling Law:极少数科学家的登月信仰

核心概念

Scaling Law(缩放定律)

大模型能力随着参数量、数据量和计算量的增加而持续提升的经验规律。由 Anthropic 的 Dario Amodei 等人最早发现和系统研究。目前还没有理论支撑,只是"实验和试错总结的经验"。这是当前唯一已知的提升模型智能的路径。

广密亚
这很像一个极少数科学家推动的 AI 的登月时刻。如果说这个事很像登月,那其实是只有极少数的几家公司能参与登月竞赛的。

三大 Scaling Law 信仰者

科学家所属公司核心贡献
Noam ShazeerCharacter.AITransformer 最核心贡献者,最早提出 Scaling Law,提出 MoE
Dario AmodeiAnthropic系统研究 Scaling Law,发明 RLHF
Ilya SutskeverOpenAI深度学习先驱,GPT 系列首席科学家

Scaling Law 是一个科学信仰而非确证理论

广密亚反复强调这一点:Scaling Law 是否能继续 work 是"所有人都无法回答的问题","还是个科研问题,还没有解决完"。如果不能继续 scale up,"那可能就停在这一代下一代"。这意味着人类正在用千亿美元赌一个尚未被理论证明的经验规律——这是这场"科学豪赌"的真正含义。

Scaling Law 的潜在风险

  • 明年数据不够用了
  • GPU 连到几万张,几十万张一个集群连不动了
  • 能源带不动几百万张卡的数据中心
  • 参数量到几十个 trillion 后效果提升不大
  • "有可能 scale 到 2026 年 27 年有可能不 work 了"

六、千亿美元豪赌:训练成本的经济学

GPT-4 的训练成本解剖

广密亚
GPT-4 当年用了 2.2 万张 A100 训练了 100 天,纯的大训练成本差不多 8000 万美金。但模型最大的成本还不是这一个,而是前期的实验。

训练成本的"科普"

大模型训练成本分两部分:

  • 实验成本(~75%):9 个月做小尺寸模型训练实验,成百上千次试错
  • 大规模训练成本(~25%):2-3 个月做一次"火箭发射"式的大训练

700 亿参数是分界点:以下可以容忍很多错误,以上训练难度指数级提升,失败率非常高。

全球大模型投入估算与未来预测(亿美元)

下一代模型的成本飙升

~0.8亿
GPT-4 纯训练成本
2-3亿
Cloud 3 / GPT-4.5 预计
10-50亿
2025-2026 下一代模型
1000亿
未来3-5年全球总投入
广密亚
模型训练是一个很残酷的事,它是一个价值毁灭的事。因为你训练出来了更好的模型,前面的一代模型可能就没有用处了。

训练成本揭示的"反互联网"商业逻辑

互联网产品边际成本趋近于零,而大模型训练呈现完全相反的特征:每一代模型的训练成本是前一代的数倍乃至十倍以上,且前一代模型的价值在新模型发布后迅速归零。这不是互联网式的"先亏损后盈利",而更接近芯片制造或航天发射的逻辑——巨额固定投入、极高失败率、赢家通吃。

OpenAI 的成本优化能力

广密亚特别指出一个被忽视的竞争力:OpenAI 训练完 GPT-4 后,可以用新能力重新训练 GPT-3.5,将推理成本降到极低。GPT-4 Turbo 是从头训练的,能力比 GPT-4 更强,但训练成本降了 4-5 倍,推理成本降了近 10 倍。

七、巨头定价:硅谷大模型阵营图

广密亚
硅谷大模型公司的融资基本上就是巨头定价来主导的。硅谷 VC 几乎都错过了大模型的投资,也同样都错过了 SpaceXTesla 的投资。
硅谷 AI 巨头阵营对抗图

三大阵营

第一阵营:微软 + OpenAI

  • 最领先的组合
  • 微软独家锁定 OpenAI
  • "Chat 就等于 ChatGPT,OpenAI 等于 AGI"
  • 微软 CTO Kevin Scott 赌上职业生涯力挺

第二阵营:AWS + Google + Anthropic

  • "敌人的对手就是朋友"
  • AWS 和 Google 给了 Anthropic 约 60 亿美元
  • Apple 未来也可能加入
  • Anthropic 更开放,可服务多方

被忽视的终端阵营

广密亚认为大模型最相关的三个大生意依次是:芯片(NVIDIA)、公有云(微软 Azure、亚马逊 AWS)、终端(手机 + 汽车)。其中终端最终可能最关键——Apple 和 Tesla 代表的手机端和车端是离用户最近的 AI 入口。

  • Apple:从 Google 挖了很多人,但追到 GPT-4 "还是很有压力的",如果做不出来就只能投或收购
  • Tesla:马斯克做了 xAI,自动驾驶是 AI 落地最清楚的产品
  • 明年 Apple 到底支持谁,是"一个很关键的题"
关键判断

为什么巨头愿意投入百亿?

赌的是入口。ChatGPT 代表 Answer Engine(问答引擎),Google 代表 Search。广密亚比喻说:"问答引擎就像是直接点外卖,所有都做好了;Google Search 就是你去菜市场还要买菜。"如果 Answer Engine 最终颠覆 Search,那对 Google 来说就是主航道被替代。同理,Meta 的真人社交网络面临虚拟人 Agent 社交的潜在威胁,Apple 的 Siri 面临被更强 AI 替代的风险。

八、中美参差:两种截然不同的叙事

硅谷叙事

  • 讲的是 AGI、登月
  • 技术辨识度高,谁领先大家都清楚
  • 巨头愿意投入百亿美元
  • 资源高度集中在头部 2-3 家
  • 更像 Research Lab,不急于商业化
  • 情绪更乐观

中国叙事

  • 讲的是商业化落地、怎么融到下一笔钱
  • 技术辨识度低,不知道谁好
  • 巨头各投 3-5 千万美元,决心不足
  • 资源分散在多家公司
  • 更焦虑生存问题和商业模式
  • GPU 不足是硬伤
广密亚
中国可能会比较分散,因为技术的辨识度很低,我们不知道谁是领军人才。所以资源、资金、卡都相对比较分散。但这不是一个分散能做出来的事。

中国投资的独特现象

移动互联网 vs AI 投资模式的差异

移动互联网时代是巨头 A 投 B 公司、巨头 C 投 D 公司,阵营分明。但大模型时代,"大家都一起进一家公司,而且可能一起进多家公司,每个人投个三五千万美金"。原因还是技术辨识度太低——"不知道该把十亿美金投给谁"。

"集中力量办大事" vs 分散式探索的困境

广密亚认为大模型适合 top-down 来做,但中国目前的资源"比较分散",每天的资源都是 3-5 亿美金,且面临 GPU 不足的硬伤。他的建议是"提前抱大腿"——像硅谷的第二阵营那样和巨头深度绑定,而非各自为政。他甚至具体点名:阿里有云和钉钉("像微软"),字节的能力"可能在其他人之上",百度"觉得自己行但不知道未来真的行不行"。

九、开源与闭源:不是软件的开源逻辑

广密亚
大模型它不是一个传统意义的软件开源,模型不可编码不可解释,大家没办法一起做贡献。

为什么开源追不上闭源

核心逻辑

大模型开源 ≠ 软件开源

传统软件开源的核心在于社区协作——代码可读、可改、可贡献。但大模型是"不可编码、不可解释"的,"模型为什么有这个智能大家今天还是不知道的,就像人脑一样"。GPU 需要在单一集群连起来训练才更高效,无法像开源软件一样分布式协作。

开源模型的角色

  • 使命不是做最聪明的模型
  • 承接先进模型溢出的能力,做民主化
  • 覆盖中低端需求,成本优势明显
  • 端侧部署是下一个重要方向
  • "开源有可能未来就等于 Meta Llama 的能力"

闭源模型的壁垒

  • 最强的模型不会开源——safety 问题
  • 大模型覆盖小模型是必然
  • OpenAI 顺手训一个 7B 可能碾压 Mistral
  • 差距只会越来越大
  • "很像芯片或者 SpaceX"

Mistral 的投资困境

广密亚透露他们在看 Mistral 融资时"很难做决定",因为 Mistral 面临一个根本性风险:即使它在 7B 参数上做出最佳模型,OpenAI 也可能"顺手"训一个同等规模的模型将其碾压。"大模型公司向下覆盖"是一个结构性威胁。

开源的真正价值:需求分层

广密亚用出行比喻需求分层:"从北京到天津,开车和高铁都可以,没必要用火箭飞船。但从北京到旧金山,SpaceX 两小时送过去,需要 capability 很强的。"开源模型服务"北京到天津"的需求完全成立,但这并不意味着它能替代闭源模型服务"北京到旧金山"的需求。长期来看,大的 Foundation Model 可以生成任意大小的模型来覆盖所有层级需求。

十、多模态与 Agent:2024 核心叙事

多模态:2024 年的必卷之路

广密亚
2024 年的叙事肯定是卷多模态的。Google Gemini 打了一个新的开端,它是一个从头 pretrain 的统一多模态模型。

多模态的技术挑战

  • 视频数据的 pretrain 比文本 token 复杂一个量级
  • 视频的信息密度不够稠密,本身没有语言蕴含的知识量多
  • 视频的 tokenizer 很难——如何高效提取关键信息、忽略背景、关注物体变化
  • 真正的多模态模型训练需要之前 10-20 倍以上的 GPU 资源
  • Diffusion 和 Transformer 并不不兼容,可以结合

视频生成的预判

广密亚判断:明年底视频生成效果会像 2023 年图像生成效果(Midjourney V1→V6)一样快速提升。当前主流方案只能做到几秒钟动画效果,更长更复杂的视频"还需要技术突破"。Transformer 的核心优势是容易 scale up,视频生成模型如果也走 Transformer 路线持续 scale,可能是关键突破口。

Agent:底层能力不足,标杆缺位

广密亚
今天我很难说出来有哪一个产品是 agent role model。Agent 大爆发最核心的一个还是底层模型的 reasoning 推理能力要上来。如果你推理的准确性是 90%,做 10 步推理,准确率就降到 30%-50%。
关键约束

Agent 的"准确率衰减"问题

Agent 需要执行多步推理,而每一步的错误会累积。如果单步推理准确率是 90%,10 步串联后整体准确率只有约 35%(0.9^10),这远远不够实用。因此 Agent 的大爆发取决于底层模型 reasoning 能力的根本性提升,以及推理速度的优化。

十一、新摩尔定律:能力上升 + 成本下降

广密亚
模型能力每一到两年提升一代,训练成本每 18 个月是原来的四分之一,推理成本每 18 个月是原来的十分之一。

两条主线驱动应用爆发

AI 新摩尔定律:能力与成本的双向运动

主线一:智能能力持续提升

  • Reasoning 推理能力是最核心的长期能力
  • 参数量、数据、GPU 可持续 scale 很多年
  • 每提升一代模型,解锁一批新应用
  • 类比:手机传感器 + 网络带宽催生短视频

主线二:模型成本持续下降

  • 训练成本过去 18 个月降了 4-5 倍
  • 推理成本过去 18 个月降了 10 倍
  • 推理成本除以 100 "非常可预期"
  • 核心是 GPU 利用率、架构优化、精度调节

成本是被严重忽视的隐形竞争力

广密亚反复强调成本优化可能是大模型公司最重要的"隐形竞争力"——"如果你能把成本做的极低,你的模型还不输,那我觉得这就是极强的核心竞争力,就像芯片了。"这种"非常像芯片"的规模效应意味着:领先者能用更低成本提供更强能力,后来者的追赶窗口会越来越窄,"可能再过两代就追不动了"。

端侧推理的战略价值

如果手机内存在未来两年提升 4-5 倍,端侧就能承载大量 AI 推理,AI 公司的成本结构将发生根本变化——从云侧推理转向端侧推理。这对 Apple 和 Tesla 来说是巨大利好,因为"端还是离用户更近"。

十二、VC 困局与 AI 投资的金融产品错配

广密亚
大模型的投入可能跟 VC 这个产品是不 match 的。大模型应该是另外一个金融产品来支持的。

VC 为什么投不了大模型

特征VC 产品偏好大模型公司特征
投入规模数百万~数千万美元数十亿~百亿美元
商业模式早期可见"今天还没有商业模式"
回报周期5-7 年不确定,可能需要 10 年+
风险类型市场风险科学风险(Scaling Law 可能失效)
退出方式IPO 或并购"80%-90% 大概率还是被收购"

GPU 作为新的生产资料

广密亚提出了一个有趣的类比:以前的关键生产资料是土地,黑石靠地产做大。现在关键生产资料可能是 GPU。AI 公司买不起 GPU,GPU 就变成了类似土地的资产类别。他预测"新的债的金融产品"可能因此出现——类似于地产开发中的项目融资结构。

Nat Friedman:超越 VC 的个人投资人

广密亚
我最欣赏的硅谷 AI 投资人是 Nat Friedman,GitHub 的前 CEO。他的 AI Grant 已经在 AI 领域完全超越 VC 了。他很早期就投了 Character 和 Perplexity,portfolio 质量最高,影响力最大。全是个人的钱。

VC 的困境是结构性的

硅谷 VC 面临双重压力:(1)大模型投资不 match VC 产品属性,错过了这一波最大的机会;(2)微软和 OpenAI 可能把很多软件的生意都做掉,威胁 VC 传统的 SaaS 投资领地。这揭示了一个更深层的问题:AI 时代的资本形态可能需要根本性变革——从 VC 的概率模型(投 30-50 个,靠 power law 赢)转向类似曼哈顿计划或举国体制的集中投入模式。

十三、应用大爆发何时来临

2023 年的应用现实

10亿+
OpenAI 年化收入(美元)
<10亿
其他所有大模型原生产品 AR 总和
70-80%
ChatGPT 占全球 Chat 流量
2个
DAU 稳定在200万+的AI产品
广密亚
我们年初低估了做到 GPT-4 的难度,高估了应用大爆发的速度。这应该是很多人的想法。

全球 DAU 稳定在 200 万以上的大模型原生产品,广密亚只能想到 ChatGPTCharacter.AI 两个。企业级探索中只有微软和 Adobe 比较激进,其他成功案例"还不多"。

应用大爆发的前提条件

芯片类比:等能力和成本再迭代两三代

广密亚反复将大模型比作芯片——"你要等芯片的能力和成本再迭代个两三代,上面的消费电子才会慢慢的爆发。"他判断 GPT-4 "今天还代表未来黄金十年的开端",但"做不了太多事"。可能需要再卷过 GPT-4.5、到 GPT-5(2024 年可能看到),应用大爆发才有"一定可能性"。

"模型即应用"的可能范式

广密亚提出了一个重要判断:在 AI 时代,"有可能模型即应用"——Character.AI 从用户角度是应用公司,但 99% 的体验由模型决定,团队核心都是做模型的人。用 Llama 开源模型做 Character 的效果"不够好",只有 MiniMax 等有自研模型的公司才做好了类似产品。如果这个判断成立,意味着没有自研模型能力的纯应用公司在 AI 时代可能没有生存空间。

关于垂直模型

广密亚
有可能不存在垂直模型。因为一个领域它可能没有足够的训练 token 量来支持训练一个垂直的模型。通用的模型变成一个非常厉害的推理引擎,渗透到各行各业当中,就很像搜索一样。

十四、OpenAI 政变与 Sam Altman 的政客面相

员工为什么跟随 Sam

广密亚
如果把我换到 OpenAI 的员工上,我肯定也是跟着 Sam。因为我奋斗了好几年的股票,只跟 Sam 有关。Sam 如果不在,那我努力了几年的股票就黄了。

700+ 员工一致跟随 Sam 的核心原因是利益:大部分激励靠股票,微软的合作也由 Sam 主导。微软 CTO Kevin Scott "赌上职业生涯来力挺"。

被开除的原因——至今无解

广密亚的推测

  • 至今没有任何解释
  • "Sam 肯定是做了很激进的事,不然不至于一个董事会会把一个 CEO 给开掉"
  • "这个激进的事肯定还不能说"
  • "有可能跟微软有关"

Ilya 的去向

广密亚
我比较好奇伊利亚后面会怎么样。他现在好像不怎么在办公室出现了。如果 OpenAI 损失了他,肯定还是挺大的损失的。他还是一个挺值得尊敬的优秀科学家。

Sam Altman 的"政客"画像

广密亚
Sam 跟乔布斯和马斯克好像不太是一类人。乔布斯和马斯克在硅谷没有朋友,但 Sam 在硅谷所有人都是朋友。去国会问询的时候跟国会的议员都是朋友。所以我觉得 Sam 很像是一个政客。如果说 AGI 真的实现了,你说 Sam 会是一个新形态的总统吗?

OpenAI 的结构性弱点

尽管 OpenAI 在品牌、用户规模和技术上领先,广密亚指出了几个结构性弱点:(1)ChatGPT 没有搜索和推荐那样的数据飞轮——模型是预训练的,无法实时反馈;(2)chat 数据比互联网和 AI 生成的数据质量低,大概率用不到训练;(3)OpenAI 是"追求 AGI 为导向"而非"以服务用户为导向"。这些弱点为竞争者留下了窗口。

十五、终极问题:Transformer 能否通向 AGI

广密亚
Transformer 就等于 AGI,这个有可能不一定对。只是说 Transformer 是最接近 AGI 的一个技术路径。但因为 Transformer 本质还是一个统计概率模型,它还是预测下一个 token 的,这种方式是不是会有瓶颈,还是一个开放式问题。

技术路线的不确定性

广密亚的三大"开放式问题"

  • Scaling Law 是否有尽头?起码目前最领先的公司也没有摸到 Transformer 的天花板
  • 其他架构是否可能?有的架构用小量数据有更好效果,但不 scale up
  • "下一个 token 预测"够不够?统计概率模型是否能真正产生"智能"

目前 Transformer + Scaling Law "是走向 AGI 最有可能的路径,还没有第二个其他路径。"

2023 年的三大噪音

1
低估 GPT-4 复刻难度
2
把模型公司产品当应用标杆
3
YY 太多,Facts 太少
广密亚
ChatGPT 和 Character,大家都把它们当应用。我觉得这就是噪音。其实它两个是模型公司。有可能它们会把大家带到一个坑里。

未来的宏观预测

2024 上半年

Anthropic Claude 3 和 GPT-4.5 发布,模型能力再提升一个大台阶。

2024 年中

Google Gemini Ultra 发布。格局形成后"很难改变"。

2024 年底

GPT-5 有机会看到。应用大爆发可能有"一定可能性"。

未来 3-5 年

全球至少花 1000 亿美金在大模型上。数据中心用电从 2-3% 涨到 10-20%。

未来 15 年

AI 可能让全球 GDP 翻倍(96 万亿→200 万亿美元)。替代 10 亿白领,3-50 万亿美元 market size。

"人类千亿科学豪赌"的本质

这场豪赌的特殊性在于:它不是赌市场(是否有需求),也不是赌技术(能否工程化),而是赌科学(Scaling Law 是否是通向 AGI 的正确路径)。人类历史上以这种规模赌科学发现的先例并不多——曼哈顿计划和阿波罗登月可能是最接近的类比。区别在于,那两个项目有明确的物理理论支撑,而 Scaling Law"今天还没有理论支撑"。这既是最大的风险,也是最大的机会。

对地缘政治的深远影响

广密亚提出了一个大胆的推测:如果硅谷提前实现 AGI,对全球地缘政治"会有很大的影响"。大模型融合了多种语言,可能带来新的文化融合。同声传译、翻译产品的普及意味着"一个中文人是不是可以跟一个印度民族方言的人谈恋爱"。AI 创造的增量 GDP 可能是互联网过去 20 年的 5-10 倍。

关键数据汇总

指标数据
全球大模型核心人才200-300 人
OpenAI 人才占比100+(约 50%)
ChatGPT MAU2 亿+(2023 年底)
ChatGPT 占 Chat 流量70-80%
OpenAI 年化收入10 亿+ 美元(2023),预期 50-60 亿(2024)
GPT-4 训练用卡2.2 万张 A100,训练 100 天
GPT-4 纯训练成本约 8000 万美元
下一代模型训练成本10-30 亿美元(2025 年)
全球未来 3-5 年总投入至少 1000 亿美元
Anthropic 估值150-250 亿美元
OpenAI 估值约 1000 亿美元
H100 vs A100 实际性能1.5-2 倍(非宣传的 3-6 倍)
训练成本 18 个月降幅4-5 倍
推理成本 18 个月降幅10 倍
GPT-3.5→GPT-4 难度倍数5-10 倍
700 亿参数训练稳定性分界点
全球第一梯队储备门槛100 亿美元
数据中心用电占比(当前)2-3%
数据中心用电占比(未来)10-20%
AI 替代白领规模10 亿人
DAU 超 200 万的 AI 原生产品仅 2 个(ChatGPT、Character)
← 返回目录