广密开篇即抛出核心判断:语言模型预训练这个范式可能已经到了瓶颈。他给出50%的概率认为传统Scaling Law已经失效,另外50%概率认为沿着老路还能继续走向AGI。
广密透露:3万卡集群基本上每两个小时break一次,10万卡集群则二三十分钟就break一次,综合利用率会大幅下降。这个挑战可能"比SpaceX发射中型火箭还要复杂"。马斯克的XAI押注10万卡集群是一种"第一性原理"的豪赌,有很大概率但也有很大风险。
面对Scaling Law可能失效的局面,广密梳理了三条潜在突破路线:
| # | 路线 | 确定性 | 天花板 | 核心挑战 |
|---|---|---|---|---|
| 1 | 多模态(尤其视觉) | 确定会发生,但时间问题 | 还不够本质 | 无证据证明视觉训练能涌现智能/逻辑;技术路线未统一;可能需要全新架构 |
| 2 | 10万卡集群(暴力scale up) | 确定会发生,但时间问题 | 取决于Scaling Law是否继续work | 充分互联难度极大;综合利用率低;可能是"全人类目前最难的项目" |
| 3 | Self-Play RL(强化学习) | 范式级别 | 最高 | Reward model能否泛化到代码和数学之外;人才极度稀缺 |
多模态、10万卡集群和强化学习三条路线可以并行,但资源有限时必须做选择。广密认为只有强化学习称得上"范式级别"的变化,其余两条"确定性会发生,但还不够本质"。
广密回溯到2018年,当时伊利亚受邀到MIT做客座讲课,选的主题就是强化学习和self-play。伊利亚用一句话概括了强化学习:
一个人有一张藏宝图,但我有5000个特种兵带着专业探测设备。虽然资源浪费,但只要有宝贝,几乎百分百能探测出来,甚至比拿藏宝图的人更快。关键风险:如果特种兵"鉴宝能力不足"(即reward model出错),就会漏掉宝贝或捡回垃圾。
GPT已经通过语言和录像学成了博士,各种知识道理都懂了。现在设置目标——取得马拉松最佳成绩。AI探索各种方法(科学饮食、姿势、肌肉发力),甚至找漏洞(如吃兴奋剂——这就是hack了比赛规则,需要制定新规则——这就是AI的safety/alignment)。
训练狗时,小零食就是明确的正面奖励。但对于LLM来说,奖励反馈到底是什么?没有清晰的界定。上亿人使用ChatGPT,给到的反馈其实"没那么有效"——用户很快进入下一个话题,点赞和点踩的噪音也很多。目前reward model最能work的领域是代码和数学,因为有明确的胜负/对错。
| 方法 | 核心目的 | 核心区别 |
|---|---|---|
| 传统RL | Agent自主探索 | Agent(如AlphaZero)是千万参数的神经网络 |
| RLHF | 人机对齐,让AI更像人 | 不是获取机器智能,而是让AI不超越人;更喜欢好理解的东西而非逻辑严谨的内容 |
| Self-Play RL | 提升逻辑推理能力 | Agent计算量增加3-4个数量级(从千万参数到数千亿参数模型) |
广密引用了一个"特别有趣的描述":语言是走向AGI的一个拐杖。语言和预训练是"中间态的甜点前菜",后面的强化学习才是主菜。更形象的比喻:语言和预训练比作人类的基因组,携带着几千年进化的基因;强化学习就是人类成长的一生,从出生起就开始接受正面和负面信号。
广密认为Cloud 3.5 Sonnet(2024年6月20日发布)是RL范式转变的标志性产品。代码和数学有显著提升,而Anthropic很早就重视强化学习——"Anthropic好像只摆了两件事:一个是下一代模型,一个是RL强化学习。"
广密明确指出,大语言模型和强化学习是接力关系,而非替代关系。
广密反复强调,语言模型与RL是乘积关系(A x B)。如果你的模型底座能力(A)是2分,别人是8分,你的RL(B)变化再大也乘不上去。没有一个很强的底座模型,是没办法做self-play的。这意味着Pretrain仍然是必经之路,但RL是Pretrain确定的未来。
RL新范式并没有废除Scaling Law,而是重新定义了它。
RL的核心思路是用推理时间的计算量来替代训练时间的计算量,解决模型向上scale up时边际收益递减的问题。训练计算量不只与参数量上升有关,还多了一个新变量:self-play探索时的inference计算量。
广密对RL范式转移在硅谷的共识程度做了清醒判断:
| 公司 | RL优先级 | 备注 |
|---|---|---|
| Anthropic | 最高 | 很早就重视RL,Cloud 3.5是标志性产品;主线就是RL,不搞Sora不搞Search |
| OpenAI | 很高 | 造势草莓/Q*很久;RL是OpenAI很深的传统(最早用RL打Dota游戏) |
| Google DeepMind | 传统RL很强 | 新范式self-play不太确定;人才优势强,但不确定管理层是否重视 |
| Meta/Llama | 几乎没有 | "应该还完全没有" |
| 其他模型公司 | 还没开始 | "不知道怎么做" |
广密的回应:爱迪生发明灯泡也浪费了大量实验资源,但你只需要成功一次就可以大量复制。"杨乐坤现在喜欢说话引起争议——有争议才有流量。这是文人的好胜心,彼此瞧不上,有不同流派。"
发现语言模型的Pretrain遇到瓶颈,进展不顺利。"之前觉得25、26年可能才会碰到瓶颈,没想到这么快。"
认为self-play RL work了之后,"离实现AGI和SI超级智能更清晰了"。强化学习打开后的天花板更高。
广密认为"也有一半概率能实现AGI"。如果RL能泛化就没问题;如果不能,下限也能把传统机器学习都替代掉,且coding会很强——coding如果很强,"有可能也会在很多领域加速"。
广密将AI赛道画成"一个大圈套四个小圈":大语言模型是核心,外围四个赛道是搜索、Coding、视频、机器人。他最兴奋的是Coding和视频。
这些公司最新估值都达到二三十亿美金,有些产品还没法用。
广密提出了一个重要概念:Task Engine(任务引擎)。Google是Search Engine(搜索引擎),处理信息;Task Engine则是完成任务。"完成任务才是这一轮技术革命下最核心的主题。"未来用户用自然语言描述任意需求(比如"让超市每周一八点给我家门口送水果和食材"),后端实时编程来满足——这是对长尾需求的革命性释放。
广密对视频赛道的判断:极其诱人但风险极大。
Sora出来后的半年,视频生成进步效果非常大。"半年前一个人走路的动作是很慢的,今天是很丝滑的。"Sora给行业指明了DIT路线。
假如全球有一亿人每天戴着Meta Ray-Ban眼镜,"它能从我们日常习惯里面总结出更多的人类的习惯、商业的习惯、我们没有发现的规律——它就是新的牛顿。"而且这可能是机器人需要的非常关键的第一视角数据。
广密对通用机器人的判断远比市场冷静:本质上还是一个基础科学问题,不是商业问题。
| 梯队 | 公司 | 特点 |
|---|---|---|
| 第一梯队 | Pi(Google Robotics出身)、The Bot(Cruise创始人Kell创立) | 核心研究圈公认最头部;人才绝对最强 |
| 融资突出 | Scale AI、Figure AI | Figure融资能力强,CEO讲故事能力特别强,但"竞争力定位比较尴尬" |
广密认为从终局看,可能不会是一个AI模型适配所有硬件。机器人可能必须端到端优化(从模型到硬件到数据)。要找到一个好的大场景去大规模采集数据,针对单一场景端到端优化,而且AI能力先在这一款上体现。Tesla有出行这个刚需场景,就像手机有通话这个刚需场景。
广密认为投入"还是太少了"。移动运营商4G和5G的投入都是七八千亿人民币量级,公路高铁投入也比较大。"对AI方向你再怎么投入都不为过。"他甚至严肃警告:"想想为什么会有鸦片战争或海湾战争——这是不对等的东西。"
| 人物 | 动态 | 影响评估 |
|---|---|---|
| Greg Brockman | 长期休假,在外面与人聊天 | 技术影响不大,但他是"最OpenAI的人";情感极深 |
| John Schulman | 宣布加入Anthropic | 影响不大——工作已交给另一个人;但对Anthropic帮助更大——"两个公司的信息拉齐了" |
| 伊利亚 | 创立SSI(超级智能公司) | 可能更早看到了实现超级智能的更快路径;核心下注就是RL |
红杉合伙人David Cahn发表文章指出AI每年需要填补6000亿美元的收入缺口。广密的回应:
先有铁路建设,再有后来的经济活动。
先有芯片、PC、iPhone,再有移动互联网爆发。
先有数据中心,才有企业上云。2010年Amazon只有苹果1/3市值(苹果1500亿),现在Amazon 2万亿而苹果2000亿——十倍。
同一用户问同一问题,不同模型答案差异很大。在复杂任务上用开源或小模型"很多问题解答不了",最后还得回到GPT-4o或Cloud 3.5。
不是商业公司。就像贝尔实验室由AT&T支持——巨头以投资形式给到Funding,Lab的研究成果再给巨头做商业化。而且这些巨额亏损不用并表。"有可能这就是一个常态。"
| 移动互联网 | AI时代 | |
|---|---|---|
| 明线 | 全球多了40-50亿移动用户 | Scaling Law(虽在发生范式变化,背后核心是Compute) |
| 暗线 | 用户行为数据做推荐(没做推荐的公司都没做大) | Self-Play强化学习(不做RL的公司可能下一波跑不出来) |
| 关键Feature/能力 | 大屏幕(TikTok/抖音)、摄像头、GPS(Uber/滴滴) | Coding、多模态、数学、Agent |
| 最重要数据来源 | 新产生的数据(非旧应用积累) | RL过程中AI产生的数据 + 人指导的数据 |
| 判断 | 具体内容 |
|---|---|
| Scaling Law失效概率 | 50%概率传统Scaling Law已失效 |
| 主流模型参数 | 六七百B MoE(单台H100 server放得下) |
| 高质量文本数据 | 15-20T可获取,难倍数增至50-100T |
| H100集群极限 | 3.2万张充分互联,全球三五家能做到 |
| 3万卡集群稳定性 | 约每2小时break一次 |
| 10万卡集群稳定性 | 约每20-30分钟break一次 |
| Self-Play RL vs 传统RL | Agent计算量增加3-4个数量级 |
| 合成1T推理数据成本 | 约6亿美元 |
| 合成10T推理数据成本 | 约60亿美元 |
| RL步骤有效率 | 99%最终无效(但必须跑) |
| AI代码行数进步 | 去年20行 → 今天几百行 → 明年可能几千行 |
| RL范式共识人数 | 硅谷最核心researcher约几百人 |
| Coding独角兽估值 | Devin、Augment、Magic等均二三十亿美金 |
| Luma vs 竞品流量 | Luma是Runway和Pika的七八倍 |
| Character.ai收购价 | 超20亿美金(核心是Noam Shazeer) |
| OpenAI ARR | 约40亿美金,年底可能70-80亿 |
| 中国达到GPT-4水平 | 年内2-3家(字节、DeepSeek、阶跃) |
| 放弃Pretrain的公司比例 | 预计70-80% |
| 机器人大爆发时间 | 5-10年范畴 |
| AGIX指数权重 | 硬件40%、Infra 40%、应用20% |
| RL最领先的公司 | Anthropic和OpenAI |
| CEO应All in RL的资源 | "200%的资源" |
广密将语言预训练比作"人类基因组"、将强化学习比作"人类成长的一生"。这个类比揭示了一个深刻的不对称:基因组是有限的压缩信息,而一生的探索是无限的。如果这个判断成立,意味着当前所有围绕"谁的预训练数据更好"的竞争都只是序章,真正的主战场是RL——而在这个战场上,全球只有"几百人"知道怎么做。
语言模型底座(A)和RL能力(B)是乘积关系。如果你的A是2分、别人是8分,你的B再强也乘不上去。这意味着中国公司面临双重赛跑:既要在短期内将底座追到GPT-4水平,又要同时开始RL布局。广密预计70-80%的中国公司会放弃Pretrain——这些公司在RL时代将彻底失去参赛资格。
广密用"5000个特种兵探矿"的比喻揭示了RL的核心经济学:资源浪费是特征而非bug。这解释了为什么杨乐坤批评RL是"资源浪费"——从效率角度看确实如此,但从探索角度看,爱迪生发明灯泡也浪费了大量实验。关键区别在于:你只需要成功一次就可以大量复制。这也解释了为什么只有Anthropic和OpenAI这样有足够资源的公司才能真正做RL。
Cursor的爆火本质上是Cloud 3.5 Sonnet代码能力从"不work"变成"work"的产物。但广密指出了一个关键局限:专业开发者群体的天花板只是GitHub级别(约10B),真正的想象空间在"编程民主化"——Task Engine(任务引擎)。这个概念可能比大多数人意识到的要深远得多:它不是"让人人都能写代码",而是"让代码变成不可见的基础设施"。
广密指出了一个尴尬的悖论:硅谷投"机器人大脑"(做iOS/安卓),但可能根本不存在一个通用的机器人大脑——大脑可能就是GPT。中国投"整机",但技术timing可能还在5-10年的research lab阶段。Figure AI被高估、人才密度不够、竞争力定位尴尬。最终可能还是Tesla的端到端路线最make sense——先找到刚需场景(出行),再大规模采集数据。
广密将RL类比为移动互联网时代的推荐算法:"没有做推荐的公司都没做大。"如果RL是AI时代的暗线,那么"今天不做强化学习的公司,下一波浪潮里面都跑不出来"。这是一个极其大胆的判断——它意味着RL不是可选项,而是生存条件。
广密点出了一个很少有人直说的真相:中国基础研究做不好不是因为缺人才或缺意愿,而是因为经济基础不允许冒险。在美国亏一亿美金可能被收购、三年后东山再起;在中国亏一亿人民币"好长时间翻不了身"。这个不对称的容错率差异,才是中美AI差距的深层结构性原因。