← 返回张小珺主页
深度研究 Deep Dive

AGI范式大转移:预言草莓、OpenAI o1与self-play RL

#73 全球大模型季报第四期 · 嘉宾:广密
2024.9 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. Scaling Law遇到瓶颈
  2. 三条突破路线
  3. 强化学习RL核心概念科普
  4. Self-Play RL:范式级变革
  5. 语言模型与RL的接力关系
  6. RL新范式下的Scaling Law重构
  7. 硅谷共识度与人才稀缺
  8. 对AGI前景的乐观与悲观
  9. AI赛道一:Coding与编程民主化
  10. AI赛道二:视频生成与理解
  11. AI赛道三:通用机器人
  12. 中国LLM公司的现状与基础研究
  13. 硅谷主要玩家点评
  14. AI的6000亿美元之问
  15. 非共识与市场预测
  16. 关键数据汇总与启示

一、Scaling Law遇到瓶颈

广密开篇即抛出核心判断:语言模型预训练这个范式可能已经到了瓶颈。他给出50%的概率认为传统Scaling Law已经失效,另外50%概率认为沿着老路还能继续走向AGI。

瓶颈的三个维度

参数
最好模型约六七百B MoE,未见2-3T突破
数据
高质量文本15-20T,难倍数增至50-100T
算力
H100单集群最大3.2万张,B系列尚未规模化
广密
纯靠加参数、加数据、加算力,这条路肯定是不容易了。

三种可能的情况

为什么模型没有在GPT-4o基础上大幅跃升

  • 情况一(短期问题):Scale up的幅度依然不够,H100这一代卡不够好,需要等B系列GPU出来才能真正scale up
  • 情况二(执行问题):训练更大的模型非常复杂,MoE架构的"高矮胖瘦"难调,2-3万亿参数的MoE本身就很难训练
  • 情况三(最担心的):纯靠语言的经典Scaling Law在更大参数下就开始失效,必须用新方法才能带来更大突破

10万卡集群的真实挑战

广密透露:3万卡集群基本上每两个小时break一次,10万卡集群则二三十分钟就break一次,综合利用率会大幅下降。这个挑战可能"比SpaceX发射中型火箭还要复杂"。马斯克的XAI押注10万卡集群是一种"第一性原理"的豪赌,有很大概率但也有很大风险。

二、三条突破路线

面对Scaling Law可能失效的局面,广密梳理了三条潜在突破路线

#路线确定性天花板核心挑战
1多模态(尤其视觉)确定会发生,但时间问题还不够本质无证据证明视觉训练能涌现智能/逻辑;技术路线未统一;可能需要全新架构
210万卡集群(暴力scale up)确定会发生,但时间问题取决于Scaling Law是否继续work充分互联难度极大;综合利用率低;可能是"全人类目前最难的项目"
3Self-Play RL(强化学习)范式级别最高Reward model能否泛化到代码和数学之外;人才极度稀缺
广密
如果我是一个AI公司的CEO,我肯定会200%的资源all in到强化学习RL这条路线。我感觉这是目前最有机会走向AGI的一条路。
核心判断

三条路线并不矛盾但资源有限

多模态、10万卡集群和强化学习三条路线可以并行,但资源有限时必须做选择。广密认为只有强化学习称得上"范式级别"的变化,其余两条"确定性会发生,但还不够本质"。

三条突破路线:确定性 vs 天花板 vs 投资优先级

三、强化学习RL核心概念科普

广密回溯到2018年,当时伊利亚受邀到MIT做客座讲课,选的主题就是强化学习和self-play。伊利亚用一句话概括了强化学习:

广密 引述伊利亚
让AI用随机的一个路径去尝试一个新的任务,如果效果超预期,那就更新神经网络的权重,让AI记得多使用这个成功的路径,然后再开始下一次的尝试。

强化学习的两个核心元素

环境(Environment)

  • AI探索完成任务的场景
  • 下棋:19x19的棋盘
  • 训练狗:狗主人的家和小区
  • LLM:文本或对话场景
  • 环境变化时产生reward信号

智能体(Agent)

  • 从强化学习定义而来的概念
  • 对环境的观测和感知
  • 输出动作(action)
  • 目标是获得更多奖励
  • 大语言模型本身就是agent

广密的两个类比

类比一:深山探矿

一个人有一张藏宝图,但我有5000个特种兵带着专业探测设备。虽然资源浪费,但只要有宝贝,几乎百分百能探测出来,甚至比拿藏宝图的人更快。关键风险:如果特种兵"鉴宝能力不足"(即reward model出错),就会漏掉宝贝或捡回垃圾。

类比二:训练马拉松运动员

GPT已经通过语言和录像学成了博士,各种知识道理都懂了。现在设置目标——取得马拉松最佳成绩。AI探索各种方法(科学饮食、姿势、肌肉发力),甚至找漏洞(如吃兴奋剂——这就是hack了比赛规则,需要制定新规则——这就是AI的safety/alignment)。

奖励模型(Reward Model)的核心挑战

LLM的"小零食"是什么?

训练狗时,小零食就是明确的正面奖励。但对于LLM来说,奖励反馈到底是什么?没有清晰的界定。上亿人使用ChatGPT,给到的反馈其实"没那么有效"——用户很快进入下一个话题,点赞和点踩的噪音也很多。目前reward model最能work的领域是代码和数学,因为有明确的胜负/对错。

四、Self-Play RL:范式级变革

AI经典三大学习方式

监督学习
从标注数据学习
非监督学习
从无标注数据学习
强化学习
自主探索+连续决策(最接近人类学习)

Self-Play RL vs 传统RL vs RLHF

方法核心目的核心区别
传统RLAgent自主探索Agent(如AlphaZero)是千万参数的神经网络
RLHF人机对齐,让AI更像人不是获取机器智能,而是让AI不超越人;更喜欢好理解的东西而非逻辑严谨的内容
Self-Play RL提升逻辑推理能力Agent计算量增加3-4个数量级(从千万参数到数千亿参数模型)
关键洞察

语言是拐杖,RL是主菜

广密引用了一个"特别有趣的描述":语言是走向AGI的一个拐杖。语言和预训练是"中间态的甜点前菜",后面的强化学习才是主菜。更形象的比喻:语言和预训练比作人类的基因组,携带着几千年进化的基因;强化学习就是人类成长的一生,从出生起就开始接受正面和负面信号。

Anthropic Cloud 3.5:标志性产品

广密认为Cloud 3.5 Sonnet(2024年6月20日发布)是RL范式转变的标志性产品。代码和数学有显著提升,而Anthropic很早就重视强化学习——"Anthropic好像只摆了两件事:一个是下一代模型,一个是RL强化学习。"

广密
语言模型Pretrain遇到瓶颈就是最近两个月。外界可能还不一定意识到,语言的Pretrain已经到了一定Bottleneck。

五、语言模型与RL的接力关系

广密明确指出,大语言模型和强化学习是接力关系,而非替代关系。

大语言模型(Pretrain)

  • 核心是利用现有数据
  • 在利用现有知识上已做到极致
  • 但探索新知识方面基本没做太多
  • 是走向RL的必要条件
  • 必须迈过GPT-4或Cloud 3.5水平

Self-Play RL

  • 核心是探索新的路径
  • 给AI一个粗颗粒度目标,自己探索路径
  • 是Pretrain确定的未来
  • 本质是用AI无限的算力补数据不足
  • 能合成大量高质量数据,甚至超过人类历史

A x B 乘积关系

广密反复强调,语言模型与RL是乘积关系(A x B)。如果你的模型底座能力(A)是2分,别人是8分,你的RL(B)变化再大也乘不上去。没有一个很强的底座模型,是没办法做self-play的。这意味着Pretrain仍然是必经之路,但RL是Pretrain确定的未来。

Self-Play合成数据的飞轮

一个良性循环

  • Self-play合成高质量数据
  • 合成数据用于Pretrain
  • 激发更大的Pretrain计算需求
  • 大语言模型的Pretrain变成强化学习系统的一环
  • 强化学习变成更核心的系统
广密
有可能实现AGI不一定需要巨量参数的模型。明年有可能就会看到很小的一个模型,可能比今天的GPT-4o还要聪明很多。单位参数下智能水平提升还是很快的。

六、RL新范式下的Scaling Law重构

RL新范式并没有废除Scaling Law,而是重新定义了它

核心变化

Inference Time换Training Time

RL的核心思路是用推理时间的计算量来替代训练时间的计算量,解决模型向上scale up时边际收益递减的问题。训练计算量不只与参数量上升有关,还多了一个新变量:self-play探索时的inference计算量

合成高质量推理数据的成本

6亿美元
合成1T高质量推理数据
60亿美元
合成10T高质量推理数据

对GPU需求的影响

推理 vs 训练的硬件差异

  • Inference对单张卡的性能和集群规模的要求相对低一些
  • 不一定非得用最顶尖的卡或3万/10万卡集群
  • 分布式的集群也可以跑RL的inference
  • AMD、其他ASIC芯片有可能也能work
  • 但英伟达GPU仍然性价比最高,领先地位可能还会拉大
  • 今天做RL的资源"比较浪费"——99%跑的步骤最终都是无效的,但你还是得跑
广密
传统的Scaling Law work了,但新的Scaling Law又开始了。计算成本可能还是会大幅提升来提升模型能力,但提升的并不一定是模型参数量,而是模型的推理能力。

七、硅谷共识度与人才稀缺

广密对RL范式转移在硅谷的共识程度做了清醒判断:

广密
这个共识还集中在少量的核心的Researcher圈子中,至今尚且没有扩散出去。有可能也就几百个人。很多AI的管理层可能还没有意识到。

各公司的RL优先级

公司RL优先级备注
Anthropic最高很早就重视RL,Cloud 3.5是标志性产品;主线就是RL,不搞Sora不搞Search
OpenAI很高造势草莓/Q*很久;RL是OpenAI很深的传统(最早用RL打Dota游戏)
Google DeepMind传统RL很强新范式self-play不太确定;人才优势强,但不确定管理层是否重视
Meta/Llama几乎没有"应该还完全没有"
其他模型公司还没开始"不知道怎么做"

杨乐坤的批评

杨乐坤最近批评RL是"资源浪费"

广密的回应:爱迪生发明灯泡也浪费了大量实验资源,但你只需要成功一次就可以大量复制。"杨乐坤现在喜欢说话引起争议——有争议才有流量。这是文人的好胜心,彼此瞧不上,有不同流派。"

八、对AGI前景的乐观与悲观

悲观阶段(前两个月)

发现语言模型的Pretrain遇到瓶颈,进展不顺利。"之前觉得25、26年可能才会碰到瓶颈,没想到这么快。"

乐观阶段(想了两个月之后)

认为self-play RL work了之后,"离实现AGI和SI超级智能更清晰了"。强化学习打开后的天花板更高。

衡量RL进步的有效指标

指标一:AI能写的有效代码行数

  • 去年:只能写20行
  • 今天:能写几百行
  • 明年:可能几千行
  • Cloud 3.5 Sonnet是显著提升的标志

指标二:数学测试集分数

  • GPT今天解决七八十分
  • 期待无人工干预下得100分
  • 不求速度,让self-play自己解
  • 全对了就是"很大的突破"

假设模型能力停留在GPT-4o水平会怎样?

广密认为"也有一半概率能实现AGI"。如果RL能泛化就没问题;如果不能,下限也能把传统机器学习都替代掉,且coding会很强——coding如果很强,"有可能也会在很多领域加速"。

九、AI赛道一:Coding与编程民主化

广密将AI赛道画成"一个大圈套四个小圈":大语言模型是核心,外围四个赛道是搜索、Coding、视频、机器人。他最兴奋的是Coding和视频。

Coding赛道的明星公司

Devin
AI程序员
Augment
AI编程
Magic
AI编程
Cursor
出圈的编程工具

这些公司最新估值都达到二三十亿美金,有些产品还没法用。

Cursor为什么火

广密
Cloud 3.5 Sonnet可能就是这个行业的iPhone摄像头。今天的Cursor可能就是基于这个摄像头之上的一个拍照工具。Cursor火的背后最核心的原因还是Cloud 3.5 Sonnet代码能力变强了——以前不work的事儿,今天work了。

编程民主化:从专业工具到Task Engine

终极愿景

Task Engine——新一代Google

广密提出了一个重要概念:Task Engine(任务引擎)。Google是Search Engine(搜索引擎),处理信息;Task Engine则是完成任务。"完成任务才是这一轮技术革命下最核心的主题。"未来用户用自然语言描述任意需求(比如"让超市每周一八点给我家门口送水果和食材"),后端实时编程来满足——这是对长尾需求的革命性释放。

专业群体 vs 大众消费级

  • 只做专业开发者群体:天花板可能就是GitHub(10B级别)
  • 大众消费级市场:类比Adobe Photoshop(几千万专业用户) vs 抖音/剪映/Canva(上亿级活跃用户)
  • 最有想象力的故事在大众消费级市场
  • Cursor有可能是2024年的Perplexity——模型能力匹配产品最match的阶段

十、AI赛道二:视频生成与理解

广密对视频赛道的判断:极其诱人但风险极大

视频生成的进步

Sora出来后的半年,视频生成进步效果非常大。"半年前一个人走路的动作是很慢的,今天是很丝滑的。"Sora给行业指明了DIT路线。

广密
大家可能远远低估了创意和内容这个赛道。人人可能都是电影级别的导演。以前一部电影可能几千万美金上亿美金的拍摄成本,未来可能很多爆款电影就几万美金的成本。

视频赛道的格局

特别不稳定

  • 不像语言模型——大哥老二座次比较清楚
  • 视频生成是"各领风骚100天",每家都有自己的bet
  • 技术架构没有统一
  • 可能像内容行业——不是赢家通吃,而是分散的
  • 决胜窗口可能持续三四年
  • Luma的流量是Runway和Pika的七八倍

视频理解:Meta Ray-Ban的启示

视频不只在生成,理解很关键

假如全球有一亿人每天戴着Meta Ray-Ban眼镜,"它能从我们日常习惯里面总结出更多的人类的习惯、商业的习惯、我们没有发现的规律——它就是新的牛顿。"而且这可能是机器人需要的非常关键的第一视角数据。

十一、AI赛道三:通用机器人

广密对通用机器人的判断远比市场冷静:本质上还是一个基础科学问题,不是商业问题

硅谷机器人公司的梯队

梯队公司特点
第一梯队Pi(Google Robotics出身)、The Bot(Cruise创始人Kell创立)核心研究圈公认最头部;人才绝对最强
融资突出Scale AI、Figure AIFigure融资能力强,CEO讲故事能力特别强,但"竞争力定位比较尴尬"
广密
Figure这种定位——AI能力不是最强的,硬件能力又不如中国公司强。硬件肯定还没有Tesla强。我总感觉竞争力定位比较尴尬。这个公司有点被高估。

通用机器人的核心挑战

基础科学尚未突破

  • 还没有在通用机器人领域看到通用和泛化能力
  • A设备采集的数据B设备不能用——没有泛化
  • 采数据成本很高——从几十到几百美金不等,每个场景要采几百个小时
  • 场景和产品定义没有看到好的——"你真的愿意买一个带回自己家的、真的有用的?"
  • 到底是2-3年突破还是10年突破不好说,"今天肯定是靠着十年这个时间维度"

中国 vs 硅谷的机器人路线

硅谷路线

  • 投"机器人大脑"——想做iOS或安卓
  • 但可能不存在一个通用的机器人大脑
  • 大脑可能就是GPT或通用大模型
  • 除Tesla外制造能力都不太行

中国路线

  • 做整机——OV小米模式
  • 先定义好硬件产品或场景
  • 供应链优势极强——至少是"机器人的富士康"
  • 解决具体场景的具体问题,不一定用最强AI

Tesla的逻辑可能最make sense

广密认为从终局看,可能不会是一个AI模型适配所有硬件。机器人可能必须端到端优化(从模型到硬件到数据)。要找到一个好的大场景去大规模采集数据,针对单一场景端到端优化,而且AI能力先在这一款上体现。Tesla有出行这个刚需场景,就像手机有通话这个刚需场景。

十二、中国LLM公司的现状与基础研究

对中国LLM公司的评价

广密
大家在模型上做的都差不多,技术辨识度依然还没有完全拉开。背后还是因为做了太少的基础研究。很少有人摆脱前沿的研究,大多数都是在follow硅谷的进展。

国内LLM公司的现状

  • 想做AGI的可能不多,大家都想做Killer App
  • 但今天还没看到Killer App长什么样的影子
  • 主要局限在chat、search、character几个产品形态
  • 今天还是AGI的故事在撑估值
  • 预计70-80%的公司会放弃Pretrain,直接用开源做Post-train
  • 年内真正达到GPT-4水平的可能有2-3家:字节、DeepSeek、阶跃

为什么基础研究做不好

经济基础决定研究上建筑

  • "基础研究是一个社会在资本富足后的奢侈品"
  • 贝尔实验室存在因为AT&T很赚钱;DeepMind存在因为Google有印钞机
  • 没有强大经济基础就没法支持科学家去冒险
  • 中国是农耕文明——"耕好自己的一亩三分地";欧美是海洋文明——勇于冒险和探索
  • "千万不要拿穷人的钱去做科研冒险——亏了钱就会有人拉横幅"
  • 在美国亏了一亿美金可能被大公司收购了,三年后再来;在中国亏一亿人民币,"创始人好长时间翻不了身"

中国应该加大投入LLM

广密认为投入"还是太少了"。移动运营商4G和5G的投入都是七八千亿人民币量级,公路高铁投入也比较大。"对AI方向你再怎么投入都不为过。"他甚至严肃警告:"想想为什么会有鸦片战争或海湾战争——这是不对等的东西。"

十三、硅谷主要玩家点评

OpenAI:浪费了技术领先红利

广密的评价

  • GPT-4刚出来时领先优势巨大,但没有转化为更强的产品/商业飞轮
  • AR约40亿美金(年底可能七八十亿),数字上成功但"按理应该更好"
  • 核心问题:没有找到对的人做出更好的天才产品
  • ChatGPT没有很强的数据飞轮(不像推荐系统/广告系统)
  • 除ChatGPT外其他产品"都不算太成功"——Sora、SearchGPT、Plugin、Dali、GPTs
  • "有点给行业做公益的感觉"——产品没做好就发了,启发了行业

OpenAI的人才变动

人物动态影响评估
Greg Brockman长期休假,在外面与人聊天技术影响不大,但他是"最OpenAI的人";情感极深
John Schulman宣布加入Anthropic影响不大——工作已交给另一个人;但对Anthropic帮助更大——"两个公司的信息拉齐了"
伊利亚创立SSI(超级智能公司)可能更早看到了实现超级智能的更快路径;核心下注就是RL
广密
伊利亚可能更早看到了实现不止AGI、叫SI超级智能的一个更快路径。他很自信,似乎看到了实现超级智能的路径,不然也不会轻易开一家公司。

关于草莓、Q*和o1的关系

广密的梳理

  • 草莓:更像是一个项目的代号
  • RL:是方法
  • Q*:可能是最早的一个源起的paper(基于DeepMind的一篇paper,应该是伊利亚最早提出来的)
  • 三者本质上都指向强化学习RL

十四、AI的6000亿美元之问

红杉合伙人David Cahn发表文章指出AI每年需要填补6000亿美元的收入缺口。广密的回应:

广密
Revenue和Use Case肯定是低于预期的,但这也没办法。每一次科技变革都是经历先一年投入,再Infra建设,再应用爆发。

历史规律的佐证

铁路时代

先有铁路建设,再有后来的经济活动。

移动互联网

先有芯片、PC、iPhone,再有移动互联网爆发。

云计算

先有数据中心,才有企业上云。2010年Amazon只有苹果1/3市值(苹果1500亿),现在Amazon 2万亿而苹果2000亿——十倍

AI产业的AGIX指数权重分布

AGIX指数构成

  • 40%:硬件公司(尤其半导体产业)
  • 40%:Infra公司
  • 20%:应用公司
  • 随着AI建设发展,后面两项权重比例肯定要增加

十五、非共识与市场预测

2024年Q3的非共识

非共识一:开源模型和小模型在高价值任务上不work

同一用户问同一问题,不同模型答案差异很大。在复杂任务上用开源或小模型"很多问题解答不了",最后还得回到GPT-4o或Cloud 3.5。

非共识二:很多硅谷AI公司本质是Research Lab

不是商业公司。就像贝尔实验室由AT&T支持——巨头以投资形式给到Funding,Lab的研究成果再给巨头做商业化。而且这些巨额亏损不用并表。"有可能这就是一个常态。"

AI是"重构"而非"颠覆"

广密
AI提升了生产力,但并没有改变生产关系。它只是改变了生产环节,但分发和消费环节都还在成熟的老公司这里。

超预期的公司

Anthropic

  • 从落后18个月到模型追平
  • 甚至有微弱领先优势

Perplexity

  • ASO出圈的搜索产品
  • 模型能力匹配产品最match

如果AI泡沫破灭,谁是下一个Amazon

广密的两个硬件公司答案

  • Apple:AI能力不是最强的,但未来的Killer App还是长在手机上。Apple是"无形的受益者"
  • Tesla:真正意义上从卖车公司变成AI公司。整个交通行业变化更大,而且它也是一个机器人公司

移动互联网 vs AI的叙事对比

移动互联网 vs AI:明线、暗线与关键能力
移动互联网AI时代
明线全球多了40-50亿移动用户Scaling Law(虽在发生范式变化,背后核心是Compute)
暗线用户行为数据做推荐(没做推荐的公司都没做大)Self-Play强化学习(不做RL的公司可能下一波跑不出来)
关键Feature/能力大屏幕(TikTok/抖音)、摄像头、GPS(Uber/滴滴)Coding、多模态、数学、Agent
最重要数据来源新产生的数据(非旧应用积累)RL过程中AI产生的数据 + 人指导的数据

十六、关键数据汇总

判断具体内容
Scaling Law失效概率50%概率传统Scaling Law已失效
主流模型参数六七百B MoE(单台H100 server放得下)
高质量文本数据15-20T可获取,难倍数增至50-100T
H100集群极限3.2万张充分互联,全球三五家能做到
3万卡集群稳定性约每2小时break一次
10万卡集群稳定性约每20-30分钟break一次
Self-Play RL vs 传统RLAgent计算量增加3-4个数量级
合成1T推理数据成本约6亿美元
合成10T推理数据成本约60亿美元
RL步骤有效率99%最终无效(但必须跑)
AI代码行数进步去年20行 → 今天几百行 → 明年可能几千行
RL范式共识人数硅谷最核心researcher约几百人
Coding独角兽估值Devin、Augment、Magic等均二三十亿美金
Luma vs 竞品流量Luma是Runway和Pika的七八倍
Character.ai收购价超20亿美金(核心是Noam Shazeer)
OpenAI ARR约40亿美金,年底可能70-80亿
中国达到GPT-4水平年内2-3家(字节、DeepSeek、阶跃)
放弃Pretrain的公司比例预计70-80%
机器人大爆发时间5-10年范畴
AGIX指数权重硬件40%、Infra 40%、应用20%
RL最领先的公司Anthropic和OpenAI
CEO应All in RL的资源"200%的资源"

启示与延伸思考

1. "语言是拐杖,RL是主菜"——这可能是2024年最重要的AI范式判断

广密将语言预训练比作"人类基因组"、将强化学习比作"人类成长的一生"。这个类比揭示了一个深刻的不对称:基因组是有限的压缩信息,而一生的探索是无限的。如果这个判断成立,意味着当前所有围绕"谁的预训练数据更好"的竞争都只是序章,真正的主战场是RL——而在这个战场上,全球只有"几百人"知道怎么做。

2. A x B乘积关系意味着"追赶者的窗口"极其短暂

语言模型底座(A)和RL能力(B)是乘积关系。如果你的A是2分、别人是8分,你的B再强也乘不上去。这意味着中国公司面临双重赛跑:既要在短期内将底座追到GPT-4水平,又要同时开始RL布局。广密预计70-80%的中国公司会放弃Pretrain——这些公司在RL时代将彻底失去参赛资格。

3. 99%的RL步骤都是"浪费"——但这才是探索的本质

广密用"5000个特种兵探矿"的比喻揭示了RL的核心经济学:资源浪费是特征而非bug。这解释了为什么杨乐坤批评RL是"资源浪费"——从效率角度看确实如此,但从探索角度看,爱迪生发明灯泡也浪费了大量实验。关键区别在于:你只需要成功一次就可以大量复制。这也解释了为什么只有Anthropic和OpenAI这样有足够资源的公司才能真正做RL。

4. Cursor是2024年的Perplexity——模型能力匹配产品的甜蜜点

Cursor的爆火本质上是Cloud 3.5 Sonnet代码能力从"不work"变成"work"的产物。但广密指出了一个关键局限:专业开发者群体的天花板只是GitHub级别(约10B),真正的想象空间在"编程民主化"——Task Engine(任务引擎)。这个概念可能比大多数人意识到的要深远得多:它不是"让人人都能写代码",而是"让代码变成不可见的基础设施"。

5. 通用机器人的timing判断:硅谷和中国都在下错误的注

广密指出了一个尴尬的悖论:硅谷投"机器人大脑"(做iOS/安卓),但可能根本不存在一个通用的机器人大脑——大脑可能就是GPT。中国投"整机",但技术timing可能还在5-10年的research lab阶段。Figure AI被高估、人才密度不够、竞争力定位尴尬。最终可能还是Tesla的端到端路线最make sense——先找到刚需场景(出行),再大规模采集数据。

6. Self-Play RL可能是AI时代的"推荐算法"——不做就出局

广密将RL类比为移动互联网时代的推荐算法:"没有做推荐的公司都没做大。"如果RL是AI时代的暗线,那么"今天不做强化学习的公司,下一波浪潮里面都跑不出来"。这是一个极其大胆的判断——它意味着RL不是可选项,而是生存条件。

7. "基础研究是资本富足后的奢侈品"——中国AI的结构性困境

广密点出了一个很少有人直说的真相:中国基础研究做不好不是因为缺人才或缺意愿,而是因为经济基础不允许冒险。在美国亏一亿美金可能被收购、三年后东山再起;在中国亏一亿人民币"好长时间翻不了身"。这个不对称的容错率差异,才是中美AI差距的深层结构性原因。

延伸阅读