深度研究 — #59 和<a href="https://en.wikipedia.org/wiki/Yang_Zhilin_(computer_scientist)" target="_blank" rel="noopener" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">杨植麟</a>聊大模型创业这一年

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

嘉宾画像：从清华到CMU的AI信仰者
语言模型：从排序工具到"唯一重要的问题"
第一性原理：从无限雕花中释放
AGI组织论：为什么需要全新的公司
创业窗口：一个月的timing与一晚的计算
生产要素：资本、人才与算力的动态博弈
长文本：第一个有概率的非共识
2C路线：产品即手段亦是目的
技术理想主义 vs 应用焦虑
OpenAI的启示与超越
Sora冲击：视频生成与世界模型
两种压缩：原始世界与人类行为
中美差距：技术曲线的收敛逻辑
AGI的两大里程碑
关键数据与预测汇总

一、嘉宾画像：从清华到CMU的AI信仰者

杨植麟，1992年生，月之暗面（Moonshot AI）创始人，是国产大模型中最坚定做2C的创业者。本期节目由两次访谈组成——主访谈完成于2024年1月，补充访谈在2月Sora发布后进行。

92年

出生年份

10+年

AI方向研究时长

~80人

访谈时团队规模

25亿+

美元估值（头后）

学术轨迹

2011年清华大学计算机本科

大二开始接触AI方向，尝试图相关、多模态等多个细分领域。

2017年收敛到语言模型方向

"当时觉得它可能是一个比较重要的问题，到后来可能觉得它是唯一重要的问题。"

2018年与杨立昆合作发表论文

作为第一作者与图灵奖得主合作，又与Yoshua Bengio合作发表论文。"只要你有好的想法，有意义的问题。"

2019年与Google/CMU联合发表Transformer-XL

在Google长期实习，开始深度接触Pretraining和Scaling Law思维。

CMU博士导师阵容

导师之一是苹果公司AI负责人，另一位是Google AI首席科学家William W. Cohen。"又在产业界又在学界"。

与图灵奖得主合作的方法

杨植麟被问到如何作为博士生第一作者与顶级学者合作时，他的回答朴素而深刻："没有什么天赋，就是努力干活。"他强调学术界本质上是open的，合作的前提是双赢——"需要能够给别人提供独特的价值"。这与他后来融资时的方法论一脉相承。

二、语言模型：从排序工具到"唯一重要的问题"

杨植麟对语言模型的认知演变，折射出这个领域从边缘到核心的整个转变历程。

2017年的语言模型

当时的行业认知

"它是一个用来给语音识别做排序的模型——当你识别完一段语音之后，你不是有很多结果吗，你就可以拿一个语言模型去看到底哪个概率更大，就把它输出来。所以应用非常有限。"

杨植麟看到的本质

杨植麟

它其实是一个很根本的问题，因为你在对这个世界的概率做建模。当然语言它还是局限于它可能世界的一个投影，但是理论上你把这个token space做得更大，你就有一个通用的世界模型——就是这个世界上每一样东西，它怎么产生怎么发展，你都能给它分配一个概率。

核心论断

AI唯一work的第一性原理

杨植麟反复强调：通过Next Token Prediction去Scale——这是"唯一一个现在能work的东西"。基本所有问题都可以被归结成"怎么对这个概率进行估计"。这个认知从2017年一直延伸到他创业的核心信仰。

从"少数信仰者"到行业共识

在ChatGPT爆发之前，对Scaling Law有信仰的人"可能有一小部分"。杨植麟和团队是其中的少数——"到处去找一些合作，去布道，去想方设法创造条件训练大模型"。这段"少数派"的经历，为后来Moonshot AI的快速组建提供了关键的人脉和技术积累。

三、第一性原理：从无限雕花中释放

杨植麟在Google实习期间获得了对他影响最深的思维范式——停止雕花，看到大梯度。

杨植麟

从无限的雕花中把自己释放出来，是一个很关键的事。就像你眼前有10条路，可能你一般人考虑的是我走这条路的时候前面有个行人我要怎么刹车。但其实你这10条路里面到底选哪一条，可能其实是最重要的事情。

什么是"雕花"

领域曾经的典型问题

在只有一两百万个token的数据集上优化perplexity
发明很多"诡异的architecture"
发明很多"诡异的做正则化的方式"
数据集上变好了，但"没有看到问题的本质"

Scaling Law为什么是第一性原理

核心逻辑

两个条件

找到一个结构满足两个条件：（1）足够通用——能把所有问题放到这个框架里去建模；（2）可规模化——只要往里面投入足够多的算力，它就能变好。满足这两个条件的结构就是底层的东西。

杨植麟

如果你能用Scale解决的问题，你就不要用新的算法去解决它。你新的算法最大的价值可能是让它怎么更好的Scale。

Google的矛盾

杨植麟指出Google有Scaling Law的思维但没有贯彻——"很多人的思维是好的，但没有办法把它组织起来变成一个真正的moonshot"。这里5个人追求自己的第一性原理，那里5个人追求他们的，但"不是这个组织的第一性原理"，"没有一个top-down的东西"。

"能产生Transformer但产生不了GPT"

杨植麟对Google Brain的精准概括揭示了Lab模式的根本局限：把一个研究型组织安插在大公司里，"有可能能探索出新的想法，但很难产生伟大的系统"。Transformer是一个想法，GPT是一个系统——两者需要完全不同的组织方式。

四、AGI组织论：为什么需要全新的公司

杨植麟对"做AGI需要什么样的组织"有极为系统的思考，这直接决定了月之暗面的组建逻辑。

为什么现有组织形式都不行

高校/研究院

纯研究方式"肯定不行"
职能应逐渐转变为"以培养人才为主"
无法产生伟大的系统

大厂AI Lab/部门

需要在旧文化里产生新组织，难度极大
第一目标不是AGI
"Google Brand是之前产业界最大的AI Lab，但它本质上还是研究型组织"

AGI组织应该是什么样

杨植麟的组织设计思想

应该是一个商业化的组织——"还是得是一个公司，不是个研究院"
应该是个登月计划（Moonshot）——有很多自顶向下的规划
在top-down的框架上有bottom-up的元素——因为不是所有技术都已确定
科学、工程和商业的结合——不是纯科学
需要从零到一去建造——因为AGI需要新的组织方式

Sam Altman的选择：关键案例

杨植麟

你需要在一个旧的文化里面产生一个新的组织的难度是很大的。而且他的目标可能就不是AGI了——如果是在微软，就很难。

杨植麟认为Sam Altman留在OpenAI做CEO与加入微软做senior leader的"本质差别"在于：在旧组织中无法追求AGI这个目标，因为第一目标会不同，而第一目标影响所有动作和结果。

AGI组织的三要素平衡模型

五、创业窗口：一个月的timing与一晚的计算

杨植麟对创业时机的判断和执行展现了极强的窗口意识。

ChatGPT之夜

杨植麟

肯定还是很激动的。你如果放到三五年前，就放到2021年，这个事情它可能都是很不可思议的。比如说你让它写一段代码，李白的古诗去注释什么，这种高阶的推理能力，在之前是很难做到。

杨植麟当时的判断是：两个生产要素的变量出现了——资本的变量和人才的变量。"如果这些变量成立，我们就有可能能正儿八经搞一个公司来真的做这个事。"

一个月的融资窗口

2022年11月底 ChatGPT发布

杨植麟已在筹备组建团队，从前年底开始"一个很兴奋的状态"。

2022年12月-2023年1月

"你也没有机会，因为当时还有COVID，还没有反应过来。"

2023年2月唯一的窗口

国内市场爆发。杨植麟在美国住所的一个晚上做了精确计算——"至少要在几个月内拿到1亿美元"。在美国就开始远程融资。

2023年3-4月招人窗口

人才市场开始流动。"很多人大概在3月份或者4月份的时候，开始有这样的realization——这有可能是接下来10年唯一值得做的事情。"

2023年下半年完成第二轮融资

两轮合计近20亿人民币。"如果delay到4月份去做第一轮，基本上已经没有机会了。"

那个晚上的计算

杨植麟在美国住所算了一笔账：对应多少FLOPS、要多少training cost、inference cost、多少用户量。"计算的过程当然不用算很久，但是算完我也不能跟太多人说——因为说了也没有人觉得这事可以做。"1亿美元的目标在当时被认为"不一定能融到这么多钱"，但后来证明"头部的公司融资额都基本超过这个数字"。

六、生产要素：资本、人才与算力的动态博弈

人才策略的演变

两个阶段

第一阶段：追求上限——"直接找对口的Genius"，有训练超大规模模型的直接经验，"对模型去动手术的能力"。证明"非常成功"。
第二阶段：补充更多维度——产品运营策略的人、leader型人才、还有"animal"——"可以把事情做得非常极致的人"。

杨植麟刻意追求人才密度而非人数："我们刻意就是说还是去追求人才密度。不大需要太多的人。就像Google它现在好几千人在干这个事，如果把它砍成100人50人，我觉得它可能很快就成功。"

算力市场的剧烈波动

杨植麟

甚至最夸张我觉得，有一段时间其实可能每天都在变的。今天可能一台机器的价格是260，明天可能变成340了，但你可能过两天又跌回来。

影响算力市场的因素

地缘政治：Executive Order等政策影响
生产批次：新批次交付后供应改善
市场情绪：很多公司开始"退卡"——"发现可能也不一定要自己去训这个模型"
供求动态：每天都需要根据市场情况调整策略——"买还是租，从什么渠道"

杨植麟判断："接下来大概率卡的事情不会成为一个很大的瓶颈，至少在接下来一到两年的时间。"

月之暗面创业时间线与关键里程碑

七、长文本：第一个有概率的非共识

月之暗面以长文本无损压缩作为第一个差异化技术突破——这个方向在公司成立时（2023年2-3月）就已确定，技术开发了半年以上，10月推出Kimi产品。

为什么长文本是"最本质的技术"

技术判断

长文本 = 新计算机的内存

杨植麟的类比："旧的计算机的内存在过去几十年涨了好几个数量级，一样的事情肯定会发生在新计算机上。"长文本的本质意义有三层：

解决通用性：旧计算机用01表示所有事情，新计算机还不够通用——因为context不够大
实现个性化：AI最终的核心价值是个性化互动。不是通过微调模型，而是支持很长的context——"你跟这个机器的所有历史都可能是这个context"
消除tokenizer：当你有足够的无损压缩long context，不再需要tokenizer——可以把原始信号直接输入

杨植麟

比如今天你去读英语的文献，它能很好的帮助你理解，并且真的是能够很真实的还原里面所有的信息。即使你今天用Claude或者GPT-4这样的模型，它可能都不一定能做得非常好。

非共识 vs 追赶

追赶GPT-4（共识）

"综合能力的提升肯定是一个很关键的目标"
在后发情况下"肯定是一个追赶的过程"
"这是个必经之路"

长文本/新维度（非共识）

"它不是追赶GPT-4，更多是个升维"
"是一个GPT-4没有的维度"
需要提前半年以上布局
"刷榜的意义已经很少了，最好的榜就是用户"

临时赶风口 vs 提前布局的区别

杨植麟指出，如果"今天看到一个所谓long context的风口，然后赶紧召集两个团队用最快的速度去开发"——跟提前半年布局、做大量迭代优化和创新相比，"会有很大的区别"。这是他对"有概率的非共识"的实践定义：不是OpenAI已经做出来的东西（那是共识），而是你用技术判断力提前下注的方向。

八、2C路线：产品即手段亦是目的

月之暗面是国产大模型中最坚定做2C且只做2C的公司。杨植麟对此有一套独特的哲学。

杨植麟

不应该把它定义成一个应用。应用听起来好像就是你有一个技术，你想把它用在什么地方去有商业化闭环。但对我们来讲，它跟AGI应该是一个相辅相成的关系——它本身是你实现AGI的一个手段，也是实现AGI的一个目的。

用户共创的具体证据

用户自发发明的use case

翻译、读论文、学习、准备考试
做心理咨询
筛选简历——"筛选的还挺准，跟真的人工面试之后得到的结果是差不多的"
很多自来水在社交媒体上分享用法——"我们看了很多时候其实我们都没有想到"

杨植麟将这比作Mid Journey的成功逻辑："用户的Scaling跟Model Scaling，这两个事情可能是需要同时去做的。"

场景摩尔定律

预测

能用的场景数量随时间指数型上升

杨植麟提出"场景摩尔定律"概念：从GPT-3.5到4已经解锁了很多应用，从4到4.5再到5，"大概率还是会持续解锁更多，甚至是指数型的应用"。搜索"在后面可能只是会是这个产品的很小的一部分"。

智能是最核心的增量价值

杨植麟对产品价值有一个判断标准："如果你这个产品的最核心的价值，可能只有10%或20%来自于这个AI，那它可能就不成立。"颠覆性的东西"才配得上AGI这三个字"——比传统搜索引擎好10%-20%"是没有什么太大的价值"的。

九、技术理想主义 vs 应用焦虑

本次访谈中，杨植麟与"只投应用"的朱啸虎形成了鲜明的路线对抗。

朱啸虎的观点

应用至上论

核心是AIGC的PMF
10个人找不到PMF，100个人也找不到——跟人数和成本没关系
不要砸钱做大模型做AI
"拿LLaMA训练两三个月就足够了"

杨植麟的回应

杨植麟

真正的AGI的上限是远高于我们现在看到的一切东西。我觉得AI不是说我在接下来一两年找到什么PMF，而是我接下来10年到20年能够如何改变这个世界。它是两种不同的思维。我觉得我们是坚定的长期主义者。

降维打击的历史教训

为什么着急找PMF会被碾压

以前做slot filling客服系统的公司——规模还不错——"但全被降维打击了，因为不会有人再用那种技术了"
有越来越强的context和instruction following能力后，"定制一个客服系统的难度会越来越低"
"百分之百的降维打击"

长短期的平衡

杨植麟

你要在你能活下去的情况下去追求一个长期的东西。长期如果你的能力没有得到更多的发展，你就会错过整个时代。

"有概率的非共识"——杨植麟的核心方法论

这个概念贯穿整个访谈：用技术判断力预见有可行性的方向，但这个方向不是已经被OpenAI做出来的东西（那是共识）。它要求组织"真的是以这个为使命而且是这样去运行的"才有可能实现。杨植麟的2C、长文本、统一世界模型路线都是这一思维的体现。

十、OpenAI的启示与超越

值得学习的：技术理想主义

杨植麟

如果所有人都觉得你很正常，那你肯定就没有什么理想。因为你的理想肯定是大家都能想到的东西，那它就不是一个真正的理想——或者说它对人类理想的总量就没有增量。

杨植麟回顾了OpenAI在2017-2018年的状态："基本上所有人都觉得是疯子。很多人跟Ilya聊完之后觉得这个人肯定是疯了，觉得太自以为是了。"但正是这种"技术理想主义"让OpenAI从很早就开始投入，找到了非共识，在这个非共识上找到了AI唯一work的First Principle。

可以超越的：产品与共创

杨植麟

可能会有比OpenAI更伟大的公司存在。一个真正伟大的公司，它应该是能够结合这种技术理想主义，并且用一个伟大的产品去跟所有的用户共创。AGI最终会是一个跟所有用户一起co-work、一起合作产生的一个东西。

核心判断

下一代最伟大公司的两个特质

（1）技术理想主义——对AGI的长期信仰和投入；（2）功利主义追求——用伟大产品与用户共创。"最终是要在这两个东西之间完美的结合起来。"杨植麟认为OpenAI目前更偏第一个，而他的公司要同时追求两者。

对行业终局的判断

未来最成功的AGI公司"肯定比现在所有公司都大"——"因为它最终可能是个double、triple GDP的事情"
"但它不一定是OpenAI"
真正的AGI"肯定是全球化的"——"不存在一个由于市场保护机制导致你只能做regional market的AGI公司"
全球化、AGI、有大用户量的产品——"可能都是必要条件"
开源落后于闭源——"因为开源本身还是中心化的，需要资源、人才、资本的聚集"

十一、Sora冲击：视频生成与世界模型

2024年2月OpenAI发布Sora后，张小珺与杨植麟进行了补充访谈。

意料之内与意料之外

杨植麟的判断

效果在意料之内："Generative AI能做到这个效果，还是在意料之内"——因为2024年多模态卷视频是行业共识
时间比预估更早："比之前预估的要更早一些，也反映了现在AI的发展确实还是很快的——因为有很多Scaling的红利没有被完全吃下来"
关键突破：在较长时间窗口内保持生成的一致性——"这个可能是很关键的一个点，是个巨大的提升"

月之暗面的应对

杨植麟

因为我们本来也在筹划类似的方向，也做了一段时间。所以从方向上来说，我们倒没有太大的意外。

Sora"反而是加强了认知"，对方向判断"没有太大的改变"。

对技术报告的解读

杨植麟从Sora报告中提取的关键信号

"这个东西它是一定程度上是Scalable的"——最重要的结论
给出了比较具体的architecture——但"不同的architecture在这个事情上不一定有那么本质的区别"
"最重点他肯定都不会写出来——because of the competitive landscape"
核心价值："本来是个付费内容，你可能要花钱做很多实验才知道，但现在可能知道了有一些你不用花钱做实验"

DIT架构的局限

杨植麟认为Sora使用的DIT架构"可能仍然不是一个非常通用的东西"——它对视觉信号的marginal probability建模可能很好，但"怎么能够幻化成一个通用的新计算机，肯定还是需要一个更unified的architecture"。

Scaling Law驱动的能力扩展路径

十二、两种压缩：原始世界与人类行为

杨植麟提出了一个深刻的框架来理解视频模型与文本模型的关系。

核心框架

两种不同的压缩

（1）压缩原始世界——视频模型在做的事情：对像素的条件概率进行建模，本质上是无损压缩。（2）压缩人类行为——文本模型在做的事情：压缩人类大脑产生的行为（"这个东西是现在世界上唯一能产生智能的东西"）。最终"可能会是一个mix，通过这两种方式从不同的角度进行学习"。

对杨立昆批评的回应

杨立昆称"通过生成像素对世界进行建模是一种浪费并且注定会失败"。杨植麟的回应：

杨植麟

我现在觉得其实没有本质的区别。你通过对像素的条件概率去进行建模，本质上是在做无损压缩，所以跟语言模型的Next Token Prediction没有本质的区别。只要你压缩的足够好，它就可以把这个世界里面可以被解释的东西去进行解释。

生成是压缩的必要条件？

杨植麟提出了一个值得深思的假设："有可能生成非常好是压缩非常好的一个必要条件。"也就是说，如果一个模型无法生成，那它是否真的压缩得足够好——"这点可能是存疑的"。这个判断如果成立，意味着生成能力不是目的而是诊断指标——衡量模型对世界理解深度的试金石。

对Geoffrey Hinton安全忧虑的解读

杨植麟

Safety其实反而表明了，他可能对接下来技术能力的提升是有极大的信心的。因为你可能觉得这个事大概率能做出来，你才会觉得它的安全会是个问题。如果你觉得它永远就是个人工智障，你就不可能会跳出来让大家说Safety的问题。

十三、中美差距：技术曲线的收敛逻辑

差距的客观现实

杨植麟

这就是客观的事实嘛。但我觉得实际上的差距可能还在缩小。因为这个是技术发展的规律——先是技术曲线比较陡峭，然后慢慢会放缓。

杨植麟的时间判断

两到三年的追赶窗口

客观上的差距"会持续存在一段时间"——包括国内不同公司之间的差距
如果再过两到三年，中国的顶尖公司打磨好技术基建、人才储备和组织文化后，"更有可能在某些方面去有领先的可能性"
这需要"一定的耐心"

中美生态会不同吗？

会相同的部分

技术路线"大概率还是一样的"——"因为它这个东西就是通用的"
基础的通用能力"肯定差不多"
通用模型 vs 专门小模型之争——"是第一个"（通用模型），中美不会有不同

会不同的部分

产品和商业化的角度——"生态有可能不一样"
在通用能力基础上"不同的模型会有一些特色"
差异化能力——"在通用能力的基础上具体有差异化"

Sora后的心态

被问到"我们这边还在追GPT-4，Sora又来了，差距越来越远，你焦虑吗"时，杨植麟的回应没有焦虑色彩："我倒没有觉得这个很意外，因为OpenAI它一直在做下一代的模型嘛。现在是一个技术爆发期，这个是很正常的。"

十四、AGI的两大里程碑

杨植麟给出了他认为接下来最重要的两个技术里程碑——如果解决了，"很多别的问题都可以被解决"。

里程碑一

统一的世界模型：一个真正Scalable和General的Architecture，统一各种不同模态

里程碑二

AI自主进化：在没有人类数据输入的情况下，AI能够持续进化

杨植麟

我觉得剩下很多问题都是这两个因素可以推导出来的。只要你解决这两个问题，其实很多别的问题都可以被解决。今天谈到的很多reasoning、agent这些问题，它其实都是这两个问题解决之后的产物。可能可以要再做一些雕花，但是可能就没有fundamental的blocker。

Sora在这个框架中的位置

Sora = 视频方向的GPT-3.5

"有点像是GPT-3.5——也是一个阶跃式的提升"
"但同时它的模型也还是比较小，所以可预见的会有更大的模型"——确定性的继续提升
如果Sora + GPT结合——"可以打通数字世界和物理世界"
极端想象：完成需要物理世界才能完成的任务——"自动驾驶，或者完成一些家务"

2024年的产业预测

国产模型在某些维度做到世界领先——"因为有前期投入，因为有合适的团队"
出现更多用户量级更大的产品——"非常大概率"
进一步的consolidation和路线选择的分化
格局上"可能不会跟今天有太大的差别——top的几个可能还是会领先"
OpenAI还会有GPT-4.5和5，"视频生成模型肯定还能继续Scale"

十五、关键数据与预测汇总

维度	具体内容
创始人年龄	1992年生，访谈时31-32岁
研究方向时长	从大二开始，10年以上专注AI
语言模型研究起点	2017年开始收敛到语言模型方向
创业筹备时间	2022年底开始筹备，2023年初开始融资
融资窗口	实际有效窗口仅约1个月（2023年2月）
首轮融资目标	1亿美元（后超额完成）
两轮融资总额	近20亿人民币
头后估值	超过25亿美元
团队规模	~80人（刻意追求密度而非数量）
早期团队	三四十人维持了"很长一段时间"
长文本技术开发	从公司成立就决定，开发半年以上
Kimi产品发布	2023年10月
模型能力	2023年9月内部达到GPT-3.5水平（比预期提前）
GPU价格波动	每天变化——260到340再跌回
产业预测	2024年：更多独特能力、更大用户量产品、进一步consolidation
Sora定位	相当于视频方向的GPT-3.5——阶跃式提升但模型还小
中美追赶时间	两到三年内中国顶尖公司可能在某些方面领先
开源 vs 闭源	开源落后于闭源——"目前看起来好像不是短暂的"
AGI时间框架	接下来10年到20年能如何改变世界
两大里程碑	统一世界模型 + AI无人类数据输入下的自主进化

启示与延伸思考

1. "人类理想的增量"是一种创业检验标准

杨植麟提出了一个极有穿透力的判断标准：如果所有人都觉得你正常，你就没有理想；你的理想如果是大家都能想到的，它对"人类理想的总量就没有增量"。这不是浪漫主义的口号——它直接指导了月之暗面的每一个战略决策：做2C（当时非共识）、做长文本（当时非共识）、坚持AGI长期主义（行业焦虑下的非共识）。真正有价值的事业必须包含别人认为疯狂的成分。

2. "从无限雕花中释放"适用于所有领域

杨植麟在Google学到的最重要的思维——看到大梯度，不在枝节上过度优化——远超AI范畴。在任何快速变化的领域，大多数人都在雕花：优化既有路径上的细节，而非审视这条路本身是否正确。"如果你能用Scale解决的问题，就不要用新的算法解决"——翻译成商业语言就是：如果市场增长能解决的问题，就不要用精细管理去应对。

3. 窗口意识：一个月决定十年格局

杨植麟对timing的判断极为精准：2023年2月是融资的唯一窗口（12-1月太早，4月以后太晚），3-4月是招人的唯一窗口（之前人才没觉醒，之后被抢光）。他在美国的一个晚上就算出了1亿美元的融资需求。这种"精确计算+果断执行"的组合在AI创业的混沌期极为稀缺。大多数人的反应路径是：怀疑→震惊→相信→行动，而杨植麟是：确信→计算→执行。

4. 两种压缩理论揭示了AI发展的深层结构

杨植麟区分"压缩原始世界"（视频模型）和"压缩人类行为"（文本模型）的框架，提供了理解多模态AI的关键视角。他进一步提出"生成非常好可能是压缩非常好的必要条件"——这意味着生成不是目的而是诊断指标。如果一个模型无法生成，它对世界的理解可能是残缺的。这挑战了杨立昆"生成像素是浪费"的判断。

5. "能产生Transformer但产生不了GPT"——Lab模式的墓志铭

杨植麟对Google Brain的一句话概括，可能是对整个学术-产业关系最精准的诊断。Transformer是一个想法，GPT是一个系统；前者需要个体天才，后者需要组织能力。Google有最好的研究者、最多的算力、最好的思维——但没有把它组织成一个moonshot。这个教训不仅适用于AI，也适用于所有需要从"发现"跨越到"系统"的领域。

6. 场景摩尔定律暗示了一个被低估的未来

杨植麟提出"能用的场景数量会随着时间指数型上升"——这个判断如果成立，意味着当前对AI应用的讨论严重受限于当前能力水平。就像2007年讨论iPhone能做什么（打电话、听音乐、看地图），无法预见2024年的App Store生态。当模型能力从3.5→4→5持续提升时，解锁的场景不是线性增长而是指数爆炸。这也解释了为什么杨植麟对"着急找PMF"持批评态度——你找到的PMF可能在下一轮能力跃升中被降维打击。

7. 长期主义者的生存策略：螺旋式前进

杨植麟面对的核心矛盾是：AGI需要长期投入，但公司需要短期存活。他的解法不是"只看长期"也不是"只看短期"，而是螺旋式前进——模型能力提升→解锁新场景→用户增长→反哺模型训练。长文本是具体案例：它既是AGI的基础能力（长期），又立即产生了独特的用户价值（短期）。他明确说"长期一定不能没有"——但这个长期投入不是悬浮的，而是嵌入在product-model的正循环中。

和杨植麟聊大模型创业这一年

目录