本期嘉宾是真格基金的两位合伙人:戴雨森和季逸超。两人在AI投资领域深耕多年,是中国大模型创业生态的核心参与者。
本期录制于2024年3月初,两件震动AI界的事件刚刚发生:OpenAI发布视频生成模型Sora,以及Google推出开源模型Gemma。张小珺在开场指出,她在近期对杨植麟、李广密、朱啸虎的访谈中,就类似问题得到了"很多截然不同的答案"——这正是大模型行业处于快速分化期的信号。
与纯技术视角或纯商业视角不同,戴雨森和季逸超作为投资人兼技术内行,既投资了月之暗面等头部大模型公司,又深入跟踪技术路径。这使他们能从"资金、人才、技术、竞争"四个维度同时拼出Sora的完整信息拼图。
2024年2月,AI领域接连发生两个标志性事件,深刻重塑了行业格局:
Sora代表的是能力天花板的又一次抬升——从文本到图像再到视频,多模态的疆域持续扩张;Gemma代表的是门槛的持续降低——开源生态让更多玩家可以进入。一个向上拉高上限,一个向下推低门槛,两股力量共同塑造了2024年AI竞争的基本张力。
戴雨森和季逸超描述了他们作为投资人如何"拼"出Sora的真实面貌——这本身就是一种独特的信息获取方法论。
通过与多个不同来源的交叉验证来逼近真相。投资人不是技术的直接参与者,但能够接触到广泛的信息网络——包括创业者、研究者、大厂内部人士、海外学术圈。每个来源提供一块拼图碎片,最终拼出一幅相对完整的画面。
嘉宾坦承,即使拼了很多碎片,关于Sora仍有他们不理解且想要了解的部分。这种诚实本身就是一种信号:即便是最内行的投资人,对前沿技术的理解也始终是不完整的。判断力不在于掌握全部信息,而在于能否在不完整信息下做出正确决策。
嘉宾从人的维度切入Sora的信息拼图,这也是投资人最擅长的维度。
| 姓名 | 背景 | 关键经历 |
|---|---|---|
| Tim Brooks | UC Berkeley博士 | 博士毕业后加入OpenAI,参与GPT-4和Sora等多项研究 |
| Bill Peebles | UC Berkeley博士 | 博士论文聚焦图像生成模型(DiT架构的提出者之一),曾在Meta实习,师从谢赛宁 |
Bill Peebles是95后。OpenAI让一个刚博士毕业的年轻研究员负责如此重大的项目,嘉宾认为这体现了组织活力——年轻团队没有认知包袱,敢于走和前辈不同的技术路线。这与Google等大公司形成了鲜明对比。
嘉宾以投资人视角绘制了一幅AI人才流动的全景图,揭示了2024年初几个关键的人才动向。
AI视觉领域核心研究者,Bill Peebles的导师,选择回归学术界。这是学术界对顶级AI人才仍具吸引力的信号。
ResNet的提出者,计算机视觉领域最具影响力的华人研究者之一,选择回到学术界继续基础研究。
OpenAI联合创始人之一、前特斯拉AI负责人,离开后以教育者身份活跃,其Tokenizer教程广为传播。
从Google转入字节跳动/TikTok体系,体现中国科技公司对顶级AI人才的吸引力上升。
嘉宾在讨论中引用了"北美AI四大名校"的说法——这些学校是AI人才的核心供应源,其校友网络直接影响了大模型公司的人才招募和技术方向。天使投资人通过mapping这些学校的毕业生流向来预判技术趋势和创业方向。
顶级研究者的去向选择本身就是一种信息:回归学术意味着当前工业界的研究自由度不足,或者学术界有更具吸引力的长期课题;跨公司跳槽则意味着新雇主在某些关键资源(数据、算力、方向自主权)上更有优势。投资人通过跟踪这些动向,可以先于市场感知到行业格局的微妙变化。
嘉宾综合多个信源拼出的Sora技术路径,核心是DiT(Diffusion Transformer)架构的视频领域应用。
传统扩散模型(如DDPM)使用U-Net架构进行去噪,而DiT用Transformer替代U-Net作为核心骨干网络。这一架构由Bill Peebles在博士论文中提出(论文题为《Generative Models of Images and Neural Networks》)。Sora正是将DiT从图像生成扩展到视频生成的里程碑式应用。
| 要素 | 说明 |
|---|---|
| 基础架构 | DiT——用Transformer替代U-Net做扩散模型的骨干网络 |
| 时间建模 | 将视频视为"时空patch"序列,统一处理空间和时间维度 |
| 文本条件 | 通过语言模型的嵌入向量引导视频生成方向 |
| 数据规模 | 大规模视频数据训练,具体规模未公开 |
| 算力需求 | 数千张GPU级别的训练开销 |
| 分辨率 | 支持多种分辨率和长宽比的原生生成 |
中国生数科技的U-ViT架构比OpenAI的DiT论文早两个月被提出,且被CVPR 2023收录(而DiT最初被CVPR拒稿)。这说明类似的架构思路在全球多个团队中同时孕育,Sora的突破并非天降神兵,而是学术积累到达临界点后的工程化突破。
嘉宾综合多方信息后的判断是:Sora的底层技术路径并非不可理解,头部团队对其架构方向有基本共识。真正的差距在于工程实现的细节——数据处理pipeline、训练策略、模型规模选择、以及如何在质量和效率之间取得平衡。这些"know-how"层面的差距比"know-what"层面更难跨越。
Sora发布后,国内外许多团队宣称要在短时间内追平。嘉宾对此给出了冷静的判断。
Sora的意义不仅在于技术本身,更在于它把战争推到了一个新的高度。这句判断的含义是:Sora重新定义了"足够好"的标准,提高了所有玩家参与竞争的最低门槛。在Sora之前,视频生成还是一个"做出来就行"的领域;在Sora之后,质量标准被大幅抬升,中小玩家的生存空间被进一步压缩。
Sora的出现加速了大模型行业的洗牌。嘉宾借鉴芯片产业的竞争演化,提出了大模型公司的三条战略路线。
嘉宾引用芯片行业的演化路径作为类比:早期一个主导者(如Intel),随后分化出三条可行的战略路线,每条路线上可以存活不同类型的公司。
| 路线 | 核心策略 | 代表性方向 | 适合谁 |
|---|---|---|---|
| 路线一 | 成本优化 / 开源 | 用更低成本提供"够用"的能力 | 希望建立生态的大厂、社区型公司 |
| 路线二 | 小型/端侧模型 | 针对手机、IoT等设备优化 | 硬件厂商、边缘计算公司 |
| 路线三 | 专精/垂直模型 | 在特定领域做到极致 | 行业Know-How深厚的垂直公司 |
嘉宾指出,OpenAI每次发布重大升级,都会在VC圈引发一轮重新评估:被投公司的技术差距是否在扩大?其差异化策略是否仍然成立?这意味着大模型创业公司面对的不仅是技术竞争,还有投资者信心的持续管理问题。
OpenAI将Sora定位为"世界模拟器"(World Simulator),但嘉宾对此提出了一个深刻的区分。
嘉宾提出了一个判别框架:如果Sora是世界模拟器,它应该能在未见过的物理场景中正确预测物体行为;如果是幻想器,它只能在训练数据覆盖的分布内生成看似合理的结果。这个区分直接关系到Sora的长期价值定位——模拟器可以支撑AGI的世界理解能力,幻想器则只是一个更强大的内容生成工具。
如果Sora本质上是幻想器而非模拟器,那么它的应用天花板是内容创作(影视、广告、游戏);如果是模拟器,它的潜在应用范围扩展到机器人训练、自动驾驶仿真、科学发现等更广阔的领域。这两种定位对应的市场规模相差几个数量级。
嘉宾将Sora的讨论延伸到一个更深层的问题:从模拟物理因果到模拟社会因果的路径有多长?
生成看起来逼真的图像和视频——Sora已经在这个层面取得了突破性进展。
理解并遵循基本物理规律——重力、碰撞、流体动力学。Sora在某些场景下展现了这种能力,但并不稳定。
理解生物体的行为逻辑——动物的运动模式、人的肢体协调。这需要对生命系统有更深层的理解。
理解人类社会的因果关系——经济、政治、文化的动态。这是最难的层级,可能需要完全不同的方法论。
物理因果相对"干净"——物理定律是确定性的、可数学化的;社会因果则充满了不确定性、递归性和反身性——人的行为会因为对未来的预期而改变,而预期本身又受到其他人行为的影响。这意味着,即使Sora真的是物理模拟器,从物理因果到社会因果的跨越也需要根本性的方法论突破。
嘉宾指出AGI的一个核心瓶颈:大一统模型(处理所有模态和任务的单一模型)尚未找到可行路径。
嘉宾讨论了两种可能:一是找到一种新的统一架构,能够以同等效率处理所有模态(类似于Transformer对NLP的统一);二是通过模块化组合,让不同模态的专精模型协同工作——这更像是一种工程解而非科学突破。目前没有哪条路径展现出明显优势。
嘉宾对AI行业泡沫的态度出乎意料地平静——甚至是积极的。
泡沫不可怕——泡沫催生基础设施建设。历史上的每一次技术泡沫(互联网泡沫、移动互联网泡沫)都留下了关键基础设施:光纤网络、云计算、智能手机普及。99%的公司会死掉,但存活的1%以及泡沫期间建设的基础设施将是变革性的。
2000年互联网泡沫破裂时,99%的.com公司消失了。但泡沫期间铺设的光纤、建设的数据中心、培养的工程师,直接支撑了2005-2015年移动互联网的爆发。嘉宾认为AI泡沫的逻辑完全一致——当前的算力建设和人才培养将成为下一波AI应用浪潮的基础。
戴雨森作为月之暗面和光年之外的天使投资人,分享了他投资大模型公司的核心逻辑。
嘉宾坦诚讨论了大模型公司面临的退出/路径问题:通用大模型烧钱极快,但商业化路径尚不清晰。光年之外的案例(创始人因健康原因退出,公司被收购)恰好展示了这个领域创业的高风险性。作为投资人,需要接受这种极高的不确定性——天使投资大模型公司更像是对一个时代趋势的赌注,而非传统意义上的风险可控投资。
嘉宾对AI应用落地速度给出了一个看似矛盾实则深刻的判断:不宜过于乐观,但一旦突破阈值,扩散速度将远超移动互联网。
AI应用的落地比移动互联网更慢——因为模型需要达到一个能力阈值才能从"不可用"跳变到"可用",这个涌现过程不可预测也不可加速;但一旦达到阈值,AI应用的扩散可能比移动互联网更快——因为不需要硬件普及(智能手机已经在每个人手中),也不需要基础设施建设(云计算已经就绪)。
Google发布Gemma开源模型,加上此前Meta的LLaMA系列,嘉宾分析了开源模型对行业竞争格局的深层影响。
| 公司 | 开源动作 | 战略意图 |
|---|---|---|
| Meta | LLaMA系列 | 削弱OpenAI的商业模式,让AI变成"公共基础设施"而非某家公司的护城河 |
| Gemma | 在开源领域占据一席之地,吸引开发者进入Google生态 | |
| 阿里巴巴 | 千问系列 | 建立中文开源生态的领导地位 |
嘉宾强调,开源模型在通用能力上的追赶是真实的,但顶尖性能仍然掌握在闭源实验室手中。更重要的是,开源的是模型权重,不是训练数据、训练流程和组织能力。就像Linux开源了操作系统内核,但Google、Amazon的云计算竞争力并不来自Linux本身,而来自在Linux之上构建的整个技术栈和运维能力。
节目最后,嘉宾从投资人和技术观察者的双重身份出发,给出了对人类定位的思考。
张小珺追问戴雨森"为什么喜欢在即刻上发内容",戴雨森的回答揭示了一种值得注意的态度:在AI快速发展的时代,记录和表达本身是一种独特的人类价值。即刻作为一个实时记录想法的平台,恰好满足了这种需求——不是为了流量,而是为了思考的外化。
戴雨森和季逸超作为投资人,他们的核心能力不是预测技术路线(这他们自己承认做不到),而是在极高不确定性下做出决策并承担后果。这与AI的能力恰好互补——AI擅长在确定性框架内优化,人类擅长在不确定性中做出价值判断。这或许就是"人类何去何从"的一个答案。
| 判断/数据 | 具体内容 |
|---|---|
| 嘉宾身份 | 戴雨森(真格基金合伙人、聚美优品联创)、季逸超(真格基金合伙人、猛犸浏览器/Manus联创) |
| 录制时间 | 2024年3月初,Sora发布后不久 |
| 节目时长 | 约99分钟 |
| Sora核心研究者 | Tim Brooks和Bill Peebles,均为UC Berkeley博士 |
| Bill Peebles年龄 | 95后(Post-95),刚博士毕业即lead Sora |
| Sora核心架构 | DiT(Diffusion Transformer),Bill的博士论文成果 |
| 一年追上Sora | "过于乐观"——资源可及但工程能力差距不可快速弥补 |
| AI公司存活率 | 99%会死掉,1%存活 |
| 大一统模型 | 尚无可行路径——AGI核心瓶颈 |
| 世界模拟器 vs 幻想器 | Sora可能是幻想器而非真正的物理模拟器 |
| 大模型战略路线 | 三条:成本优化/开源、小型端侧、专精垂直 |
| 投资的大模型公司 | 月之暗面(杨植麟)、光年之外(王慧文) |
| AI应用落地节奏 | 比移动互联网更慢(需要涌现阈值),但突破后扩散更快 |
| 人才流动 | 谢赛宁/何恺明回学术界、Karpathy离开OpenAI、蒋路入TikTok |
| 泡沫态度 | "不可怕"——泡沫催生基础设施建设 |
| 北美AI四大名校 | 核心AI人才供应源,投资人mapping关键标的 |
| 开源影响 | 降低应用层门槛,但顶尖性能仍在闭源实验室 |
嘉宾展示的方法论——从多个信源交叉验证、用"人-技术-资源"三维框架拼出完整画面——不仅适用于分析Sora,也适用于所有前沿技术的判断。在信息过载的时代,单一信源不可靠,媒体报道往往滞后,真正的判断力来自于能否在碎片中识别出信号。投资人的这种方法论值得所有技术观察者学习。
在所有关于Sora的讨论中,嘉宾提出的"幻想器vs模拟器"区分是最深刻的。如果Sora只是一个强大的幻想器,那么视频生成只是内容产业的效率工具;如果它是模拟器的雏形,那它指向的是AGI的世界理解能力。这个区分直接决定了十年尺度上AI的发展方向和投资逻辑。
嘉宾"99%死亡但不可怕"的态度挑战了主流对泡沫的恐惧心理。历史证据支持这个判断:互联网泡沫留下了光纤和数据中心,移动互联网泡沫留下了App Store生态和移动支付基础设施。当前AI泡沫正在建设的算力基础设施、培养的AI人才、积累的工程经验,将成为下一波应用浪潮的不可或缺的基础。真正需要警惕的不是泡沫本身,而是在泡沫中失去判断力。
嘉宾指出的"大一统模型无可行路径"是一个被市场严重忽视的信号。当前的AI进步是各模态分别突破(文本→图像→视频→代码),而非一个模型统一所有能力。这意味着AGI的实现路径可能不是"一个模型越来越强",而是"多个专精模型的协同"——这对投资、创业和技术路线选择都有深远影响。
一个刚博士毕业的95后,在人类历史上最重要的AI实验室之一lead一个改变行业的项目。这不只是一个人才故事,更是组织设计的故事:OpenAI的竞争力不仅来自技术积累和资金规模,更来自一种敢于让年轻人承担重大责任的文化。对比之下,很多中国AI公司仍然依赖"大牛挂帅"模式——这种组织文化差距可能比技术差距更难跨越。
嘉宾提出的"更慢也更快"判断对投资节奏有重要指导意义:在模型能力未达阈值之前,应用层创业几乎注定失败(太早了);但一旦阈值被突破,窗口期可能只有6-12个月。这意味着投资人需要同时做两件矛盾的事——耐心等待阈值到来,又要在阈值突破的瞬间果断出手。
嘉宾在节目结尾坦承对Sora仍有不理解的部分。这种认知谦逊在AI热潮中极为珍贵。当市场上充斥着确定性叙事和线性外推时,真正有判断力的投资人反而愿意承认自己的认知边界。这提醒所有参与者:在一个快速变化的领域里,对自己不理解的部分保持诚实,本身就是最重要的竞争力。