← 返回张小珺主页
深度研究 Deep Dive

谢赛宁世界模型、逃出硅谷与AMI Labs

#133 对谢赛宁的7小时马拉松访谈
2026.3.16 · 06:45:29 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 童年与成长:书房、互联网与视觉动物
  2. 交大ACM班与"不是天选之子"
  3. 计算机视觉的起点:寒武纪大爆发
  4. 博士之路:涂卓文与UCSD
  5. 五次实习与流浪研究员
  6. 何恺明与Research方法论
  7. 自监督学习:MoCo、MAE与Scaling困境
  8. 表征学习:永恒的主题
  9. DiT与Sora前传
  10. 两次拒绝Ilya
  11. Research Taste与金刚经
  12. 逃出硅谷:FAIR的文化转变
  13. 视觉作为一种视角
  14. 世界模型的定义与哲学
  15. LLM终将凋零
  16. 杨立昆:从质疑JEPA到成为JEPA
  17. AMI Labs:反向OpenAI与草根联盟
  18. 李飞飞与定义问题的能力
  19. 启示与延伸思考

一、童年与成长:书房、互联网与视觉动物

谢赛宁的最早记忆始于四五岁。母亲做生意四处奔走,带他遍游全国;父亲是"纯粹的死宅",最爱看书,家里有一间书房,"几面墙都是书"。童年的他便在两种模式间切换——要么被母亲带着在外面跑,要么在家翻各种"能看的不能看的书"。

大约九岁拥有第一台电脑,此后经历了互联网第一波信息爆炸。从新浪博客、QQ空间到饭否,他成为重度用户,写了大量博客,积累了强烈的表达欲。

谢赛宁
我觉得互联网的爆炸式的增长,让我变成了一个对很多事情都很感兴趣的人。

互联网一代的成长基因

谢赛宁的成长轨迹折射了一代人的共同经历:纸质书房提供了知识深度,互联网提供了表达出口和信息广度。这种"阅读+互联网"的双重环境塑造了他后来对research中"既要深入又要广泛"的认知风格。他后来在饭否上的活跃使用,也预示了他对社交网络和"人的graph"的直觉理解。

二、交大ACM班与"不是天选之子"

在上海交大ACM班期间,谢赛宁受到侯小迪的深刻影响。侯小迪是交大的传奇人物,也是很多人的偶像。谢赛宁通过侯小迪开始接触计算机视觉,并确立了"这辈子就想做这个事"的志向。

ACM班有一个独特传统:大三时每个学生都要出去实习。大部分人默认去微软亚洲研究院(MSRA),但当时MSRA没有做视觉的组愿意接收ACM班本科生。谢赛宁不愿妥协做其他方向,自己联系了新加坡国立大学颜水成老师的实验室。

谢赛宁
于老师跟我说,你们本科生现在最重要的还是有一段研究的经历,学会怎么样做研究,具体做什么方向不是很重要。但我觉得不行,我没办法接受我去做一个完全不一样的方向。

当他把自己联系好的实习方案告知于勇老师时,"于老师沉默了几秒钟",最后说"好,你去吧"。此后,颜水成老师的组变成了后续学弟学妹可选的实习位置。

"I am the normal one"

谢赛宁反复强调自己"不是那个天选之子,是普通的那一个",这句话源自他喜爱的利物浦教练克洛普——穆里尼奥说"I am the special one",克洛普则说"I am the normal one"。这种underdog心态贯穿他的整个职业选择,每次都选择有upset potential的地方,与它们一起成长。

三、计算机视觉的起点:寒武纪大爆发

当被问到计算机视觉为什么吸引他时,谢赛宁给出了一个从生物学出发的深层回答。

谢赛宁
我感受这个世界的方式就是通过视觉。我小时候就会想,人有这么多感官,如果非要让我去掉一个的话,我会去掉哪个。也许我听不见,也许我没法说话,也许我没有触觉、没有嗅觉,我会过得很悲惨,但可能还可以接受。但如果我没有了视觉——那我不能看动画片了,不能看电影,也不能打游戏了,我似乎丧失了一个人的独立性。

视觉的生物学基础

  • 视觉区域约占大脑皮层的30%
  • 看到图像时,大脑激活部分可达70%
  • 5.3亿年前(寒武纪大爆发),生物首次发展出视觉能力
  • 一旦视觉诞生,其他生物不得不演化出更强的视觉,展开了一场军备竞赛
关键类比

寒武纪大爆发与视觉的军备竞赛

在深海中暗无天日的生物,一旦某些个体发展出视觉,就获得了"看到捕食对象"和"躲避天敌"的巨大优势。这导致了进化史上最激烈的军备竞赛。谢赛宁用这个类比来论证视觉不只是AI的一个子方向,而是智能演化的根本驱动力。

四、博士之路:涂卓文与UCSD

谢赛宁选择导师的方式延续了他一贯的"反常规"风格。涂卓文老师当时还未确定去哪所学校,谢赛宁就决定跟随他,完全不在意学校排名。

谢赛宁
涂老师给我打预防针说,我要去的学校有可能排名会比较靠后了,你要考虑一下。但对我来说这件事可能不那么重要。重要的事情是我跟谁在做什么事情,然后这件事是不是我想做的事。

他成为涂卓文在UCSD招的第一个学生。涂老师是那种"坐在你的显示器旁边,一行一行代码往后对"的导师,曾独立完成多篇对计算机视觉有重要影响的工作——从底层开始写起,约五万行C++代码。

博士期间关键工作

Deeply Supervised Nets (DSN) & HED

  • 时间:2013-2014年,深度学习刚开始爆发
  • 很多做计算机视觉的老师"甚至都不接受这件事",觉得深度学习还是"炼金术"
  • DSN的核心思想:不只在最顶层有loss,中间层也拉出来辅助目标——这一思想在十年后的REPA中"以一种奇怪的方式"再次出现
  • HED获得了Marr Prize

看到一个地方的upset potential

谢赛宁反复提到自己"能看到一个地方或一个人的upset potential"。交大ACM班在他入学时还在上升期,UCSD在他入学时排名并不突出但后来成为AI前几名。他愿意和有潜力的地方一起成长,而不是追逐已经功成名就的机构。

五、五次实习与流浪研究员

博士期间,谢赛宁做了五次不同方向的实习——NEC Labs(新加坡NUS之后)、Adobe、Meta/FAIR、Google、DeepMind。每段实习做的topic都不一样,导致毕业论文"表面上很散"。

实习机构方向关键收获
NEC Labs早期视觉研究学术研究入门
Adobe视觉应用工业界视角
Meta/FAIR图像识别何恺明合作 ResNeXt
Google跨领域探索拓宽研究视野
DeepMind强化学习跨领域经历启发
谢赛宁学术与职业轨迹
谢赛宁
你不应该去五个地方做五个实习、做五个不同的项目,这件事非常不利于找教职。因为如果你想找教职,你留在何恺明的团里面,你可能会发更多的paper。但我只考虑的事情是——跟我最想要共事的人一起共事,做我最想做的事情。

DeepMind实习:从伦敦寒风中走来

谢赛宁去DeepMind做RL相关研究,"真的不知道这件事是怎么玩的"。伦敦冬天极冷,他工作到很晚,"凛冽的寒风夹杂着雨",但这段跨领域经历对他启发很大。何恺明的建议是"去不同的地方实习,这样才能最大化收获"。

非线性的Research

谢赛宁总结他的很多好工作都遵循同一节奏:一开始怎么做都做不出来,到最后突然有灵感迸发,一瞬间收敛。他说"research从来不是一个线性的发展,或者说一个线性发展的research永远不是好的research"。

六、何恺明与Research方法论

在Meta/FAIR实习时,谢赛宁与何恺明的合作始于最后一个月。当时他的manager把他"委托给恺明",恺明说"要不我们一起参加一下ImageNet Challenge吧"——一个月内完成了ResNeXt的工作,获得第二名(实际效果是第一名)。

谢赛宁
恺明的魔力在于,他能把所有很普通的东西变成金子。这是我第一次看到一个真正顶尖的研究员是怎样做research的。

恺明的研究特质

一个顶尖研究员的核心要素

  • 极致的专注力——每天除了这一个问题之外,不想其他任何东西
  • Research taste——能把重点"抽丝剥茧"提取出来,建立高维度抽象空间中的联系
  • 工程极致主义——单枪匹马在TPU上从零搭建整套infrastructure,使得后续MoCoMAEDiT都得以实现
  • IC精神——到今天仍然非常enjoy个人贡献者的身份,不喜欢只做manager指导方向
谢赛宁
恺明教我的一件事情是说,你的research的上限其实取决于你baseline的好坏。如果你的baseline很差,你可能很容易自欺欺人。他会想我们怎么样把baseline做到高到不能再高,这时候在这个基础上做出了新的事情,那是ground breaking的事情。你在一个弱的baseline下面做的任何提升,可能只是一篇灌水的paper而已。
方法论

"Scaling一开始就是恺明的原话"

大约2018-2019年,何恺明就告诉谢赛宁"我们一定需要把模型变得更大,把数据变得更大"。现在scaling已经成为人人都在谈论的buzz word,但第一个真正跟谢赛宁说"we need to make models big big big"的人是恺明。

七、自监督学习:MoCo、MAE与Scaling困境

杨立昆提出了经典的"蛋糕比喻":底层是self-supervised learning(蛋糕本体),上面是supervised learning(奶油icing),最顶层是reinforcement learning(cherry on top)。谢赛宁在FAIR的工作正是围绕这个底座展开的。

自监督学习的演化

2015-2016年:百花齐放的Pretext Task时代

旋转预测、着色预测、Context Encoder......各种创造性任务被设计出来。"非常有创造力的时代",但"没有一个能打",所有结果比ImageNet的supervised pre-training差15-20个百分点。

2019年:MoCo(动量对比学习)

第一次把对比学习真正做work的论文。恺明主导,承担了80-90%的一作加通讯作者职责。MoCo v1-v3逐步改进,v3使用Transformer后在各种task上超越了ImageNet supervised的表征。"一切又是欣欣向荣。"

2021年:MAE(掩码自编码器)

对比学习无法scale up,转向更简单的masked auto-encoder方式。结果也很好,但也未能scale up。"大起大落——一方面得到了很好的结果,另一方面从来没有真正deliver出一个像GPT一样的scalable的未来范式。"

扩展到3D领域

Point Contrast等工作证明了representation learning不只是image domain的问题,它在3D、medical imaging、robotics等领域同样成立。"不认为它是一个失败——它确实在影响很多超越计算机视觉本身的领域。"

自监督学习为什么重要

谢赛宁指出,做自监督学习的真正原因不是"打标签太贵"——那只是一个很小很小的问题。大的问题是:只通过supervised learning,是没办法给予AI系统common sense的。人之所以能判断一张图片被旋转了多少度、被遮掩的区域应该是什么,是因为人有基于对物理世界的某种认知。

八、表征学习:永恒的主题

回顾自己所有工作,谢赛宁找到了一条贯穿始终的线索——表征(representation)。从DSN到MoCo,从MAE到DiT,从ConvNeXt到REPA和RAE,每一篇论文的核心都指向同一个问题。

谢赛宁
我现在的bet是说——这个世界上只有一件事情是重要的,就是怎么学习到这个表征。当你有一个足够好的表征之后,在上面处理其他的问题都是简单的。你的language model会逐渐退化到一个简单的communication的interface。

REPA:表征的化学反应

REPA(Representation Alignment)本质上是一个"深层监督网络"——让diffusion model的内部表征与自监督模型的表征对齐。这篇论文经历了长时间的积累,所有过去的工作"以一种奇怪的方式组合到了一起,形成了某种化学反应"。

马毅的"不要害怕高维"

当有人质疑RAE中的高维表征是否会导致学习困难时,马毅老师"很激动地站出来"说:你们一定不能害怕高维度!高维度是所有机器学习里面非常重要的基石。在高维空间里面,很多问题原来在低维空间里面解不了,现在可以解。谢赛宁说这不仅是关于表征的害怕,也是关于"逃逸出当前local optimal"的害怕。

表征学习研究脉络:从Pretext Task到World Model

九、DiT与Sora前传

DiT(Diffusion Transformer)的诞生是谢赛宁在FAIR最后阶段的工作,与Bill Peebles合作完成。但它的出发点并非做生成模型。

DiT的诞生过程

  • 最初目标:研究diffusion model学到的表征与supervised/self-supervised learning有何不同
  • 发现:生成模型学到的表征"比自监督学习的差得多得多得多"
  • 转折:最后一个月发现新架构更efficient、更scalable、代码更简洁
  • 投稿被拒:CVPR审稿人认为"novelty不够"——"你没有大段的数学,弄了一个很简单的结构"
  • 再投命中:"什么也没改,又中了一篇oral。再次证明完全是一个纯粹的随机过程。"
谢赛宁
从代码的角度,我会非常care这件事情。如果你的代码长度很短就能达到同样的目的,那你这个方法typically会优于一个写了好几千行代码的庞杂系统。即使它也能做同样的事情,但更elegant、更simple的solution一定是更好的。我觉得这也是某种意义上的research taste。

Bill Peebles与Sora

Bill Peebles是谢赛宁招的intern,后来成为Sora的负责人。论文发表后很多人讨论但没人真正用它。Bill最终去了OpenAI——"你们都不买账,那我自己来做这件事"。这篇paper只署了NYU和Berkeley的名,因为FAIR不让署名——既觉得"it's ok, it's a paper",又说他已经离开不要借FAIR名声。

世界的讽刺

DiT是在FAIR完整做完的工作,但只署了NYU的名。后来OpenAI的Sora在blog post中引用了DiT,Bill的名字被找到,大家才能追溯这条线索。但随着工业界research lab越来越封闭——从发论文到只写blog,从有署名到只有"OpenAI team"——这种学术界与工业界的良性交流渠道正在被打断。

十、两次拒绝Ilya

谢赛宁一共只跟Ilya Sutskever打过两次电话,每次都以拒绝收场。

第一次:2018年博士毕业

  • 在OpenAI小黑屋关了五六个小时做一道手写面试题
  • 拿到offer后直接拒绝
  • Ilya打电话"非常生气",问"你为什么不讨论一下就把offer拒了?是我们给的钱不够吗?"
  • 当时PhD毕业生薪酬约40-50万美金
  • 拒绝原因:心里只想去FAIR——"恺明、Peter、Ross Girshick,计算机视觉的三驾马车都在那。没什么好选的。"

第二次:2024年7月SSI成立

  • Ilya发邮件邀请加入
  • 双方讨论的核心话题:如何赋予AI爱的能力
  • 谢赛宁最后问"你对多模态/计算机视觉怎么看"
  • Ilya认为"这件事情已经解决得很不错"
  • 拒绝原因:SSI基于语言的路线"不是我想要去设计的路线"
谢赛宁
伊利亚给我打电话,我什么都没说,我就把OpenAI拒了。他们发给我一个offer,然后我说我不去,抱歉。
谢赛宁
但是有爱的同时一定就有恨,它是一体两面。它不可能只有爱,当它学会了爱的时候,它一定知道它的反面是什么。

十一、Research Taste与金刚经

谢赛宁多次提到research taste(研究品位),但他认为这不是一个可以精确定义的概念。通过何恺明的行事方式,可以窥见它的几个维度。

Research Taste的构成

  • 极简主义——代码越短越好,minimal description length,simple solution优于complex system
  • 知道什么重要什么不重要——大家不讲重点,要么不会讲,要么不愿讲,要么没意识到重点是什么
  • 在高维抽象空间中建立联系——把不同领域、不同paper之间的隐含联系提取出来
  • baseline极致主义——不追求在弱baseline上刷improvement,而是把baseline做到极致后再做突破
谢赛宁(引恺明语)
不要在乎一个point estimate。你面试的时候,一次发言、一篇paper被拒或者被接受,都只是一个点。所有的评价到最后都会是一个积分。凡所有相皆是虚妄,若见诸相非相,即见如来。

金刚经与Research的随机过程

谢赛宁引用金刚经来描述论文评审的本质——DiT被CVPR拒稿后"什么也没改"又投中另一个会议的oral,"再次证明这完全是一个纯粹的随机过程"。恺明的"凡所有相皆是虚妄"哲学,与做research的长期主义完美契合——不为一时的荷尔蒙爆发,而追求"终其一生的建设,一种很宁静的过程"。

十二、逃出硅谷:FAIR的文化转变

谢赛宁在FAIR待了四年。ChatGPT出来之后,FAIR开始经历"culture shift"——大家的focus不在research上了。

谢赛宁
大家会开好几个小时的research alignment meeting——对齐会议。唯一的topic就是"我们到底应该做啥"。但持续了好几个星期,还是没有办法确定。因为这件事是完全反research的正常逻辑的——现在变成是说我们要坐在一起讨论接下来一两年应该做一个什么样的research project。这件事情在恺明或在很多研究员心里,看起来都是反research的。

做DiT时,diffusion model不在FAIR的"核心路径"上,遭到很多反对。谢赛宁要竞争资源,大家说"你做这个事情干什么,我们要把资源集中做更有意义更大的project"。

离开FAIR的trigger

  • OpenAI做了很多在FAIR"想都不敢想、想了也做不到"的事情
  • 组织开始讨论改革,几轮reorg但方向仍不明确
  • 研究自由度下降:你的研究方向要被"alignment meeting"批准
  • FAIR不让DiT署Meta的名——"这篇paper it's ok, it's a paper"

"Research是一个无限游戏"

谢赛宁引用无限游戏的概念来描述他理想中的research:没有终点,不追求一瞬间的胜利,而是持续探索。FAIR从"圣殿"到需要开"对齐会议"的转变,正是从无限游戏变成了有限游戏——从探索变成了目标导向的规划。这是他离开的根本原因。

十三、视觉作为一种视角(Perspective)

谢赛宁对computer vision有一个不同寻常的定义。

谢赛宁
Computer vision这个词很有歧义——vision既指你的视觉,又指你对未来的预判。在我定义下的computer vision,它是一个perspective,它不是一个具体的任务,甚至也不是一个具体的领域。如果你认为计算机视觉是一个perspective的话,它是智能的本质。

Vision care的核心属性

语言的污染

谢赛宁认为语言是"毒药"或"鸦片"——加了语言总是会觉得更好,但它是一个shortcut。"如果一直吸鸦片你就废了;如果它是个拐杖,你也没办法训练大腿的肌肉。"他非常担心语言对视觉的污染——现在的多模态系统中所有"脏活累活"都靠LLM做,视觉表征层只提供一点context。这不是他理想中的架构。

十四、世界模型的定义与哲学

谢赛宁给出了世界模型的严格定义:给定一个系统的状态S_t和一个动作A_t,学到一个predictive function F,使得F(S_t, A_t) = S_{t+1}。

核心定义

世界模型:从1943年到MPC

这个概念最早由生理学家Kenneth Craik于1943年提出——人脑中有一个世界模型,能预测动作带来的后果,从而指导决策。"如果我知道把手伸到火堆里面我会疼,我就不会把手伸到火堆里面。"同样的思想体现在控制理论的Model Predictive Control(MPC)中:在当前时刻roll out动作序列,找到cost最低的方案,执行第一步,然后重复迭代。

谢赛宁
世界模型是一个目的,不是一个具体的算法或技术路线。每个人都在世界模型的道路上往前走。语言模型或在此之上也会变得更强,多模态模型能更好地理解世界,video生成模型也在进步——它们都是这条路上的努力。

Bitter Lesson的反面

谢赛宁认为LLM其实是反Bitter Lesson的。语言模型的scaling law中有"水分"——它不需要真正理解世界就能回答问题,需要大量参数来记忆factual knowledge。世界模型的scaling law会完全不同:模型不需要很大,不需要trillion参数,因为它不需要记住世界的所有细节。

109
感官输入带宽 (bits/s)
10~100
语言输出带宽 (bits/s)
20W
大脑功率

人的大脑在20瓦功率下,将10亿bits/s的感官输入转化成10 bits/s的行为输出——这中间发生的正是世界模型:过滤大量无用信息和噪音,知道什么重要什么不重要。

十五、LLM终将凋零

谢赛宁
我会说LLM终将凋零。不对不对——LLM永远不会死,但终将凋零。老兵不死,终将凋零。They won't die, they just fade away. 它是一个很好的工具,我现在天天使用LLM。但它不是我们构建一个universal通用智能系统的基石,它不是世界模型大厦的地基。

语言的局限

语言是交流工具,不是思考工具

  • 语言只有8000-10000年历史——如果把生命史压缩为24小时,语言只出现在最后8-10秒
  • 视觉诞生于5.38亿年前——是智能演化的根本驱动力
  • LLM像柏拉图洞穴寓言——通过语言"侧面了解世界",但看不到图片和视频
  • LLM可能只是"人的投射",像《索拉里斯星》中那片能读取潜意识的海洋——"它不是在理解人,只是一个反射"
智能系统的层级架构:从L0到World Model

Rich Sutton的松鼠论

谢赛宁(引Rich Sutton语)
你觉得LLM写code、拿IMO金牌、去火星,这件事情很伟大很厉害很难吗?那你就这么觉得吧。我不这么觉得——打造出来一只松鼠的智能,这件事情才是难的问题。一旦你有了一只松鼠的智能,后面的写code、上火星,这件事情都是再容易不过的事情。

十六、杨立昆:从质疑JEPA到成为JEPA

谢赛宁对杨立昆(Yann LeCun)的认知经历了三个阶段。

阶段一:质疑JEPA

"我们刚开始做self-supervised learning的时候,觉得JEPA好像是yet another self-supervised learning algorithm, that's it。"

阶段二:理解JEPA

发现JEPA比想象的走得更深——它背后有数学原理,需要有人在这条路线上继续坚守。"你不能做generative model,不能把所有东西都记住都重建出来。你需要在一个abstract的表征空间里面做预测——这是JEPA的内核。"

阶段三:成为JEPA

"JEPA不是一个模型,不是一个具体的算法。JEPA是一整套cognitive architecture——认知体系。在我看来是通往universal智能体的一条很合理的道路。它需要有world understanding的能力、prediction的能力、planning的能力。"

作为一个人的杨立昆

知行合一的科学家

  • 不受外界干扰——讨论world model不是因为最近fire才说的,很多年前就在提
  • "My integrity as a scientist cannot accept this"——Meta让他别在外面diss LLM,他完全不接受
  • 永远写公式——被问到world model是什么时,"永远要给你写公式,一点一点推"
  • 可以被move,但要基于事实——"我完全可以被移动,但我需要基于事实来被move"
  • 四大爱好——造模型飞机、天文摄影、电子乐/爵士、帆船
谢赛宁
跟杨在一起,我不会有畏惧感。虽然他功成名就,但我不会担心我说了一句错话惹得他不高兴。每次我开始对一些事情有所怀疑,我都会找他聊一聊。他很容易就让身边的人感受到某种宁静,感受到这些challenge不是challenge,前方的路一片光明。

十七、AMI Labs:反向OpenAI与草根联盟

AMI Labs的定位是"反向OpenAI"——不是从互联网下载数据训练Transformer然后push market,而是走一条更艰辛的路:"World model needs the world"

商业模式

Mastercard的故事

Visa(Bank of America)率先推出信用卡,赚得盆满钵满还藏着掖着说"赔钱生意"。其他小银行发现真相后,单独发卡又打不过,于是组成联盟推出了Mastercard。AMI Labs的模式与此类似——有点"草根联盟"的感觉,联合各方有数据、有具体问题的合作伙伴,共建世界模型,形成闭环。

~$1B
融资目标
$3B
Pre-money估值
25人
初始团队规模
6人
Co-founder数量
4
全球办公室数量

四个办公室:刻意不选硅谷

总部设在巴黎,另有纽约、蒙特利尔、新加坡三个office。谢赛宁认为硅谷"very red-pilled"——被LLM叙事催眠了,但"被催眠的人总有醒来的一刻"。

招人策略:不要超级英雄

谢赛宁
我们不想把一些很established、已经是super hero一样的researcher聚拢到一起然后希望有某种化学反应——我不相信这件事。一个人很难被闪电击中两次。如果你已经发了那20几篇改变AI历史的paper中的一篇,你再发下一篇的概率会低很多。我更倾向于招一些有很好的reputation、有很强的能力,但somehow大家还不知道的人。

好几个co-founder放弃了OpenAI好几千万的股票和Meta 15-20 million的offer加入。谢赛宁说"脑子可能都缺根筋",但"大家还是相信这是唯一一个地方我们可以做这件事情"。

十八、李飞飞与定义问题的能力

谢赛宁多次提到李飞飞的影响力,尤其是她"定义问题"的能力。

从ImageNet到Spatial Intelligence

  • ImageNet——即使1000个class里有200个是不同种类的狗,这个数据集仍然极其有效,"这件事情非常非常厉害"
  • Cambrian论文——谢赛宁与李飞飞合作,定义了从L0到world model的多模态能力阶梯
  • 北极星——"飞飞老师经常说北极星。我一直在问的问题也是到底什么是视觉的北极星"
  • 涂卓文、朱松纯、李飞飞等人"把这条路趟出来,让我们才有路可走"

Cambrian论文中的阶梯模型

L0:纯语言模型

完全不能观测视觉信号,"像柏拉图洞穴寓言一样,通过语言侧面了解世界"

L1:Show and Tell

当前的多模态系统——给它看一个东西,它告诉你关于这个东西的答案

L2:Streaming Event Cognition

处理连续的视觉流(visual stream),而非静止图片

L3:Spatial Cognition

在时间序列的每一点上,看到当前帧背后的三维空间

L4:Predictive World Model

"终局就是我们需要一个predictive world model。"

十九、启示与延伸思考

创业如滑雪

谢赛宁
滑雪是一个讲求平衡的运动。你要无所畏惧地把自己的肩膀朝向山下——这太反直觉了。人面对山下的坡度时,总是想要往回靠。但你一旦跟从你的本能向后倒,你就完全失控。你只有足够的勇气,不害怕任何事情,把肩膀朝向山下的时候,反而变得更稳定。

六个核心启示

1. 选择与人同行,而非选择机构

谢赛宁每一次重大选择的标准都不是排名、薪资或确定性,而是"我跟谁在一起做什么事"。从选涂卓文到选FAIR到选杨立昆,人始终是第一变量。

2. 表征是永恒的主题

从2013年的DSN到2025年的RAE,十二年间所有工作指向同一件事。这种长期一致性可能是research taste的终极体现——不追热点,不被外界评价牵引。

3. 逃出Local Optimal需要勇气

从拒绝MSRA去NUS,到拒绝OpenAI去FAIR,到离开FAIR创办AMI Labs,谢赛宁的每一次选择都是逃出当前的局部最优。"人类的赞歌就是勇气的赞歌。"

4. 世界模型需要世界

"Word model needs the world"——不能只从互联网下载数据。需要视频、需要传感器、需要物理世界的数据。数据问题可能比算法问题更难。

5. 放弃人类的自大

松鼠的智能可能比写code更难。12岁孩子能做所有家务但没有机器人能做到。AGI是一个"完完全全的伪命题"——智能是连续的、多样的,不存在一个binary的"通用"阈值。

6. 这辈子只需要成功一次就够了

谢赛宁多次表达这种underdog的心态——不需要被闪电击中两次,不需要每篇paper都是breakthrough。他享受"你们越不相信我,我越happy"的状态,因为"let's see"本身就是research和创业共同的精神内核。

谢赛宁
我觉得跳下来那一刻恐惧就消失了。只要有勇气,一切都好说。人类的赞歌就是勇气的赞歌。