谢赛宁的最早记忆始于四五岁。母亲做生意四处奔走,带他遍游全国;父亲是"纯粹的死宅",最爱看书,家里有一间书房,"几面墙都是书"。童年的他便在两种模式间切换——要么被母亲带着在外面跑,要么在家翻各种"能看的不能看的书"。
大约九岁拥有第一台电脑,此后经历了互联网第一波信息爆炸。从新浪博客、QQ空间到饭否,他成为重度用户,写了大量博客,积累了强烈的表达欲。
谢赛宁的成长轨迹折射了一代人的共同经历:纸质书房提供了知识深度,互联网提供了表达出口和信息广度。这种"阅读+互联网"的双重环境塑造了他后来对research中"既要深入又要广泛"的认知风格。他后来在饭否上的活跃使用,也预示了他对社交网络和"人的graph"的直觉理解。
在上海交大ACM班期间,谢赛宁受到侯小迪的深刻影响。侯小迪是交大的传奇人物,也是很多人的偶像。谢赛宁通过侯小迪开始接触计算机视觉,并确立了"这辈子就想做这个事"的志向。
ACM班有一个独特传统:大三时每个学生都要出去实习。大部分人默认去微软亚洲研究院(MSRA),但当时MSRA没有做视觉的组愿意接收ACM班本科生。谢赛宁不愿妥协做其他方向,自己联系了新加坡国立大学颜水成老师的实验室。
当他把自己联系好的实习方案告知于勇老师时,"于老师沉默了几秒钟",最后说"好,你去吧"。此后,颜水成老师的组变成了后续学弟学妹可选的实习位置。
谢赛宁反复强调自己"不是那个天选之子,是普通的那一个",这句话源自他喜爱的利物浦教练克洛普——穆里尼奥说"I am the special one",克洛普则说"I am the normal one"。这种underdog心态贯穿他的整个职业选择,每次都选择有upset potential的地方,与它们一起成长。
当被问到计算机视觉为什么吸引他时,谢赛宁给出了一个从生物学出发的深层回答。
在深海中暗无天日的生物,一旦某些个体发展出视觉,就获得了"看到捕食对象"和"躲避天敌"的巨大优势。这导致了进化史上最激烈的军备竞赛。谢赛宁用这个类比来论证视觉不只是AI的一个子方向,而是智能演化的根本驱动力。
谢赛宁选择导师的方式延续了他一贯的"反常规"风格。涂卓文老师当时还未确定去哪所学校,谢赛宁就决定跟随他,完全不在意学校排名。
他成为涂卓文在UCSD招的第一个学生。涂老师是那种"坐在你的显示器旁边,一行一行代码往后对"的导师,曾独立完成多篇对计算机视觉有重要影响的工作——从底层开始写起,约五万行C++代码。
谢赛宁反复提到自己"能看到一个地方或一个人的upset potential"。交大ACM班在他入学时还在上升期,UCSD在他入学时排名并不突出但后来成为AI前几名。他愿意和有潜力的地方一起成长,而不是追逐已经功成名就的机构。
博士期间,谢赛宁做了五次不同方向的实习——NEC Labs(新加坡NUS之后)、Adobe、Meta/FAIR、Google、DeepMind。每段实习做的topic都不一样,导致毕业论文"表面上很散"。
| 实习机构 | 方向 | 关键收获 |
|---|---|---|
| NEC Labs | 早期视觉研究 | 学术研究入门 |
| Adobe | 视觉应用 | 工业界视角 |
| Meta/FAIR | 图像识别 | 与何恺明合作 ResNeXt |
| 跨领域探索 | 拓宽研究视野 | |
| DeepMind | 强化学习 | 跨领域经历启发 |
谢赛宁去DeepMind做RL相关研究,"真的不知道这件事是怎么玩的"。伦敦冬天极冷,他工作到很晚,"凛冽的寒风夹杂着雨",但这段跨领域经历对他启发很大。何恺明的建议是"去不同的地方实习,这样才能最大化收获"。
谢赛宁总结他的很多好工作都遵循同一节奏:一开始怎么做都做不出来,到最后突然有灵感迸发,一瞬间收敛。他说"research从来不是一个线性的发展,或者说一个线性发展的research永远不是好的research"。
在Meta/FAIR实习时,谢赛宁与何恺明的合作始于最后一个月。当时他的manager把他"委托给恺明",恺明说"要不我们一起参加一下ImageNet Challenge吧"——一个月内完成了ResNeXt的工作,获得第二名(实际效果是第一名)。
大约2018-2019年,何恺明就告诉谢赛宁"我们一定需要把模型变得更大,把数据变得更大"。现在scaling已经成为人人都在谈论的buzz word,但第一个真正跟谢赛宁说"we need to make models big big big"的人是恺明。
杨立昆提出了经典的"蛋糕比喻":底层是self-supervised learning(蛋糕本体),上面是supervised learning(奶油icing),最顶层是reinforcement learning(cherry on top)。谢赛宁在FAIR的工作正是围绕这个底座展开的。
旋转预测、着色预测、Context Encoder......各种创造性任务被设计出来。"非常有创造力的时代",但"没有一个能打",所有结果比ImageNet的supervised pre-training差15-20个百分点。
第一次把对比学习真正做work的论文。恺明主导,承担了80-90%的一作加通讯作者职责。MoCo v1-v3逐步改进,v3使用Transformer后在各种task上超越了ImageNet supervised的表征。"一切又是欣欣向荣。"
对比学习无法scale up,转向更简单的masked auto-encoder方式。结果也很好,但也未能scale up。"大起大落——一方面得到了很好的结果,另一方面从来没有真正deliver出一个像GPT一样的scalable的未来范式。"
Point Contrast等工作证明了representation learning不只是image domain的问题,它在3D、medical imaging、robotics等领域同样成立。"不认为它是一个失败——它确实在影响很多超越计算机视觉本身的领域。"
谢赛宁指出,做自监督学习的真正原因不是"打标签太贵"——那只是一个很小很小的问题。大的问题是:只通过supervised learning,是没办法给予AI系统common sense的。人之所以能判断一张图片被旋转了多少度、被遮掩的区域应该是什么,是因为人有基于对物理世界的某种认知。
回顾自己所有工作,谢赛宁找到了一条贯穿始终的线索——表征(representation)。从DSN到MoCo,从MAE到DiT,从ConvNeXt到REPA和RAE,每一篇论文的核心都指向同一个问题。
REPA(Representation Alignment)本质上是一个"深层监督网络"——让diffusion model的内部表征与自监督模型的表征对齐。这篇论文经历了长时间的积累,所有过去的工作"以一种奇怪的方式组合到了一起,形成了某种化学反应"。
当有人质疑RAE中的高维表征是否会导致学习困难时,马毅老师"很激动地站出来"说:你们一定不能害怕高维度!高维度是所有机器学习里面非常重要的基石。在高维空间里面,很多问题原来在低维空间里面解不了,现在可以解。谢赛宁说这不仅是关于表征的害怕,也是关于"逃逸出当前local optimal"的害怕。
DiT(Diffusion Transformer)的诞生是谢赛宁在FAIR最后阶段的工作,与Bill Peebles合作完成。但它的出发点并非做生成模型。
Bill Peebles是谢赛宁招的intern,后来成为Sora的负责人。论文发表后很多人讨论但没人真正用它。Bill最终去了OpenAI——"你们都不买账,那我自己来做这件事"。这篇paper只署了NYU和Berkeley的名,因为FAIR不让署名——既觉得"it's ok, it's a paper",又说他已经离开不要借FAIR名声。
DiT是在FAIR完整做完的工作,但只署了NYU的名。后来OpenAI的Sora在blog post中引用了DiT,Bill的名字被找到,大家才能追溯这条线索。但随着工业界research lab越来越封闭——从发论文到只写blog,从有署名到只有"OpenAI team"——这种学术界与工业界的良性交流渠道正在被打断。
谢赛宁一共只跟Ilya Sutskever打过两次电话,每次都以拒绝收场。
谢赛宁多次提到research taste(研究品位),但他认为这不是一个可以精确定义的概念。通过何恺明的行事方式,可以窥见它的几个维度。
谢赛宁引用金刚经来描述论文评审的本质——DiT被CVPR拒稿后"什么也没改"又投中另一个会议的oral,"再次证明这完全是一个纯粹的随机过程"。恺明的"凡所有相皆是虚妄"哲学,与做research的长期主义完美契合——不为一时的荷尔蒙爆发,而追求"终其一生的建设,一种很宁静的过程"。
谢赛宁在FAIR待了四年。ChatGPT出来之后,FAIR开始经历"culture shift"——大家的focus不在research上了。
做DiT时,diffusion model不在FAIR的"核心路径"上,遭到很多反对。谢赛宁要竞争资源,大家说"你做这个事情干什么,我们要把资源集中做更有意义更大的project"。
谢赛宁引用无限游戏的概念来描述他理想中的research:没有终点,不追求一瞬间的胜利,而是持续探索。FAIR从"圣殿"到需要开"对齐会议"的转变,正是从无限游戏变成了有限游戏——从探索变成了目标导向的规划。这是他离开的根本原因。
谢赛宁对computer vision有一个不同寻常的定义。
谢赛宁认为语言是"毒药"或"鸦片"——加了语言总是会觉得更好,但它是一个shortcut。"如果一直吸鸦片你就废了;如果它是个拐杖,你也没办法训练大腿的肌肉。"他非常担心语言对视觉的污染——现在的多模态系统中所有"脏活累活"都靠LLM做,视觉表征层只提供一点context。这不是他理想中的架构。
谢赛宁给出了世界模型的严格定义:给定一个系统的状态S_t和一个动作A_t,学到一个predictive function F,使得F(S_t, A_t) = S_{t+1}。
这个概念最早由生理学家Kenneth Craik于1943年提出——人脑中有一个世界模型,能预测动作带来的后果,从而指导决策。"如果我知道把手伸到火堆里面我会疼,我就不会把手伸到火堆里面。"同样的思想体现在控制理论的Model Predictive Control(MPC)中:在当前时刻roll out动作序列,找到cost最低的方案,执行第一步,然后重复迭代。
谢赛宁认为LLM其实是反Bitter Lesson的。语言模型的scaling law中有"水分"——它不需要真正理解世界就能回答问题,需要大量参数来记忆factual knowledge。世界模型的scaling law会完全不同:模型不需要很大,不需要trillion参数,因为它不需要记住世界的所有细节。
人的大脑在20瓦功率下,将10亿bits/s的感官输入转化成10 bits/s的行为输出——这中间发生的正是世界模型:过滤大量无用信息和噪音,知道什么重要什么不重要。
谢赛宁对杨立昆(Yann LeCun)的认知经历了三个阶段。
"我们刚开始做self-supervised learning的时候,觉得JEPA好像是yet another self-supervised learning algorithm, that's it。"
发现JEPA比想象的走得更深——它背后有数学原理,需要有人在这条路线上继续坚守。"你不能做generative model,不能把所有东西都记住都重建出来。你需要在一个abstract的表征空间里面做预测——这是JEPA的内核。"
"JEPA不是一个模型,不是一个具体的算法。JEPA是一整套cognitive architecture——认知体系。在我看来是通往universal智能体的一条很合理的道路。它需要有world understanding的能力、prediction的能力、planning的能力。"
AMI Labs的定位是"反向OpenAI"——不是从互联网下载数据训练Transformer然后push market,而是走一条更艰辛的路:"World model needs the world"。
Visa(Bank of America)率先推出信用卡,赚得盆满钵满还藏着掖着说"赔钱生意"。其他小银行发现真相后,单独发卡又打不过,于是组成联盟推出了Mastercard。AMI Labs的模式与此类似——有点"草根联盟"的感觉,联合各方有数据、有具体问题的合作伙伴,共建世界模型,形成闭环。
总部设在巴黎,另有纽约、蒙特利尔、新加坡三个office。谢赛宁认为硅谷"very red-pilled"——被LLM叙事催眠了,但"被催眠的人总有醒来的一刻"。
好几个co-founder放弃了OpenAI好几千万的股票和Meta 15-20 million的offer加入。谢赛宁说"脑子可能都缺根筋",但"大家还是相信这是唯一一个地方我们可以做这件事情"。
谢赛宁多次提到李飞飞的影响力,尤其是她"定义问题"的能力。
完全不能观测视觉信号,"像柏拉图洞穴寓言一样,通过语言侧面了解世界"
当前的多模态系统——给它看一个东西,它告诉你关于这个东西的答案
处理连续的视觉流(visual stream),而非静止图片
在时间序列的每一点上,看到当前帧背后的三维空间
"终局就是我们需要一个predictive world model。"
谢赛宁每一次重大选择的标准都不是排名、薪资或确定性,而是"我跟谁在一起做什么事"。从选涂卓文到选FAIR到选杨立昆,人始终是第一变量。
从2013年的DSN到2025年的RAE,十二年间所有工作指向同一件事。这种长期一致性可能是research taste的终极体现——不追热点,不被外界评价牵引。
从拒绝MSRA去NUS,到拒绝OpenAI去FAIR,到离开FAIR创办AMI Labs,谢赛宁的每一次选择都是逃出当前的局部最优。"人类的赞歌就是勇气的赞歌。"
"Word model needs the world"——不能只从互联网下载数据。需要视频、需要传感器、需要物理世界的数据。数据问题可能比算法问题更难。
松鼠的智能可能比写code更难。12岁孩子能做所有家务但没有机器人能做到。AGI是一个"完完全全的伪命题"——智能是连续的、多样的,不存在一个binary的"通用"阈值。
谢赛宁多次表达这种underdog的心态——不需要被闪电击中两次,不需要每篇paper都是breakthrough。他享受"你们越不相信我,我越happy"的状态,因为"let's see"本身就是research和创业共同的精神内核。