← 返回目录
深度研究 Deep Dive

多模态研究的挣扎史和未来两年的2个"GPT-4时刻"

#102 和阶跃星辰首席科学家张祥雨的首次公开访谈
2025 · 张小珺Jun|商业访谈录 · 主持: 李广密
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 张祥雨的学术主线:从ResNet到NAS
  2. CV的"GPT时刻"为何迟迟不来
  3. 对比学习与MAE的本质缺陷
  4. 静态图像的三重隔离
  5. 多模态大模型的第一次尝试
  6. 生成与理解一体化的困境
  7. 万亿参数模型的诡异发现
  8. Next Token Prediction的本质缺陷
  9. O系列的真正突破:反思Pattern
  10. 视觉空间的慢思考与CoT
  11. 多模态的GPT-4时刻:生成+理解一体化
  12. Long Context的根本问题
  13. 人脑记忆分层与Multi-Agent架构
  14. 自主学习与在线学习:下一个GPT-4时刻
  15. OpenAI五级分类法的重新解读
  16. 关键数据与技术路线汇总

一、张祥雨的学术主线:从ResNet到NAS

张祥雨是阶跃星辰首席科学家,总论文引用超过37万,这是他人生第一次公开访谈。广密透露:在AI圈子里询问"新一代华人AI科学家谁最牛",张祥雨的名字被提及最多。

Model Scaling时代(2012-2016)

张祥雨的研究起步于深度学习爆发的2012年。当时AlexNet的成功本质上是Scaling——同时Scale模型、数据和算力。ImageNet提供了120多万数据(Data Scaling已解决),CUDA性能成熟(算力Scaling已解决),核心瓶颈变成了Model Scaling

三个维度的Model Scaling

  • 宽度Scaling:会遇到梯度爆炸/Vanishing问题,提出MSRA Init解决
  • 深度Scaling:最困难——之前的模型超过十几层效果急剧下降。提出ResNet(残差网络),可将网络从十几层扩展到几十层、上百层甚至上千层
  • 分辨率Scaling:视觉信号特有的维度
核心洞察

架构设计的悖论

张祥雨提出一个关键判断:对于大模型,架构设计的细节其实不重要,大方向对了即可(比如只要用了ResNet,层间怎么连接差别不大)。但一旦把计算quota缩小(如部署到端侧),模型架构的细节设计就变得极其重要——不同硬件上的执行效率差异巨大。这驱动了他后来转向NAS(神经网络架构搜索),2019年提出SPOS方法,可以针对特定硬件自动搜索最优模型。

37万+
总论文引用数
ResNet
代表作:残差网络
SPOS
2019年NAS方法

二、CV的"GPT时刻"为何迟迟不来

到2019年,NLP领域已经通过BERT和GPT打通了"不需要人工标注、数据越多效果越好"的路径,但CV领域迟迟没有经历类似的突破。张祥雨详细分析了这个差距的根源。

NLP为什么率先成功

NLP突破的关键

  • 发现了不需要label的训练方式(BERT的完形填空、GPT的Next Token Prediction)
  • 数据可以无限扩展——互联网上有海量自然语料
  • 数据越多,模型通过上游task学到的表征越强,下游任务效果越好
  • GPT3进一步通过In-Context Learning统一了众多下游task

CV的困境

2019年下半年,对比学习(Contrastive Learning)的突破(如MoCo、CMCR)让CV社区看到了希望——自监督学习的效果开始逼近全监督。但张祥雨和业界花了大量精力研究后发现:这些方法只在小模型上管用,没有Scale Up的特性。一旦模型变大,效果就快速饱和。

张祥雨
到22年的时候,尤其看了两篇paper以后——一篇是关于思维链的发现,另一篇是关于涌现性——我大受震撼。因为我感觉我研究了这么多年,都还停留在表征这个层面,但做NLP的同行们已经开始在研究推理,已经在研究更高级别的智能特性。

三、对比学习与MAE的本质缺陷

张祥雨在2021年底就想明白了对比学习和MAE为什么不work,并在2022年初发表了观点文章。这个分析直指问题本质。

对比学习(Contrastive Learning)

  • 本质是学习一种不变性
  • 但这种不变性不是数据驱动的,而是人工handcraft的augmentation赋予
  • 设计了什么不变性(旋转、color、multi-crop),特征就只满足那几个不变性
  • 只需少量数据就能学会,之后没有信息增量
  • 所以当然没有Scale Up效果

MAE/MIM

  • 学到的是遮挡不变性(mask掉一部分还能还原)
  • 遮挡不变性确实很重要(人类认识事物的必要条件)
  • 但只是必要条件而非充分条件
  • 即使数据量扩大,学习的仍然只是这一种不变性
  • 没有从数据中激发出更多的不变性
核心对比

NLP vs CV:为什么NLP能learn from data

NLP的关键优势:模型真正做到了learn from data。更高质量的语料 = 更好的知识压缩 = 更强的表征。CV的方法(不管是对比学习还是MAE)本质上都在学习人工设计的某种不变性,这和早期手工设计特征的路线殊途同归。张祥雨2022年初发表的这个观点当时受到不少批评,但现在看来这条路线确实走的人很少。

四、静态图像的三重隔离

张祥雨提出了一个深刻的理论框架:从生成、理解、人类对齐三个维度,分析为什么纯视觉很难通向智能。

自然语言:三位一体

语言的自闭环特性

  • 生成:GPT本身就是生成模型,当然可以生成
  • 理解:建模了联合概率分布后,通过条件概率实现理解——给定前文,模型输出的后文条件概率包含了对前文的理解
  • 人类对齐:训练语料来自人类自然语料,建模分布自然就与人类对齐
  • 三者是合三为一的——只需要做一个生成模型,就同时拥有了生成、理解和人类对齐

静态图像:三重隔离

维度自然语言静态图像
生成生成模型天然支持可以做(Diffusion等),但与理解割裂
理解建模联合概率 = 理解建模像素联合分布不等于人类理解——图像是大自然创造的,不包含人类理解信息
人类对齐语料来自人类,自然对齐图像来自大自然,一定不是对齐的
张祥雨
图像是大自然创造的,它不管你人类对它怎么理解,它就在那里。所以这张图像不必然包括人类对它的理解,它缺少了这类信息。

这个发现的深远影响

2022年,张祥雨基于这个分析,基本停止了对静态图像和纯视觉表征的研究。他构思了两条路线:短期利用图文交错数据,借助文字的"自闭环"特性让图像也获得智能能力;长期通过视频甚至具身系统挖掘视觉智能。这个框架成为后来多模态大模型的研究基础。

语言 vs 视觉:生成-理解-对齐三维能力对比

五、多模态大模型的第一次尝试

2023年,张祥雨团队做了第一代多模态模型(Step 1),约千亿参数,从预训练最开始就将图文混排数据加入,采用"遇到文字预测文字、遇到图像预测图像"的方式。

Step 1的效果

好消息与坏消息

  • 文字部分:与纯文字训练效果差不多
  • 图像理解:效果尤其好——图像与文字对齐得非常好,相容性极高。比如把文字写到图片上,针对图上文字提问和用OCR提取后提问效果几乎一样
  • 图像生成:效果特别差——虽然外挂了预训练的Diffusion模块,但语言部分对视觉部分的控制能力非常差
  • 更有意思的是:去掉生成部分后,完全不影响理解部分——说明生成部分可能根本没有发挥作用
张祥雨
这就让我意识到,这件事情其实可能没有那么简单。就是说图像和视频,看起来你是强行把生成和理解做到了一个系统,但从实际效果来看,它完全没有达到语言的生成和理解完全融合到一起这样的特性。

张祥雨注意到,同时期的GPT-4V也没有实现理解和生成的一体化,也是通过外挂DALL-E的方式。这说明这不是个工程问题,而是有更深层的原因。

六、生成与理解一体化的困境

整个2024年,张祥雨尝试了一个精巧的迭代方案来弥合生成与理解之间的鸿沟,但最终做了大半年没有成功

迭代对齐方案

步骤一:理解模型给生成模型打标

用最新版的理解模型为图像打标注,构造更好的训练数据训练生成模型。

步骤二:生成模型反哺理解模型

将生成模型外挂到理解模型,生成模型提供梯度指导理解模型更新。

步骤三:期望收敛

经过多轮迭代,两个domain的gap逐渐缩小,最终在某个时刻可以放在一起训练。

实际结果:失败

得到了越来越强的理解模型和越来越强的生成模型——但放在一起后没有1+1>2的效果。摘掉任何一个,另一个效果不受影响。

生成可控性差的深层原因

理解对生成的控制失败

  • 生成模型经常产生肢体畸变、违反几何关系的图像
  • 视频生成中大量违反物理规律的内容被生成
  • 讽刺的是:把这些错误图像送给理解模型,它能准确指出不符合常识
  • 模型"自己都知道不对,但自己无法控制住自己"——生成不出符合物理常识的内容

七、万亿参数模型的诡异发现

2024年初,张祥雨团队启动了万亿参数的Step 2模型(激活200多B),这是一个"巨无霸"。整个项目前后做了9个多月,期间发现了一个业界当时还未广泛讨论的诡异现象。

万亿
Step 2参数量
200B+
激活参数量
9个月+
项目周期

Scaling的反直觉现象

关键发现

模型越大,数学能力反而下降

Step 2在文科类(写作、情商、知识量)上极强,但在理科类尤其是数学上,表现还不如7B模型。经过从1B到7B到30B到70B的严谨对照实验,确认了:模型的通用对话能力和情商确实随参数增大而增强,但推理能力尤其是数学能力呈现先上升后平缓再下降的曲线。

蛛丝马迹:大模型为什么跳步

张祥雨
更大的模型在做数学题时更倾向于跳步。小模型虽然能力很弱,但处理简单算式时会老老实实一步一步算。大模型总是写了三个数相加,直接一口报出最后的结果。虽然大部分情况都对,但就有那么少量的情况是错的。数学题你错一步,最终结果就完全是错的。
模型参数量 vs 能力表现(示意)

八、Next Token Prediction的本质缺陷

张祥雨对"大模型跳步"现象进行了深入分析,得出了一个指向NTP根本缺陷的结论。

思想实验:压缩率 vs 计算精度

关键矛盾

假设数据集中有50%的加法数据是"直接报结果"(互联网数据),50%是"一步步计算"(精心清洗的数据)。NTP的最优解是:以50%概率直接报结果,50%概率逐步计算。

  • 小模型:参数量有限,无法拟合"直接报结果"这种复杂函数,最终只学会逐步计算 -- 反而几乎不会出错
  • 大模型:有能力直接报结果,确实大概率是对的(如90%),但剩余10%会出错。对于多步数学推理,每步10%的错误累积后,整体错误率大幅增加
理论洞察

更大的压缩率 ≠ 更高的计算精度

NTP的本质是最大化压缩率(基于信息论的联合概率建模)。大模型压缩率更高(更接近原始分布),但对于数学等需要精确计算的任务,我们要的是算对而不是分布更接近。这两个优化目标存在根本性的gap。

这个分析自然指向了解决方案:如果NTP(最大化压缩率)和任务目标(算对)之间存在gap,那就直接优化任务目标——这正是RL的核心思想。

张祥雨
这可能直接指向了我们做Next Token Prediction这样一个本质的缺陷。

九、O系列的真正突破:反思Pattern

张祥雨详细解构了O系列(如o1)为什么成功,给出了和主流叙事不同的深层分析。

语言模型上做RL的独特性

与传统RL的本质区别

  • 传统RL(打游戏、下棋):奖励稀疏、难以估计,随机操作几乎不可能通关
  • 语言模型RL:因为有预训练,动作空间被极大压缩。对于一个4-5千token长度的数学序列,真正影响结果的Critical Decision不超过10个,其余token几乎是自动确定的
  • 这意味着:即便是很难的题目,随机roll 100次也可能有几次完全做对——这在传统RL中是不可想象的

为什么早期Rule-based RL效果有限

张祥雨指出,早期(2024年初)大量团队尝试Rule-based RL但收益有限。原因在于:模型在Critical Token处面临的选择,其复杂度超过了单个token的计算上限。比如某道数学题,在某一步走A分支还是B分支,需要复杂的推导才能判断。模型做10遍可能6遍选对4遍选错——但因为数据集中可能存在数字不同但结构相似的题目,那道题反而是选另一个分支才对,所以模型永远无法达到100%

O系列的突破

引入反思 = 允许两条分支都走

O系列最了不起的一点:如果模型在Critical Token处不确定该走哪条分支,那就两条都走——走到底发现不对就回退。这就是反思(Reflection)的核心动机。O系列本质是一种Meta-CoT——用CoT的CoT在多种思考模式之间自由切换。

反思Pattern的惊人泛化性

张祥雨
我故意只在纯数学数据上训了一个O-like模型,然后测试古诗词创作。结果它激发出了跟解数学题非常类似的思考——先给一个draft,逐一检查哪些不满足格律和押韵要求,再一个个替换。替换后句子不通了,就把前后两句全部推翻重来。

Pattern泛化的六种模式

Pattern描述
反思(Reflection)发现错误后回退到上一步,换方向继续
验算(Verification)用不同方法验证同一个结果
大循环推翻前面所有工作,从头重新开始
审题多次比对题目要求,确认是否符合
换方法原方法走不通时切换到完全不同的解法
分步检查逐步检查每一步是否满足约束条件

泛化的来源:预训练语料

为什么O系列能泛化,而非无中生有

张祥雨发现,O系列激发出的反思pattern在预训练语料中本来就存在——虽然数量很少,但散布在不同领域。比如Math StackOverflow上的高赞回答,经常展示"先尝试、发现不对、换方向"的思考过程。中国论坛反而喜欢"注意到"式写法,把脚手架拆掉显得自己很厉害——这对模型训练是灾难,因为隐藏了真实的思考过程。RL在Cold Start阶段注入这些pattern,然后通过强化把预训练中散布各处的相关语料融会贯通

O系列泛化的边界:博弈类问题

张祥雨也找到了纯数学训练无法泛化的领域——博弈。比如斗地主残局,模型完全不得要领,出现大量低级错误。原因是博弈类需要min-max思维模式(从对手最优解中最小化损失),这种pattern在数学训练中未被激发。但一旦合成博弈类训练数据,模型很快就能学会。

十、视觉空间的慢思考与CoT

将O系列的insight应用回多模态领域——张祥雨发现了一个困难但清晰的方向。

为什么需要视觉空间的CoT

当前O系列的思维链全部是文本形式。但很多问题必须在图像空间上做推理——数数、走迷宫、连线、读图表、读钟表——这些对人类非常简单,但对模型很难。人类做这些事时会在图上圈点批注、用视线和注意力转移来辅助推理。

视觉CoT的尝试与失败

做了半年的实验

  • 设计了在图上圈点批注的动作空间(打点、连线、标记、甚至允许撤销)
  • 用Rule-based RL鼓励正确答案、抑制错误答案
  • 结果:不是完全没效果,确实能解决特定类问题
  • 完全没有语言模型上那种强大的泛化性——造什么数据只能解那一类

失败的根本原因

张祥雨
在图上圈点批注这些,全部都是我们拿程序人工合成的数据。它的pattern过于固定,而在预训练语料中,非常精细化的圈点批注(比如数学推导一步步画图)这类数据是绝对没有的。所以我们造的东西只能代表它自己,没有能力激发预训练语料中广泛的pattern。

O3的启示:简单但有效

O3支持图像输入的长思维链,但只对原图做非常简单的编辑——crop、resize等。看起来很原始,但效果远好于张祥雨精心设计的方案。原因是:这些简单操作在预训练语料中大量存在(如电子维修论坛上局部放大指出故障点),严格遵守了预训练分布。

一个深刻的教训

RL这一步并不能无中生有——所有的知识和能力都已经在预训练分布中。你的动作空间设计再科学,如果预训练语料中没有对应的pattern,就无法激发泛化。这既是约束,也是方向——如何扩充预训练语料中的视觉推理pattern,成为关键瓶颈。

十一、多模态的GPT-4时刻:生成+理解一体化

张祥雨描绘了他理解的多模态"GPT-4时刻"——一个清晰但尚需突破的路线图。

当前图像生成的根本问题:没有CoT

核心判断

图像生成落后语言模型两代

不管是Auto-Regressive还是Diffusion,当前的图像生成本质上都是"一口报"模式——相当于语言模型最原始的形态(没有CoT、更没有Meta-CoT)。Diffusion虽然是多步过程,但语义在某一步就已经完全确定,剩下都是补细节。Auto-Regressive是"落子无悔"——单步计算复杂度远不够完成生成任务。

张祥雨
人类画画的时候严格遵守语义理解——从轮廓到关键元素到上色到渲染。不像降噪过程,你很难说哪一步在做语义。所以生成这边最大的问题是缺少CoT,甚至缺少Meta-CoT。它不止没有我说的Meta-CoT,它连CoT都没有。

两条并行路线

路线一:扩充预训练语料

  • 引入教学视频——有丰富的"思考过程"(激光笔指点、打草稿、连辅助线等)
  • 难点:视频数据清洗极难,信息密度低,文本部分不丰富
  • 与语言模态的对齐也是大挑战

路线二:可控生成先行

  • 限制问题Domain到"一口报"可解范围
  • 严格控制数据难度——无需推理的指令型问题
  • 如"把A连到B"、"移除某个人"等简单编辑
  • 已有鼓舞人心的进展:简单指令可做得很好

GPT-4时刻的愿景

一旦可控生成搞定

有了初步的指令型可控生成模型后,可以在任何需要的地方产生视觉输出。思维链中间可以是图像——需要空间想象或画草图才能解决的问题就变得可做。更关键的是:理解和生成的统一——最后一步输出文字就是理解,输出图就是生成,中间的思维链全部是图文混合。

张祥雨
这个还是很兴奋的。我很乐观。前置技术看起来都已经ready。

张祥雨预判:多模态推理的GPT-4时刻可能在一年以内到来

十二、Long Context的根本问题

张祥雨对当前Long Context方向提出了尖锐的批评,认为主流的做法存在根本性的方向错误。

Transformer Context的问题

三大缺陷

  • 不做压缩:Context大小随数据增长同比增长,没有任何压力或动力做信息提炼——但"压缩才能产生智能"
  • 上下文干扰:连续做100-200道题时,越往后性能急剧下降。分析attention可以看到注意力涣散——太多相似context未清空导致严重干扰
  • Retrieval任务的反作用:大海捞针等benchmark反而训练模型"一点都不能忘"——这不是智能的表现,而是智能的倒退
张祥雨
Context只解决了"我把信息装下"这个问题,但没有解决"我能从信息里获得什么"。而且随着context增长,模型性能反而下降了。
人类记忆分层 vs Transformer Context建模

十三、人脑记忆分层与Multi-Agent架构

张祥雨从人类记忆系统出发,提出了一个全新的架构方向。

人类记忆的三层架构

层级时长特性类比
短期记忆(Working Memory)2-4秒无损精确,但极短暂(如抄电话号码)约30万token
中期记忆(海马体记忆)天到星期级有遗忘、抓重点、通过反复刺激增强(如程序员第二天能接续前一天的工作)人类工作学习的核心
长期记忆永久经反复刺激固化,一辈子不忘模型参数

反观Transformer:似乎只有短期记忆,但又太长了(动辄十万百万千万token)。没有中期记忆的"选择性遗忘"和"重点提炼"能力。

双模型协作架构

架构提案

Plan模型 + 执行模型

张祥雨提出用两个模型协作替代超长Context:Plan模型负责全局搜索和策略制定(只需记住摘要信息),执行模型负责具体推理演算(只需当前分支的必要信息,历史可以清空)。这就像人类做数学题——探索一条路径发现不通后,不需要对那条路径念念不忘,只需要Plan层面知道"此路不通"即可。

核心优势

  • 如果搜索树是二叉树展开,原来需要上千万token,现在Plan层面只需log级的context
  • 避免了上下文干扰——执行模型每次启动都是干净的context
  • 关键突破:这套系统可以端到端训练——通过RL,两个模型自主学习如何协作
张祥雨
很多人看不起这个说这不就是Pipeline吗。但今天有了RL和CoT这套范式,这一套系统可以端到端训练。它完全会adapt到自己的pattern。它对上下文的使用比你直接塞到一个上下文里强大得多。

未来:功能分化的多模型系统

张祥雨预测,未来的智能系统很可能由多个基础LM/VLM组成,在训练过程中逐渐产生功能分化——有的专注记忆、有的专注计划、有的专注执行——类似人脑的不同脑区。这种分工不是预设的,而是RL训练中为了满足context约束自发涌现的。

十四、自主学习与在线学习:下一个GPT-4时刻

张祥雨认为,当前RL范式面临的最大问题是Environment Scaling——你需要人工搭建海量的评估环境,这既昂贵又不可持续。而真正的突破在于自主学习

当前Rule-based RL的瓶颈

当前RL的做法

  • 每个编程project需要搭一套Docker + 测试数据
  • 大量工程师一个个写project
  • 环境不可Scale Up
  • 评价信号是外界给定的Rule
  • "相当于一个KPI驱动的系统"

人类的学习方式

  • 自己看文章、自己搭环境
  • 从环境反馈中自主获得学习信号
  • 评价标准不是简单的0/1
  • 有自驱力和内生动机
  • "人不是做每件事都服务于KPI"

从自然语言反馈中学习的困境

张祥雨
老师说:你第一段写得不错,第二段修辞用得有点过,第三段跟上下文衔接不太行,第四段有错别字,整体读起来略显干涩。但我们今天的RL怎么做?把每条评价加个权,算了个3分。完全丢失了丰富的评价维度。模型根本不知道这个数字怎么算的,只能猜——通过大量样本去猜打分规则。

自主学习的两个前置技术

需要突破的关键能力

  • 无限长Context的建模:真实环境是无限长、动态的、没有稳态的界面
  • 从自然语言/非结构化反馈中学习:如何设计内生奖励(Intrinsic Reward),而非依赖外界的Rule-based评价

张祥雨预判:自主学习/在线学习的突破可能在两年以内

十五、OpenAI五级分类法的重新解读

张祥雨对OpenAI的AI五级分类法给出了一个独特的解读,认为每一级的跃迁都需要全新算法的产生。

级别OpenAI定义张祥雨的解读核心算法
Level 1Chatbot基于Next Token Prediction的对话系统NTP
Level 2Reasoner以思维链和RL为核心,推理能力持续ScalingCoT + RL
Level 3Agent不是今天说的Agent应用,而是需要自主在线学习能力自主学习 + 内生奖励

三代Agent的区分

LangChain时代的Agent

本质是NTP时代的工具——通过Prompt Engineering把几个流程糊起来,是handcraft的pipeline

当前Reasoner时代的Agent

模型主动调用工具——不是靠prompt激发,而是RL自主学习:调了更好就调,调了不如不调就不调。核心是Function Call和Long CoT的结合。

真正的Level 3 Agent

需要自主在线学习——自己找目标、自己搭环境、从环境反馈中自我进化。当前系统不管NTP还是RL,训练结束后就不能再improve,这是根本局限。

架构不重要,算法才重要

张祥雨反复强调:架构是服务算法的。Linear Transformer之所以存在,是因为NTP需要并行化,对RNN结构提出了可分离性要求。如果算法改变(比如Hinton的Forward-Forward Algorithm),完全可以用普通RNN,甚至可以直接实现在线学习——不需要区分Training和Inference阶段。

十六、关键数据与技术路线汇总

判断具体内容
张祥雨论文引用超过37万,新一代华人AI科学家中口碑最佳
Step 2模型规模万亿参数,激活200B+,训练耗时9个月+
大模型数学退化模型从1B到70B+,数学能力先上升后平缓再下降
Critical Decision数量4-5千token的数学序列中,不超过10个关键分叉点
对比学习/MAE评价本质是学习handcraft不变性,无Scale Up特性
生成与理解一体化做了大半年未成功,根因是生成缺少CoT
中国论坛语料问题喜欢"注意到"式写法,隐藏思考过程,对模型训练是灾难
视觉CoT实验做了半年,能解特定问题但无泛化性——因预训练语料中缺少此类pattern
多模态GPT-4时刻预计一年以内——前置技术已ready
自主学习突破预计两年以内——需解决从自然语言反馈中学习
当前生成模型状态相当于语言模型"一口报"的原始形态,落后两代
Transformer短期记忆人类Working Memory约2-4秒/30万token
O系列核心不是算法创新,而是反思Pattern的注入——"Pattern is all you need"
RL在语言模型的特殊性预训练极大压缩动作空间,使随机探索也有不低的成功率
AI算法演进路线:两根轴的螺旋上升

启示与延伸思考

1. "更大的模型数学反而更差"——Scaling Law的隐藏裂缝

张祥雨从实验中发现:模型参数超过一定规模后,推理能力(尤其数学)反而下降。这不是训练不充分,而是NTP的压缩率目标与精确计算目标之间的根本性gap。大模型倾向于"跳步"直接报答案(更接近训练数据分布),但跳步就会出错。这个发现意味着:仅仅Scale Up模型参数不一定能通向更强的推理能力,RL等面向目标的优化方法是必要的补充。

2. 静态图像上不可能产生智能——一个被低估的判断

张祥雨的"三重隔离"理论(生成、理解、人类对齐在图像上是分离的)为多模态研究提供了清晰的方向指引。纯视觉自监督学习(不管是对比学习还是MAE)走不通,因为图像不包含人类理解信息——这些信息需要通过文字对齐或视频中的时序关系来注入。这解释了为什么图文混排训练(而非纯视觉预训练)成为多模态模型的主流路线。

3. RL不能无中生有——预训练是一切的根基

张祥雨最深刻的insight之一:RL的泛化能力完全依赖预训练语料中是否存在对应的pattern。O系列的反思能力之所以能泛化到诗词、博弈等领域,是因为预训练语料中散布着类似的思考过程(虽然稀少)。他在视觉CoT上的失败也验证了这一点——人工合成的圈点批注数据在预训练中没有对应物,所以无法泛化。这意味着预训练数据的质量和多样性仍然是AI能力的根本约束

4. 图像生成落后语言模型两代——一个被忽视的Gap

当语言模型已经进化到Meta-CoT(O系列的反思推理)时,图像生成还停留在"一口报"时代。不管是Diffusion还是Auto-Regressive,都没有CoT——单步生成的复杂度上限远不够处理复杂场景。人类画画是从轮廓到细节、从草稿到精修,但Diffusion的降噪过程和这种语义结构毫无对应关系。这个gap的弥合可能就是多模态GPT-4时刻的核心。

5. Long Context是错误方向——"压缩才能产生智能"

张祥雨直接批评了当前追求更长Context的方向:无损存储所有信息阻碍而非促进智能。人脑的记忆机制是分层的、有选择性遗忘的、基于重要性筛选的。他提出的双模型协作架构(Plan + 执行)用log级的Context替代千万级的Context,而且可以通过RL端到端训练。这个架构可能比Linear Transformer等注意力改造方案更具前景。

6. 中国论坛的"注意到"式写法是训练数据的灾难

一个小但深刻的观察:中国数学论坛喜欢把推导过程压缩为"注意到...因此...",隐藏真实的探索和试错过程。而Math StackOverflow上的高赞回答经常展示完整的思考脉络(尝试、发现不对、换方向)。这些带有反思过程的语料是O系列泛化的根基。这对中文AI模型的训练数据策略有直接启示:需要刻意保留甚至鼓励"展示思考过程"的语料。

7. 未来两年的两个GPT-4时刻——一个清晰的技术路线图

张祥雨给出了明确的预测:(1)一年以内:多模态推理的GPT-4时刻——生成与理解一体化,思维链中可以包含视觉输出;(2)两年以内:自主学习/在线学习的突破——模型能从自然语言反馈中学习,具备内生的自我改进能力。如果这两个预测成立,2026-2027年将是AI能力的又一次质变期。

8. OpenAI五级分类的算法视角——每一级需要新算法

张祥雨的重新解读揭示了一个深层逻辑:从Chatbot到Reasoner到Agent,每一级的跃迁都需要全新的算法突破,而非现有技术的渐进改进。Level 1是NTP,Level 2是CoT+RL,Level 3需要自主学习+内生奖励。当前市面上大量的"Agent应用"仍然是Level 2范畴的产物(RL驱动的工具调用),离真正的Level 3(自主在线学习、自己找目标)还有本质差距。

延伸阅读