深度研究 — #102 张祥雨：多模态研究的挣扎史和未来两年的2个"<a href="https://arxiv.org/abs/2303.08774" target="_blank" style="color:#667eea;text-decoration:none;border-bottom:1px dashed #667eea;">GPT-4</a>时刻"

张祥雨的学术主线：从ResNet到NAS
CV的"GPT时刻"为何迟迟不来
对比学习与MAE的本质缺陷
静态图像的三重隔离
多模态大模型的第一次尝试
生成与理解一体化的困境
万亿参数模型的诡异发现
Next Token Prediction的本质缺陷
O系列的真正突破：反思Pattern
视觉空间的慢思考与CoT
多模态的GPT-4时刻：生成+理解一体化
Long Context的根本问题
人脑记忆分层与Multi-Agent架构
自主学习与在线学习：下一个GPT-4时刻
OpenAI五级分类法的重新解读
关键数据与技术路线汇总

一、张祥雨的学术主线：从ResNet到NAS

张祥雨是阶跃星辰首席科学家，总论文引用超过37万，这是他人生第一次公开访谈。广密透露：在AI圈子里询问"新一代华人AI科学家谁最牛"，张祥雨的名字被提及最多。

Model Scaling时代（2012-2016）

张祥雨的研究起步于深度学习爆发的2012年。当时AlexNet的成功本质上是Scaling——同时Scale模型、数据和算力。ImageNet提供了120多万数据（Data Scaling已解决），CUDA性能成熟（算力Scaling已解决），核心瓶颈变成了Model Scaling。

三个维度的Model Scaling

宽度Scaling：会遇到梯度爆炸/Vanishing问题，提出MSRA Init解决
深度Scaling：最困难——之前的模型超过十几层效果急剧下降。提出ResNet（残差网络），可将网络从十几层扩展到几十层、上百层甚至上千层
分辨率Scaling：视觉信号特有的维度

核心洞察

架构设计的悖论

张祥雨提出一个关键判断：对于大模型，架构设计的细节其实不重要，大方向对了即可（比如只要用了ResNet，层间怎么连接差别不大）。但一旦把计算quota缩小（如部署到端侧），模型架构的细节设计就变得极其重要——不同硬件上的执行效率差异巨大。这驱动了他后来转向NAS（神经网络架构搜索），2019年提出SPOS方法，可以针对特定硬件自动搜索最优模型。

37万+

总论文引用数

ResNet

代表作：残差网络

SPOS

2019年NAS方法

二、CV的"GPT时刻"为何迟迟不来

到2019年，NLP领域已经通过BERT和GPT打通了"不需要人工标注、数据越多效果越好"的路径，但CV领域迟迟没有经历类似的突破。张祥雨详细分析了这个差距的根源。

NLP为什么率先成功

NLP突破的关键

发现了不需要label的训练方式（BERT的完形填空、GPT的Next Token Prediction）
数据可以无限扩展——互联网上有海量自然语料
数据越多，模型通过上游task学到的表征越强，下游任务效果越好
GPT3进一步通过In-Context Learning统一了众多下游task

CV的困境

2019年下半年，对比学习（Contrastive Learning）的突破（如MoCo、CMCR）让CV社区看到了希望——自监督学习的效果开始逼近全监督。但张祥雨和业界花了大量精力研究后发现：这些方法只在小模型上管用，没有Scale Up的特性。一旦模型变大，效果就快速饱和。

张祥雨

到22年的时候，尤其看了两篇paper以后——一篇是关于思维链的发现，另一篇是关于涌现性——我大受震撼。因为我感觉我研究了这么多年，都还停留在表征这个层面，但做NLP的同行们已经开始在研究推理，已经在研究更高级别的智能特性。

三、对比学习与MAE的本质缺陷

张祥雨在2021年底就想明白了对比学习和MAE为什么不work，并在2022年初发表了观点文章。这个分析直指问题本质。

对比学习（Contrastive Learning）

本质是学习一种不变性
但这种不变性不是数据驱动的，而是人工handcraft的augmentation赋予
设计了什么不变性（旋转、color、multi-crop），特征就只满足那几个不变性
只需少量数据就能学会，之后没有信息增量
所以当然没有Scale Up效果

MAE/MIM

学到的是遮挡不变性（mask掉一部分还能还原）
遮挡不变性确实很重要（人类认识事物的必要条件）
但只是必要条件而非充分条件
即使数据量扩大，学习的仍然只是这一种不变性
没有从数据中激发出更多的不变性

核心对比

NLP vs CV：为什么NLP能learn from data

NLP的关键优势：模型真正做到了learn from data。更高质量的语料 = 更好的知识压缩 = 更强的表征。CV的方法（不管是对比学习还是MAE）本质上都在学习人工设计的某种不变性，这和早期手工设计特征的路线殊途同归。张祥雨2022年初发表的这个观点当时受到不少批评，但现在看来这条路线确实走的人很少。

四、静态图像的三重隔离

张祥雨提出了一个深刻的理论框架：从生成、理解、人类对齐三个维度，分析为什么纯视觉很难通向智能。

自然语言：三位一体

语言的自闭环特性

生成：GPT本身就是生成模型，当然可以生成
理解：建模了联合概率分布后，通过条件概率实现理解——给定前文，模型输出的后文条件概率包含了对前文的理解
人类对齐：训练语料来自人类自然语料，建模分布自然就与人类对齐
三者是合三为一的——只需要做一个生成模型，就同时拥有了生成、理解和人类对齐

静态图像：三重隔离

维度	自然语言	静态图像
生成	生成模型天然支持	可以做（Diffusion等），但与理解割裂
理解	建模联合概率 = 理解	建模像素联合分布不等于人类理解——图像是大自然创造的，不包含人类理解信息
人类对齐	语料来自人类，自然对齐	图像来自大自然，一定不是对齐的

张祥雨

图像是大自然创造的，它不管你人类对它怎么理解，它就在那里。所以这张图像不必然包括人类对它的理解，它缺少了这类信息。

这个发现的深远影响

2022年，张祥雨基于这个分析，基本停止了对静态图像和纯视觉表征的研究。他构思了两条路线：短期利用图文交错数据，借助文字的"自闭环"特性让图像也获得智能能力；长期通过视频甚至具身系统挖掘视觉智能。这个框架成为后来多模态大模型的研究基础。

语言 vs 视觉：生成-理解-对齐三维能力对比

五、多模态大模型的第一次尝试

2023年，张祥雨团队做了第一代多模态模型（Step 1），约千亿参数，从预训练最开始就将图文混排数据加入，采用"遇到文字预测文字、遇到图像预测图像"的方式。

Step 1的效果

好消息与坏消息

文字部分：与纯文字训练效果差不多
图像理解：效果尤其好——图像与文字对齐得非常好，相容性极高。比如把文字写到图片上，针对图上文字提问和用OCR提取后提问效果几乎一样
图像生成：效果特别差——虽然外挂了预训练的Diffusion模块，但语言部分对视觉部分的控制能力非常差
更有意思的是：去掉生成部分后，完全不影响理解部分——说明生成部分可能根本没有发挥作用

张祥雨

这就让我意识到，这件事情其实可能没有那么简单。就是说图像和视频，看起来你是强行把生成和理解做到了一个系统，但从实际效果来看，它完全没有达到语言的生成和理解完全融合到一起这样的特性。

张祥雨注意到，同时期的GPT-4V也没有实现理解和生成的一体化，也是通过外挂DALL-E的方式。这说明这不是个工程问题，而是有更深层的原因。

六、生成与理解一体化的困境

整个2024年，张祥雨尝试了一个精巧的迭代方案来弥合生成与理解之间的鸿沟，但最终做了大半年没有成功。

迭代对齐方案

步骤一：理解模型给生成模型打标

用最新版的理解模型为图像打标注，构造更好的训练数据训练生成模型。

步骤二：生成模型反哺理解模型

将生成模型外挂到理解模型，生成模型提供梯度指导理解模型更新。

步骤三：期望收敛

经过多轮迭代，两个domain的gap逐渐缩小，最终在某个时刻可以放在一起训练。

实际结果：失败

得到了越来越强的理解模型和越来越强的生成模型——但放在一起后没有1+1>2的效果。摘掉任何一个，另一个效果不受影响。

生成可控性差的深层原因

理解对生成的控制失败

生成模型经常产生肢体畸变、违反几何关系的图像
视频生成中大量违反物理规律的内容被生成
讽刺的是：把这些错误图像送给理解模型，它能准确指出不符合常识
模型"自己都知道不对，但自己无法控制住自己"——生成不出符合物理常识的内容

七、万亿参数模型的诡异发现

2024年初，张祥雨团队启动了万亿参数的Step 2模型（激活200多B），这是一个"巨无霸"。整个项目前后做了9个多月，期间发现了一个业界当时还未广泛讨论的诡异现象。

万亿

Step 2参数量

200B+

激活参数量

9个月+

项目周期

Scaling的反直觉现象

关键发现

模型越大，数学能力反而下降

Step 2在文科类（写作、情商、知识量）上极强，但在理科类尤其是数学上，表现还不如7B模型。经过从1B到7B到30B到70B的严谨对照实验，确认了：模型的通用对话能力和情商确实随参数增大而增强，但推理能力尤其是数学能力呈现先上升后平缓再下降的曲线。

蛛丝马迹：大模型为什么跳步

张祥雨

更大的模型在做数学题时更倾向于跳步。小模型虽然能力很弱，但处理简单算式时会老老实实一步一步算。大模型总是写了三个数相加，直接一口报出最后的结果。虽然大部分情况都对，但就有那么少量的情况是错的。数学题你错一步，最终结果就完全是错的。

模型参数量 vs 能力表现（示意）

八、Next Token Prediction的本质缺陷

张祥雨对"大模型跳步"现象进行了深入分析，得出了一个指向NTP根本缺陷的结论。

思想实验：压缩率 vs 计算精度

关键矛盾

假设数据集中有50%的加法数据是"直接报结果"（互联网数据），50%是"一步步计算"（精心清洗的数据）。NTP的最优解是：以50%概率直接报结果，50%概率逐步计算。

小模型：参数量有限，无法拟合"直接报结果"这种复杂函数，最终只学会逐步计算 -- 反而几乎不会出错
大模型：有能力直接报结果，确实大概率是对的（如90%），但剩余10%会出错。对于多步数学推理，每步10%的错误累积后，整体错误率大幅增加

理论洞察

更大的压缩率 ≠ 更高的计算精度

NTP的本质是最大化压缩率（基于信息论的联合概率建模）。大模型压缩率更高（更接近原始分布），但对于数学等需要精确计算的任务，我们要的是算对而不是分布更接近。这两个优化目标存在根本性的gap。

这个分析自然指向了解决方案：如果NTP（最大化压缩率）和任务目标（算对）之间存在gap，那就直接优化任务目标——这正是RL的核心思想。

张祥雨

这可能直接指向了我们做Next Token Prediction这样一个本质的缺陷。

九、O系列的真正突破：反思Pattern

张祥雨详细解构了O系列（如o1）为什么成功，给出了和主流叙事不同的深层分析。

语言模型上做RL的独特性

与传统RL的本质区别

传统RL（打游戏、下棋）：奖励稀疏、难以估计，随机操作几乎不可能通关
语言模型RL：因为有预训练，动作空间被极大压缩。对于一个4-5千token长度的数学序列，真正影响结果的Critical Decision不超过10个，其余token几乎是自动确定的
这意味着：即便是很难的题目，随机roll 100次也可能有几次完全做对——这在传统RL中是不可想象的

为什么早期Rule-based RL效果有限

张祥雨指出，早期（2024年初）大量团队尝试Rule-based RL但收益有限。原因在于：模型在Critical Token处面临的选择，其复杂度超过了单个token的计算上限。比如某道数学题，在某一步走A分支还是B分支，需要复杂的推导才能判断。模型做10遍可能6遍选对4遍选错——但因为数据集中可能存在数字不同但结构相似的题目，那道题反而是选另一个分支才对，所以模型永远无法达到100%。

O系列的突破

引入反思 = 允许两条分支都走

O系列最了不起的一点：如果模型在Critical Token处不确定该走哪条分支，那就两条都走——走到底发现不对就回退。这就是反思（Reflection）的核心动机。O系列本质是一种Meta-CoT——用CoT的CoT在多种思考模式之间自由切换。

反思Pattern的惊人泛化性

张祥雨

我故意只在纯数学数据上训了一个O-like模型，然后测试古诗词创作。结果它激发出了跟解数学题非常类似的思考——先给一个draft，逐一检查哪些不满足格律和押韵要求，再一个个替换。替换后句子不通了，就把前后两句全部推翻重来。

Pattern泛化的六种模式

Pattern	描述
反思（Reflection）	发现错误后回退到上一步，换方向继续
验算（Verification）	用不同方法验证同一个结果
大循环	推翻前面所有工作，从头重新开始
审题	多次比对题目要求，确认是否符合
换方法	原方法走不通时切换到完全不同的解法
分步检查	逐步检查每一步是否满足约束条件

泛化的来源：预训练语料

为什么O系列能泛化，而非无中生有

张祥雨发现，O系列激发出的反思pattern在预训练语料中本来就存在——虽然数量很少，但散布在不同领域。比如Math StackOverflow上的高赞回答，经常展示"先尝试、发现不对、换方向"的思考过程。中国论坛反而喜欢"注意到"式写法，把脚手架拆掉显得自己很厉害——这对模型训练是灾难，因为隐藏了真实的思考过程。RL在Cold Start阶段注入这些pattern，然后通过强化把预训练中散布各处的相关语料融会贯通。

O系列泛化的边界：博弈类问题

张祥雨也找到了纯数学训练无法泛化的领域——博弈。比如斗地主残局，模型完全不得要领，出现大量低级错误。原因是博弈类需要min-max思维模式（从对手最优解中最小化损失），这种pattern在数学训练中未被激发。但一旦合成博弈类训练数据，模型很快就能学会。

十、视觉空间的慢思考与CoT

将O系列的insight应用回多模态领域——张祥雨发现了一个困难但清晰的方向。

为什么需要视觉空间的CoT

当前O系列的思维链全部是文本形式。但很多问题必须在图像空间上做推理——数数、走迷宫、连线、读图表、读钟表——这些对人类非常简单，但对模型很难。人类做这些事时会在图上圈点批注、用视线和注意力转移来辅助推理。

视觉CoT的尝试与失败

做了半年的实验

设计了在图上圈点批注的动作空间（打点、连线、标记、甚至允许撤销）
用Rule-based RL鼓励正确答案、抑制错误答案
结果：不是完全没效果，确实能解决特定类问题
但完全没有语言模型上那种强大的泛化性——造什么数据只能解那一类

失败的根本原因

张祥雨

在图上圈点批注这些，全部都是我们拿程序人工合成的数据。它的pattern过于固定，而在预训练语料中，非常精细化的圈点批注（比如数学推导一步步画图）这类数据是绝对没有的。所以我们造的东西只能代表它自己，没有能力激发预训练语料中广泛的pattern。

O3的启示：简单但有效

O3支持图像输入的长思维链，但只对原图做非常简单的编辑——crop、resize等。看起来很原始，但效果远好于张祥雨精心设计的方案。原因是：这些简单操作在预训练语料中大量存在（如电子维修论坛上局部放大指出故障点），严格遵守了预训练分布。

一个深刻的教训

RL这一步并不能无中生有——所有的知识和能力都已经在预训练分布中。你的动作空间设计再科学，如果预训练语料中没有对应的pattern，就无法激发泛化。这既是约束，也是方向——如何扩充预训练语料中的视觉推理pattern，成为关键瓶颈。

十一、多模态的GPT-4时刻：生成+理解一体化

张祥雨描绘了他理解的多模态"GPT-4时刻"——一个清晰但尚需突破的路线图。

当前图像生成的根本问题：没有CoT

核心判断

图像生成落后语言模型两代

不管是Auto-Regressive还是Diffusion，当前的图像生成本质上都是"一口报"模式——相当于语言模型最原始的形态（没有CoT、更没有Meta-CoT）。Diffusion虽然是多步过程，但语义在某一步就已经完全确定，剩下都是补细节。Auto-Regressive是"落子无悔"——单步计算复杂度远不够完成生成任务。

张祥雨

人类画画的时候严格遵守语义理解——从轮廓到关键元素到上色到渲染。不像降噪过程，你很难说哪一步在做语义。所以生成这边最大的问题是缺少CoT，甚至缺少Meta-CoT。它不止没有我说的Meta-CoT，它连CoT都没有。

两条并行路线

路线一：扩充预训练语料

引入教学视频——有丰富的"思考过程"（激光笔指点、打草稿、连辅助线等）
难点：视频数据清洗极难，信息密度低，文本部分不丰富
与语言模态的对齐也是大挑战

路线二：可控生成先行

限制问题Domain到"一口报"可解范围
严格控制数据难度——无需推理的指令型问题
如"把A连到B"、"移除某个人"等简单编辑
已有鼓舞人心的进展：简单指令可做得很好

GPT-4时刻的愿景

一旦可控生成搞定

有了初步的指令型可控生成模型后，可以在任何需要的地方产生视觉输出。思维链中间可以是图像——需要空间想象或画草图才能解决的问题就变得可做。更关键的是：理解和生成的统一——最后一步输出文字就是理解，输出图就是生成，中间的思维链全部是图文混合。

张祥雨

这个还是很兴奋的。我很乐观。前置技术看起来都已经ready。

张祥雨预判：多模态推理的GPT-4时刻可能在一年以内到来。

十二、Long Context的根本问题

张祥雨对当前Long Context方向提出了尖锐的批评，认为主流的做法存在根本性的方向错误。

Transformer Context的问题

三大缺陷

不做压缩：Context大小随数据增长同比增长，没有任何压力或动力做信息提炼——但"压缩才能产生智能"
上下文干扰：连续做100-200道题时，越往后性能急剧下降。分析attention可以看到注意力涣散——太多相似context未清空导致严重干扰
Retrieval任务的反作用：大海捞针等benchmark反而训练模型"一点都不能忘"——这不是智能的表现，而是智能的倒退

张祥雨

Context只解决了"我把信息装下"这个问题，但没有解决"我能从信息里获得什么"。而且随着context增长，模型性能反而下降了。

人类记忆分层 vs Transformer Context建模

十三、人脑记忆分层与Multi-Agent架构

张祥雨从人类记忆系统出发，提出了一个全新的架构方向。

人类记忆的三层架构

层级	时长	特性	类比
短期记忆（Working Memory）	2-4秒	无损精确，但极短暂（如抄电话号码）	约30万token
中期记忆（海马体记忆）	天到星期级	有遗忘、抓重点、通过反复刺激增强（如程序员第二天能接续前一天的工作）	人类工作学习的核心
长期记忆	永久	经反复刺激固化，一辈子不忘	模型参数

反观Transformer：似乎只有短期记忆，但又太长了（动辄十万百万千万token）。没有中期记忆的"选择性遗忘"和"重点提炼"能力。

双模型协作架构

架构提案

Plan模型 + 执行模型

张祥雨提出用两个模型协作替代超长Context：Plan模型负责全局搜索和策略制定（只需记住摘要信息），执行模型负责具体推理演算（只需当前分支的必要信息，历史可以清空）。这就像人类做数学题——探索一条路径发现不通后，不需要对那条路径念念不忘，只需要Plan层面知道"此路不通"即可。

核心优势

如果搜索树是二叉树展开，原来需要上千万token，现在Plan层面只需log级的context
避免了上下文干扰——执行模型每次启动都是干净的context
关键突破：这套系统可以端到端训练——通过RL，两个模型自主学习如何协作

张祥雨

很多人看不起这个说这不就是Pipeline吗。但今天有了RL和CoT这套范式，这一套系统可以端到端训练。它完全会adapt到自己的pattern。它对上下文的使用比你直接塞到一个上下文里强大得多。

未来：功能分化的多模型系统

张祥雨预测，未来的智能系统很可能由多个基础LM/VLM组成，在训练过程中逐渐产生功能分化——有的专注记忆、有的专注计划、有的专注执行——类似人脑的不同脑区。这种分工不是预设的，而是RL训练中为了满足context约束自发涌现的。

十四、自主学习与在线学习：下一个GPT-4时刻

张祥雨认为，当前RL范式面临的最大问题是Environment Scaling——你需要人工搭建海量的评估环境，这既昂贵又不可持续。而真正的突破在于自主学习。

当前Rule-based RL的瓶颈

当前RL的做法

每个编程project需要搭一套Docker + 测试数据
大量工程师一个个写project
环境不可Scale Up
评价信号是外界给定的Rule
"相当于一个KPI驱动的系统"

人类的学习方式

自己看文章、自己搭环境
从环境反馈中自主获得学习信号
评价标准不是简单的0/1
有自驱力和内生动机
"人不是做每件事都服务于KPI"

从自然语言反馈中学习的困境

张祥雨

老师说：你第一段写得不错，第二段修辞用得有点过，第三段跟上下文衔接不太行，第四段有错别字，整体读起来略显干涩。但我们今天的RL怎么做？把每条评价加个权，算了个3分。完全丢失了丰富的评价维度。模型根本不知道这个数字怎么算的，只能猜——通过大量样本去猜打分规则。

自主学习的两个前置技术

需要突破的关键能力

无限长Context的建模：真实环境是无限长、动态的、没有稳态的界面
从自然语言/非结构化反馈中学习：如何设计内生奖励（Intrinsic Reward），而非依赖外界的Rule-based评价

张祥雨预判：自主学习/在线学习的突破可能在两年以内。

十五、OpenAI五级分类法的重新解读

张祥雨对OpenAI的AI五级分类法给出了一个独特的解读，认为每一级的跃迁都需要全新算法的产生。

级别	OpenAI定义	张祥雨的解读	核心算法
Level 1	Chatbot	基于Next Token Prediction的对话系统	NTP
Level 2	Reasoner	以思维链和RL为核心，推理能力持续Scaling	CoT + RL
Level 3	Agent	不是今天说的Agent应用，而是需要自主在线学习能力	自主学习 + 内生奖励

三代Agent的区分

LangChain时代的Agent

本质是NTP时代的工具——通过Prompt Engineering把几个流程糊起来，是handcraft的pipeline。

当前Reasoner时代的Agent

模型主动调用工具——不是靠prompt激发，而是RL自主学习：调了更好就调，调了不如不调就不调。核心是Function Call和Long CoT的结合。

真正的Level 3 Agent

需要自主在线学习——自己找目标、自己搭环境、从环境反馈中自我进化。当前系统不管NTP还是RL，训练结束后就不能再improve，这是根本局限。

架构不重要，算法才重要

张祥雨反复强调：架构是服务算法的。Linear Transformer之所以存在，是因为NTP需要并行化，对RNN结构提出了可分离性要求。如果算法改变（比如Hinton的Forward-Forward Algorithm），完全可以用普通RNN，甚至可以直接实现在线学习——不需要区分Training和Inference阶段。

十六、关键数据与技术路线汇总

判断	具体内容
张祥雨论文引用	超过37万，新一代华人AI科学家中口碑最佳
Step 2模型规模	万亿参数，激活200B+，训练耗时9个月+
大模型数学退化	模型从1B到70B+，数学能力先上升后平缓再下降
Critical Decision数量	4-5千token的数学序列中，不超过10个关键分叉点
对比学习/MAE评价	本质是学习handcraft不变性，无Scale Up特性
生成与理解一体化	做了大半年未成功，根因是生成缺少CoT
中国论坛语料问题	喜欢"注意到"式写法，隐藏思考过程，对模型训练是灾难
视觉CoT实验	做了半年，能解特定问题但无泛化性——因预训练语料中缺少此类pattern
多模态GPT-4时刻	预计一年以内——前置技术已ready
自主学习突破	预计两年以内——需解决从自然语言反馈中学习
当前生成模型状态	相当于语言模型"一口报"的原始形态，落后两代
Transformer短期记忆	人类Working Memory约2-4秒/30万token
O系列核心	不是算法创新，而是反思Pattern的注入——"Pattern is all you need"
RL在语言模型的特殊性	预训练极大压缩动作空间，使随机探索也有不低的成功率

AI算法演进路线：两根轴的螺旋上升

启示与延伸思考

1. "更大的模型数学反而更差"——Scaling Law的隐藏裂缝

张祥雨从实验中发现：模型参数超过一定规模后，推理能力（尤其数学）反而下降。这不是训练不充分，而是NTP的压缩率目标与精确计算目标之间的根本性gap。大模型倾向于"跳步"直接报答案（更接近训练数据分布），但跳步就会出错。这个发现意味着：仅仅Scale Up模型参数不一定能通向更强的推理能力，RL等面向目标的优化方法是必要的补充。

2. 静态图像上不可能产生智能——一个被低估的判断

张祥雨的"三重隔离"理论（生成、理解、人类对齐在图像上是分离的）为多模态研究提供了清晰的方向指引。纯视觉自监督学习（不管是对比学习还是MAE）走不通，因为图像不包含人类理解信息——这些信息需要通过文字对齐或视频中的时序关系来注入。这解释了为什么图文混排训练（而非纯视觉预训练）成为多模态模型的主流路线。

3. RL不能无中生有——预训练是一切的根基

张祥雨最深刻的insight之一：RL的泛化能力完全依赖预训练语料中是否存在对应的pattern。O系列的反思能力之所以能泛化到诗词、博弈等领域，是因为预训练语料中散布着类似的思考过程（虽然稀少）。他在视觉CoT上的失败也验证了这一点——人工合成的圈点批注数据在预训练中没有对应物，所以无法泛化。这意味着预训练数据的质量和多样性仍然是AI能力的根本约束。

4. 图像生成落后语言模型两代——一个被忽视的Gap

当语言模型已经进化到Meta-CoT（O系列的反思推理）时，图像生成还停留在"一口报"时代。不管是Diffusion还是Auto-Regressive，都没有CoT——单步生成的复杂度上限远不够处理复杂场景。人类画画是从轮廓到细节、从草稿到精修，但Diffusion的降噪过程和这种语义结构毫无对应关系。这个gap的弥合可能就是多模态GPT-4时刻的核心。

5. Long Context是错误方向——"压缩才能产生智能"

张祥雨直接批评了当前追求更长Context的方向：无损存储所有信息阻碍而非促进智能。人脑的记忆机制是分层的、有选择性遗忘的、基于重要性筛选的。他提出的双模型协作架构（Plan + 执行）用log级的Context替代千万级的Context，而且可以通过RL端到端训练。这个架构可能比Linear Transformer等注意力改造方案更具前景。

6. 中国论坛的"注意到"式写法是训练数据的灾难

一个小但深刻的观察：中国数学论坛喜欢把推导过程压缩为"注意到...因此..."，隐藏真实的探索和试错过程。而Math StackOverflow上的高赞回答经常展示完整的思考脉络（尝试、发现不对、换方向）。这些带有反思过程的语料是O系列泛化的根基。这对中文AI模型的训练数据策略有直接启示：需要刻意保留甚至鼓励"展示思考过程"的语料。

7. 未来两年的两个GPT-4时刻——一个清晰的技术路线图

张祥雨给出了明确的预测：（1）一年以内：多模态推理的GPT-4时刻——生成与理解一体化，思维链中可以包含视觉输出；（2）两年以内：自主学习/在线学习的突破——模型能从自然语言反馈中学习，具备内生的自我改进能力。如果这两个预测成立，2026-2027年将是AI能力的又一次质变期。

8. OpenAI五级分类的算法视角——每一级需要新算法

张祥雨的重新解读揭示了一个深层逻辑：从Chatbot到Reasoner到Agent，每一级的跃迁都需要全新的算法突破，而非现有技术的渐进改进。Level 1是NTP，Level 2是CoT+RL，Level 3需要自主学习+内生奖励。当前市面上大量的"Agent应用"仍然是Level 2范畴的产物（RL驱动的工具调用），离真正的Level 3（自主在线学习、自己找目标）还有本质差距。

多模态研究的挣扎史和未来两年的2个"GPT-4时刻"

目录