张祥雨是阶跃星辰首席科学家,总论文引用超过37万,这是他人生第一次公开访谈。广密透露:在AI圈子里询问"新一代华人AI科学家谁最牛",张祥雨的名字被提及最多。
张祥雨的研究起步于深度学习爆发的2012年。当时AlexNet的成功本质上是Scaling——同时Scale模型、数据和算力。ImageNet提供了120多万数据(Data Scaling已解决),CUDA性能成熟(算力Scaling已解决),核心瓶颈变成了Model Scaling。
张祥雨提出一个关键判断:对于大模型,架构设计的细节其实不重要,大方向对了即可(比如只要用了ResNet,层间怎么连接差别不大)。但一旦把计算quota缩小(如部署到端侧),模型架构的细节设计就变得极其重要——不同硬件上的执行效率差异巨大。这驱动了他后来转向NAS(神经网络架构搜索),2019年提出SPOS方法,可以针对特定硬件自动搜索最优模型。
到2019年,NLP领域已经通过BERT和GPT打通了"不需要人工标注、数据越多效果越好"的路径,但CV领域迟迟没有经历类似的突破。张祥雨详细分析了这个差距的根源。
2019年下半年,对比学习(Contrastive Learning)的突破(如MoCo、CMCR)让CV社区看到了希望——自监督学习的效果开始逼近全监督。但张祥雨和业界花了大量精力研究后发现:这些方法只在小模型上管用,没有Scale Up的特性。一旦模型变大,效果就快速饱和。
张祥雨在2021年底就想明白了对比学习和MAE为什么不work,并在2022年初发表了观点文章。这个分析直指问题本质。
NLP的关键优势:模型真正做到了learn from data。更高质量的语料 = 更好的知识压缩 = 更强的表征。CV的方法(不管是对比学习还是MAE)本质上都在学习人工设计的某种不变性,这和早期手工设计特征的路线殊途同归。张祥雨2022年初发表的这个观点当时受到不少批评,但现在看来这条路线确实走的人很少。
张祥雨提出了一个深刻的理论框架:从生成、理解、人类对齐三个维度,分析为什么纯视觉很难通向智能。
| 维度 | 自然语言 | 静态图像 |
|---|---|---|
| 生成 | 生成模型天然支持 | 可以做(Diffusion等),但与理解割裂 |
| 理解 | 建模联合概率 = 理解 | 建模像素联合分布不等于人类理解——图像是大自然创造的,不包含人类理解信息 |
| 人类对齐 | 语料来自人类,自然对齐 | 图像来自大自然,一定不是对齐的 |
2022年,张祥雨基于这个分析,基本停止了对静态图像和纯视觉表征的研究。他构思了两条路线:短期利用图文交错数据,借助文字的"自闭环"特性让图像也获得智能能力;长期通过视频甚至具身系统挖掘视觉智能。这个框架成为后来多模态大模型的研究基础。
2023年,张祥雨团队做了第一代多模态模型(Step 1),约千亿参数,从预训练最开始就将图文混排数据加入,采用"遇到文字预测文字、遇到图像预测图像"的方式。
张祥雨注意到,同时期的GPT-4V也没有实现理解和生成的一体化,也是通过外挂DALL-E的方式。这说明这不是个工程问题,而是有更深层的原因。
整个2024年,张祥雨尝试了一个精巧的迭代方案来弥合生成与理解之间的鸿沟,但最终做了大半年没有成功。
用最新版的理解模型为图像打标注,构造更好的训练数据训练生成模型。
将生成模型外挂到理解模型,生成模型提供梯度指导理解模型更新。
经过多轮迭代,两个domain的gap逐渐缩小,最终在某个时刻可以放在一起训练。
得到了越来越强的理解模型和越来越强的生成模型——但放在一起后没有1+1>2的效果。摘掉任何一个,另一个效果不受影响。
2024年初,张祥雨团队启动了万亿参数的Step 2模型(激活200多B),这是一个"巨无霸"。整个项目前后做了9个多月,期间发现了一个业界当时还未广泛讨论的诡异现象。
Step 2在文科类(写作、情商、知识量)上极强,但在理科类尤其是数学上,表现还不如7B模型。经过从1B到7B到30B到70B的严谨对照实验,确认了:模型的通用对话能力和情商确实随参数增大而增强,但推理能力尤其是数学能力呈现先上升后平缓再下降的曲线。
张祥雨对"大模型跳步"现象进行了深入分析,得出了一个指向NTP根本缺陷的结论。
假设数据集中有50%的加法数据是"直接报结果"(互联网数据),50%是"一步步计算"(精心清洗的数据)。NTP的最优解是:以50%概率直接报结果,50%概率逐步计算。
NTP的本质是最大化压缩率(基于信息论的联合概率建模)。大模型压缩率更高(更接近原始分布),但对于数学等需要精确计算的任务,我们要的是算对而不是分布更接近。这两个优化目标存在根本性的gap。
这个分析自然指向了解决方案:如果NTP(最大化压缩率)和任务目标(算对)之间存在gap,那就直接优化任务目标——这正是RL的核心思想。
张祥雨详细解构了O系列(如o1)为什么成功,给出了和主流叙事不同的深层分析。
张祥雨指出,早期(2024年初)大量团队尝试Rule-based RL但收益有限。原因在于:模型在Critical Token处面临的选择,其复杂度超过了单个token的计算上限。比如某道数学题,在某一步走A分支还是B分支,需要复杂的推导才能判断。模型做10遍可能6遍选对4遍选错——但因为数据集中可能存在数字不同但结构相似的题目,那道题反而是选另一个分支才对,所以模型永远无法达到100%。
O系列最了不起的一点:如果模型在Critical Token处不确定该走哪条分支,那就两条都走——走到底发现不对就回退。这就是反思(Reflection)的核心动机。O系列本质是一种Meta-CoT——用CoT的CoT在多种思考模式之间自由切换。
| Pattern | 描述 |
|---|---|
| 反思(Reflection) | 发现错误后回退到上一步,换方向继续 |
| 验算(Verification) | 用不同方法验证同一个结果 |
| 大循环 | 推翻前面所有工作,从头重新开始 |
| 审题 | 多次比对题目要求,确认是否符合 |
| 换方法 | 原方法走不通时切换到完全不同的解法 |
| 分步检查 | 逐步检查每一步是否满足约束条件 |
张祥雨发现,O系列激发出的反思pattern在预训练语料中本来就存在——虽然数量很少,但散布在不同领域。比如Math StackOverflow上的高赞回答,经常展示"先尝试、发现不对、换方向"的思考过程。中国论坛反而喜欢"注意到"式写法,把脚手架拆掉显得自己很厉害——这对模型训练是灾难,因为隐藏了真实的思考过程。RL在Cold Start阶段注入这些pattern,然后通过强化把预训练中散布各处的相关语料融会贯通。
张祥雨也找到了纯数学训练无法泛化的领域——博弈。比如斗地主残局,模型完全不得要领,出现大量低级错误。原因是博弈类需要min-max思维模式(从对手最优解中最小化损失),这种pattern在数学训练中未被激发。但一旦合成博弈类训练数据,模型很快就能学会。
将O系列的insight应用回多模态领域——张祥雨发现了一个困难但清晰的方向。
当前O系列的思维链全部是文本形式。但很多问题必须在图像空间上做推理——数数、走迷宫、连线、读图表、读钟表——这些对人类非常简单,但对模型很难。人类做这些事时会在图上圈点批注、用视线和注意力转移来辅助推理。
O3支持图像输入的长思维链,但只对原图做非常简单的编辑——crop、resize等。看起来很原始,但效果远好于张祥雨精心设计的方案。原因是:这些简单操作在预训练语料中大量存在(如电子维修论坛上局部放大指出故障点),严格遵守了预训练分布。
RL这一步并不能无中生有——所有的知识和能力都已经在预训练分布中。你的动作空间设计再科学,如果预训练语料中没有对应的pattern,就无法激发泛化。这既是约束,也是方向——如何扩充预训练语料中的视觉推理pattern,成为关键瓶颈。
张祥雨描绘了他理解的多模态"GPT-4时刻"——一个清晰但尚需突破的路线图。
不管是Auto-Regressive还是Diffusion,当前的图像生成本质上都是"一口报"模式——相当于语言模型最原始的形态(没有CoT、更没有Meta-CoT)。Diffusion虽然是多步过程,但语义在某一步就已经完全确定,剩下都是补细节。Auto-Regressive是"落子无悔"——单步计算复杂度远不够完成生成任务。
有了初步的指令型可控生成模型后,可以在任何需要的地方产生视觉输出。思维链中间可以是图像——需要空间想象或画草图才能解决的问题就变得可做。更关键的是:理解和生成的统一——最后一步输出文字就是理解,输出图就是生成,中间的思维链全部是图文混合。
张祥雨预判:多模态推理的GPT-4时刻可能在一年以内到来。
张祥雨对当前Long Context方向提出了尖锐的批评,认为主流的做法存在根本性的方向错误。
张祥雨从人类记忆系统出发,提出了一个全新的架构方向。
| 层级 | 时长 | 特性 | 类比 |
|---|---|---|---|
| 短期记忆(Working Memory) | 2-4秒 | 无损精确,但极短暂(如抄电话号码) | 约30万token |
| 中期记忆(海马体记忆) | 天到星期级 | 有遗忘、抓重点、通过反复刺激增强(如程序员第二天能接续前一天的工作) | 人类工作学习的核心 |
| 长期记忆 | 永久 | 经反复刺激固化,一辈子不忘 | 模型参数 |
反观Transformer:似乎只有短期记忆,但又太长了(动辄十万百万千万token)。没有中期记忆的"选择性遗忘"和"重点提炼"能力。
张祥雨提出用两个模型协作替代超长Context:Plan模型负责全局搜索和策略制定(只需记住摘要信息),执行模型负责具体推理演算(只需当前分支的必要信息,历史可以清空)。这就像人类做数学题——探索一条路径发现不通后,不需要对那条路径念念不忘,只需要Plan层面知道"此路不通"即可。
张祥雨预测,未来的智能系统很可能由多个基础LM/VLM组成,在训练过程中逐渐产生功能分化——有的专注记忆、有的专注计划、有的专注执行——类似人脑的不同脑区。这种分工不是预设的,而是RL训练中为了满足context约束自发涌现的。
张祥雨认为,当前RL范式面临的最大问题是Environment Scaling——你需要人工搭建海量的评估环境,这既昂贵又不可持续。而真正的突破在于自主学习。
张祥雨预判:自主学习/在线学习的突破可能在两年以内。
张祥雨对OpenAI的AI五级分类法给出了一个独特的解读,认为每一级的跃迁都需要全新算法的产生。
| 级别 | OpenAI定义 | 张祥雨的解读 | 核心算法 |
|---|---|---|---|
| Level 1 | Chatbot | 基于Next Token Prediction的对话系统 | NTP |
| Level 2 | Reasoner | 以思维链和RL为核心,推理能力持续Scaling | CoT + RL |
| Level 3 | Agent | 不是今天说的Agent应用,而是需要自主在线学习能力 | 自主学习 + 内生奖励 |
本质是NTP时代的工具——通过Prompt Engineering把几个流程糊起来,是handcraft的pipeline。
模型主动调用工具——不是靠prompt激发,而是RL自主学习:调了更好就调,调了不如不调就不调。核心是Function Call和Long CoT的结合。
需要自主在线学习——自己找目标、自己搭环境、从环境反馈中自我进化。当前系统不管NTP还是RL,训练结束后就不能再improve,这是根本局限。
张祥雨反复强调:架构是服务算法的。Linear Transformer之所以存在,是因为NTP需要并行化,对RNN结构提出了可分离性要求。如果算法改变(比如Hinton的Forward-Forward Algorithm),完全可以用普通RNN,甚至可以直接实现在线学习——不需要区分Training和Inference阶段。
| 判断 | 具体内容 |
|---|---|
| 张祥雨论文引用 | 超过37万,新一代华人AI科学家中口碑最佳 |
| Step 2模型规模 | 万亿参数,激活200B+,训练耗时9个月+ |
| 大模型数学退化 | 模型从1B到70B+,数学能力先上升后平缓再下降 |
| Critical Decision数量 | 4-5千token的数学序列中,不超过10个关键分叉点 |
| 对比学习/MAE评价 | 本质是学习handcraft不变性,无Scale Up特性 |
| 生成与理解一体化 | 做了大半年未成功,根因是生成缺少CoT |
| 中国论坛语料问题 | 喜欢"注意到"式写法,隐藏思考过程,对模型训练是灾难 |
| 视觉CoT实验 | 做了半年,能解特定问题但无泛化性——因预训练语料中缺少此类pattern |
| 多模态GPT-4时刻 | 预计一年以内——前置技术已ready |
| 自主学习突破 | 预计两年以内——需解决从自然语言反馈中学习 |
| 当前生成模型状态 | 相当于语言模型"一口报"的原始形态,落后两代 |
| Transformer短期记忆 | 人类Working Memory约2-4秒/30万token |
| O系列核心 | 不是算法创新,而是反思Pattern的注入——"Pattern is all you need" |
| RL在语言模型的特殊性 | 预训练极大压缩动作空间,使随机探索也有不低的成功率 |
张祥雨从实验中发现:模型参数超过一定规模后,推理能力(尤其数学)反而下降。这不是训练不充分,而是NTP的压缩率目标与精确计算目标之间的根本性gap。大模型倾向于"跳步"直接报答案(更接近训练数据分布),但跳步就会出错。这个发现意味着:仅仅Scale Up模型参数不一定能通向更强的推理能力,RL等面向目标的优化方法是必要的补充。
张祥雨的"三重隔离"理论(生成、理解、人类对齐在图像上是分离的)为多模态研究提供了清晰的方向指引。纯视觉自监督学习(不管是对比学习还是MAE)走不通,因为图像不包含人类理解信息——这些信息需要通过文字对齐或视频中的时序关系来注入。这解释了为什么图文混排训练(而非纯视觉预训练)成为多模态模型的主流路线。
张祥雨最深刻的insight之一:RL的泛化能力完全依赖预训练语料中是否存在对应的pattern。O系列的反思能力之所以能泛化到诗词、博弈等领域,是因为预训练语料中散布着类似的思考过程(虽然稀少)。他在视觉CoT上的失败也验证了这一点——人工合成的圈点批注数据在预训练中没有对应物,所以无法泛化。这意味着预训练数据的质量和多样性仍然是AI能力的根本约束。
当语言模型已经进化到Meta-CoT(O系列的反思推理)时,图像生成还停留在"一口报"时代。不管是Diffusion还是Auto-Regressive,都没有CoT——单步生成的复杂度上限远不够处理复杂场景。人类画画是从轮廓到细节、从草稿到精修,但Diffusion的降噪过程和这种语义结构毫无对应关系。这个gap的弥合可能就是多模态GPT-4时刻的核心。
张祥雨直接批评了当前追求更长Context的方向:无损存储所有信息阻碍而非促进智能。人脑的记忆机制是分层的、有选择性遗忘的、基于重要性筛选的。他提出的双模型协作架构(Plan + 执行)用log级的Context替代千万级的Context,而且可以通过RL端到端训练。这个架构可能比Linear Transformer等注意力改造方案更具前景。
一个小但深刻的观察:中国数学论坛喜欢把推导过程压缩为"注意到...因此...",隐藏真实的探索和试错过程。而Math StackOverflow上的高赞回答经常展示完整的思考脉络(尝试、发现不对、换方向)。这些带有反思过程的语料是O系列泛化的根基。这对中文AI模型的训练数据策略有直接启示:需要刻意保留甚至鼓励"展示思考过程"的语料。
张祥雨给出了明确的预测:(1)一年以内:多模态推理的GPT-4时刻——生成与理解一体化,思维链中可以包含视觉输出;(2)两年以内:自主学习/在线学习的突破——模型能从自然语言反馈中学习,具备内生的自我改进能力。如果这两个预测成立,2026-2027年将是AI能力的又一次质变期。
张祥雨的重新解读揭示了一个深层逻辑:从Chatbot到Reasoner到Agent,每一级的跃迁都需要全新的算法突破,而非现有技术的渐进改进。Level 1是NTP,Level 2是CoT+RL,Level 3需要自主学习+内生奖励。当前市面上大量的"Agent应用"仍然是Level 2范畴的产物(RL驱动的工具调用),离真正的Level 3(自主在线学习、自己找目标)还有本质差距。