← 返回目录
深度研究 Deep Dive

开源一段论文探索之旅

#117 模型范式、Infra和数据、语言、多模态的完整变迁史
张小珺Jun|商业访谈录 · 嘉宾:谢青池(美团光年之外产品负责人)
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 嘉宾与缘起:产品经理为何读论文
  2. 学习方法论:用AI学AI
  3. GPU的起源:从Brook到CUDA
  4. AlexNet:深度学习的开端
  5. Seq2Seq与Attention:序列建模革命
  6. ResNet与蒸馏:让模型更深更小
  7. Transformer:拉开时代序幕
  8. AlphaGo Zero与MoE:2017年三大突破
  9. CoT、LoRA与ReAct:后训练与Agent萌芽
  10. Bitter Lesson:苦涩的教训
  11. Infra与数据变迁:ZeRO、Scaling Law与MegaScale
  12. 语言模型演进:从Word2Vec到GPT-3
  13. InstructGPT与对齐:通往ChatGPT之路
  14. 多模态变迁:视频、GAN、Diffusion与ViT
  15. CLIP与Stable Diffusion:文生图的诞生
  16. 关键人物图谱与学术脉络
  17. 启示与延伸思考

一、嘉宾与缘起:产品经理为何读论文

本期嘉宾谢青池,美团光年之外的产品负责人,本科和研究生读的计算机,毕业后在豆瓣做产品,中间九年创业(O2O、消费),2022年GPT来临时开始系统性地自学AI论文。她用一年多时间啃了200多篇、不到300篇AI论文,从"全然不得要领"到逐步入门。

谢青池
对于产品经理来说,产品就是在给定边界里面去求最优解。很多时候边界的变化会影响产品的最优解的变化。读论文是探索边界的一个方式和方法。

为什么AI时代需要读论文?

互联网时代

  • 技术已比较成熟,本质是一种技术的应用
  • 移动互联网时期技术性论文比较少
  • 青池在豆瓣时读的是城市规划论文(杨盖尔)

AI时代

  • 技术还处于早期,还没有那么成熟
  • 需要通过论文了解边界、follow演进
  • 掌握三到五年都不变的基础知识

三个讲解视角

历史
论文的前因后果与时代背景
范式
原有范式的危机与新范式崛起
人物
作者如何登上舞台、扮演角色

产品经理读论文的独特价值

青池强调,读论文最难的不是单点知识,而是"不知道为什么要这么做"。作者写论文跟做产品一样——要解决一个问题,有历史背景、方法选择和效果验证。理解"为什么"比理解"是什么"更重要。

二、学习方法论:用AI学AI

核心障碍与解决方案

三大障碍

  • 学术理论晦涩:重新用国外材料学习线性代数、概率论、偏微分方程
  • 英文论文壁垒:用沉浸式翻译插件解决,"我不是来学英语的,我是来学AI的"
  • 平台期痛苦:头两三个月云里雾里,看论文"看着看着就看睡着了"

推荐学习资源

类型资源特点
视频吴恩达 机器学习/AI课程入门经典
视频李宏毅 深层式AI时代下的机器学习(2025版)B站有授权版
视频Andrej Karpathy YouTube质量极高
视频李沐 论文精读系列(B站)"每个精读视频我都看过两三遍"
视频3Blue1Brown数学/神经网络可视化科普
书籍《动手学深度学习》(d2l.ai)开源,李沐是作者之一
书籍《深度学习中的数学》补概率论基础
工具Claude Artifact / 豆包 可视化让AI做可视化讲原理
谢青池
英文内容质量在AI领域是比中文要高很多的。但大家现在已经可以不受到语言的阻碍了。AI帮你翻译就可以了。

三、GPU的起源:从Brook到CUDA

深度神经网络的发展随四个要素推进:芯片(算力载体)、Infra(操作芯片的软件系统)、数据模型结构

GPU编程的开端:Brook for GPU(2004)

里程碑论文

Brook: Streaming Computing on Graphics Hardware

2004年,以Flops衡量,GPU因高度并行的处理结构,计算能力快速超越CPU。但给GPU编程极其痛苦——着色器编程语言接近汇编,缺乏高级抽象。

一作Ian Buck和导师团队将超级计算机使用的Brook语言移植到GPU上,开创了GPU通用计算的基本框架:流(Stream)核函数(Kernel)规约(Reduce)。Buck毕业后加入英伟达,是CUDA创始成员,至今仍是CUDA的VP。

导师Pat Hanrahan的传奇

  • 2019年图灵奖得主(计算机图形学贡献)
  • Pixar动画工作室创始员工之一
  • 三次奥斯卡技术奖
  • BI软件Tableau的创始人(2019年被Salesforce以157亿美元收购)
  • "典型的硅谷精英,横跨产学研三界"

英伟达CUDA的苦涩坚持

谢青池
老黄为了强推CUDA,让显卡的性能没有上升,但BOM成本几乎翻了一倍。有段时间英伟达股票跌到地上,几乎差一点被人恶意并购。但他坚持了下来——坚持了大概10年左右时间,才看到CUDA的重要产出。

竞争者的消亡

Brook论文的赞助商里还有ATI——当时ATI也做了类似CUDA的东西,所有GPU厂家都做了。但只有英伟达坚持下来了,其他厂家没有坚持住,退出市场。"并不是老黄很有远见"——他当时对GPU的设想基本不包含现代AI的东西,这是一个坚持的结果

四、AlexNet:深度学习的开端(2012)

历史背景:ImageNet竞赛

李飞飞团队创建了ImageNet数据集(1400万张标注图像,2万多类别),并从2010年开始举办竞赛。前三届参赛队伍递减(13支→7支→6支),"眼看就办不下去了"。

2010年 第一届

余凯团队(NEC)用传统特征提取方法夺冠,"做到第一名后就没关注了"

2012年 第三届

AlexNet横空出世,比第二名好出十几个百分点,震惊整个行业

三位作者

Alex
Infra大人,搞定GPU(两张GPU联合渲染)
Ilya
OpenAI联合创始人和首席科学家
Hinton
诺贝尔奖得主,深度学习先驱
谢青池(引述余凯评价)
余凯对Ilya的印象是最差的,觉得他这个人夸夸其谈。觉得Alex非常靠谱,比较少言——别人搞不定GPU,他可以搞定。
核心贡献

同时Scale三个维度

AlexNet是那个时代第一篇同时scale了数据、计算量和模型规模的工作。6250万参数、65万神经元(现在看只有0.06B)。数据得益于ImageNet,计算得益于Alex搞定GPU,三者协同产生了范式变迁的结果。

五、Seq2Seq与Attention:序列建模革命(2014)

深度学习突破从视觉开始,2014年来到了自然语言处理领域。当时各子领域各做各的研究、各开各的会。

解决的核心问题:序列到序列

翻译的本质挑战

  • 过去的神经网络只能输出固定长度——五个字进去必须五个单词出来
  • 翻译需要可变长度的输入和输出(序列到序列问题)
  • 长序列时隐藏向量空间不足,信息丢失——"模型不认识很早以前那些词的意思了"

两篇关键论文的作者脉络

论文核心作者后续去向
Seq2SeqIlya、Oriol、Quoc LeOriol:Gemini预训练负责人;Quoc Le:Gemini后训练负责人
Attention(Bahdanau)Bahdanau、Yoshua BengioBengio:2018年图灵奖得主

三大核心贡献

六、ResNet与蒸馏:让模型更深更小(2015)

ResNet:比深更深

2015年,人们发现模型搞大到100层以上,不但不会变更好,反而变更差——"模型退化"问题。ResNet引入残差连接,将学习目标从"学习F(x)"变为"学习F(x)+x",彻底解决退化问题。

~30万
论文引用量(比Transformer更高)
4位
中国作者(微软亚研院)
100%
现代网络都是残差网络

四位作者的后续

  • 何恺明:MIT教授
  • 张祥宇阶跃星辰Co-founder和首席科学家(ep102嘉宾)
  • 任少卿:蔚来自动驾驶负责人
  • 孙剑:旷视首席科学家(已去世)

蒸馏:教师与学生的学习范式(2015)

Hinton、Oriol和Jeff Dean合作。核心思想:用大模型(教师)的完整概率分布(软标签)训练小模型(学生),不仅给最终答案(硬标签),还给"没有选择的那些概率"。

谢青池
GPT有时候会说它被别人蒸馏了,那就是别人拿它的模型输出来给自己的学生模型学习。但这种蒸馏没有那么完整,因为GPT不会给外界输出它的概率分布。

七、Transformer:拉开时代序幕(2017)

范式革命

Attention Is All You Need

RNN天生有时序依赖,没有抽中硬件彩票(不适合GPU并行)。CNN难以捕捉长距离依赖。作者们想:既然注意力机制那么好用,能不能只要注意力机制?

Transformer为什么能统一江湖?

建模能力

  • 注意力机制让任意位置的词可以直接计算相关关系
  • 不像CNN要"绕好几层"才能拿到依赖
  • "在上下文窗口内,词与词之间能够直接感知到对方"

硬件匹配

  • 所有注意力计算可以分开并行——各算各的
  • 特别适合GPU并行计算
  • "抽中了硬件彩票"
  • 建模能力强 + 可scale = 大模型基础

八位作者与Noam的故事

八位作者当时都在Google,后来都离开了。最有名的Noam Shazeer后来创立了Character AI——工程能力与算法能力兼备,大量手搓模型让推理成本极低。

Noam Shazeer
我们不提供对模型为什么work的任何解释。如果它work,那我们把它归为神的仁慈。

位置编码的中国贡献

Transformer需要位置编码来感知序列顺序("我打你"和"你打我"不同)。后来有一个重要改进——旋转位置编码(RoPE),由苏剑林提出,成为现代模型的标准组件。

深度学习关键模型参数规模演进(对数尺度)

八、AlphaGo Zero与MoE:2017年三大突破

2017年回头看有三个极重要的工作:TransformerAlphaGo ZeroMoE

AlphaGo Zero:不需要人类知识

两个核心贡献

  • 纯强化学习:不依赖棋谱、不需要"气""眼"等先验知识,用更少的卡训练36小时即超越击败李世石的版本
  • 启发Test-time Scaling:每走一步棋执行1600次蒙特卡洛搜索——"如果模型不做test-time computing,能力其实并没有那么强"。直接启发了OpenAI开发O1 Thinking模型
谢青池
AlphaGo Zero既启发了强化学习,也启发了Thinking。你可以理解为它启发了DeepSeek R1的Zero版本,也启发了O1。R1有一个Zero版本——他们尝试不做SFT会怎样。

作者之一Koray Kavukcuoglu后来是Inflection的Co-Founder,Inflection被微软并购后成为微软AI负责人。他也是双流网络(视频理解)的作者。

现代MoE的开端

MoE概念由Hinton在90年代提出,2017年被Noam重新发明。核心逻辑:人脑是分区的、稀疏的——每次思考不激活所有区域。训练超大参数模型,推理时只激活小部分,获得"1000倍模型容量提升,计算效率仅略有损失"

MoE的工程挑战

MoE到现在也不太好训。OpenAI在GPT-4时转向MoE;Llama转MoE不成功,"搞崩了";MiniMax选择MoE后"训了三次才做成"。DeepSeek选择MoE是成本优先的技术路线选择——"成本在未来的AI对人的使用中会非常重要"。

九、CoTLoRA与ReAct:后训练与Agent萌芽

Chain-of-Thought(2022):定义时代问题

作者Jason Wei,OpenAI少数只有本科学历的研究员,达特茅斯毕业的华人。发现只要向模型展示推导的中间步骤——"请你一步一步思考"——就能大幅提高推理表现。

CoT的深远影响

  • 让大家意识到模型的能力在预训练中已经蕴含,需要通过后训练"激发"
  • 将Scaling重心从预训练转向后训练,最终催生Thinking模型
  • 让大家关注模型输入的构建——从Prompt Engineering到Context Engineering
  • Jason Wei是O1团队成员,论文引用量在R1出来后爆炸式增长
谢青池
有两种研究员。一种很擅长解决问题,另一种很擅长找到这个时代最重要的问题是什么。Jason Wei属于后者——学术难度很低,像一篇博文,但提了一个非常重要的问题。

LoRA(2021):微调的外挂

作者Edward Hu(华人,Yoshua Bengio学生),解决大模型微调成本高的问题。核心:在模型旁边加两个小矩阵,只学习增量(类似ResNet的残差思想),不引入额外推理延迟。设计给Transformer用,但更多落地在Diffusion Model(选风格、选LoRA)。

ReAct(2022):Agent的起源

作者姚顺雨(清华姚班,97年生,说唱联合社创始人),论文发表在ChatGPT之前。让模型不仅能推理,还能观察和行动——"想完以后行动,行动之后观察,观察之后再想"。他的导师是GPT-1的作者。

好问题比好答案更重要

CoT和ReAct的作者都有一个特点:定义了时代最重要的问题,论文引用量从2024年开始暴涨(O1和R1出来后)。"如果我们回过头来看,这些好问题好像没有那么难。"

十、Bitter Lesson:苦涩的教训

Richard Sutton在2018年写下的经典文章,OpenAI研究员传说"上班前喝一杯咖啡,先读一遍,然后才开始干活"。

核心命题

通用方法终将胜出

从1970年至今,利用计算的通用方法最终最为有效,且优势显著。根本原因在于计算单位成本的持续指数级下降。目前能以这种方式无限扩展的两种方法:搜索(Search)学习(Learning)

Sutton(原文翻译)
AI研究者试图将知识编码入其智能体,这在短期内总是有效,且令研究者个人满足。但长期会陷入平台期,甚至阻碍进展。突破性进展最终来自相反路径——通过搜索和学习实现计算规模扩展。这种成功带来苦涩,因为它战胜了备受青睐的、以人类为中心的研究方式。

现实中的Bitter Lesson

手工特征(短期有效)

  • Cursor的multi-agent system需要人组织agent
  • Claude Code的System Prompt中规定"超过6位数请用Python"
  • Agent工程中手动安排工作流

通用方法(长期胜出)

  • Claude Code的single agent让模型自己组织
  • 理想中模型应自己知道何时用计算器
  • "相信梯度下降就可以了"——杨植麟
Dario Amodei(引述)
在我们不做假设的时候,梯度下降比我们所有人更聪明。

十一、Infra与数据变迁:ZeRO、Scaling Law与MegaScale

ZeRO / DeepSpeed(2019)

模型参数从亿到千亿,但GPU显存只从16G到80G——一张卡装不下一个模型。微软余教授团队开发ZeRO框架(后开源为DeepSpeed),优化内存冗余,让可训练模型大小与GPU集群总显存成正比,理论上可无限扩展。

Scaling Law:两篇关键论文

OpenAI版(2020)

  • 发现模型性能与计算量、数据量、参数量存在对数线性关系
  • 建议给定计算预算下训尽可能大的模型
  • 可用小模型实验预测大模型性能

DeepMind Chinchilla版

  • 认为OpenAI策略导致模型"训练不足"
  • 模型参数翻倍时,数据量也应翻倍
  • 用更多数据训更小模型 > 更少数据训更大模型

Scaling Law的实际用途

不是为了画漂亮曲线——是为了用小模型实验预测大模型结果,做取舍决策。"你不可能每个实验都放在最大规模上,每个实验做三个月你受不了。"做完取舍后一次性做完整预训练——这时Scaling Law是否work就决定了"三个月后开盲盒"的结果。

MegaScale(2024,字节跳动)

第一篇公开发表的万卡集群训练论文。在2020-2022年间,全球只有三家公司有万卡训练经验:OpenAI、Google、DeepSeek

万卡集群的核心挑战

  • 训练效率:一万张卡弄不好效率还不如一千张卡
  • 训练稳定性:GPU会物理损坏或比特翻转,需要监控→诊断→定位→踢卡→补卡→恢复
  • 算法-Infra协同设计:DeepSeek V3论文中,张量并行正好贴着H800带宽限制,实现计算与通信几乎完美平衡
谢青池
现代训练中MFU(GPU使用率)只有50%甚至不到。也就是说有50%的GPU算力被空置。理论上如果做到100%,我们就可以少一半的卡。而且50%已经是非常好的水平了。
GPT系列模型参数量与数据量演进

十二、语言模型演进:从Word2Vec到GPT-3

Word2Vec(2013):单词的向量化

过去单词被视为孤立原子——"苹果"只有一个意思。Word2Vec找到了连续的向量表示:King - Man + Woman ≈ Queen意大利 - 罗马 ≈ 法国 - 巴黎。一作Thomas Mikolov,二作Jeff Dean。

从Word到Token的演化

Word2Vec向量化对象是单词,现在向量化对象已是Token。GPT-4的Token量约10万个,Token是比文字更少、更抽象的单位。经典测试"Strawberry有几个R"——模型总测不对,因为模型不认识字母,只认识Token。

GPT系列的信仰之路

GPT-1(2018):开创范式

0.1B参数,5GB书籍数据。首次在NLP提出"无监督预训练 + 监督微调",Decoder-only + Next Token Prediction。作者Alec Radford。

BERT登场:GPT被碾压

Google的BERT用双向表示(完形填空),0.11B就刷了几乎所有榜单。BERT论文直接批评GPT的单向架构"次优"且"可能非常有害"。整个NLP领域转向BERT。

GPT-2(2019):坚持信仰

1.5B参数(放大10倍),40GB数据(爬Reddit高赞内容)。发现无需微调即可泛化到不同NLP任务——Zero-shot概念首次提出。OpenAI没有转向BERT。

组织调整:All In

GPT-2发布后一个月,Sam推动成立有限盈利公司。2019年7月微软注资10亿美元。砍掉玩魔方、玩游戏、强化学习等所有团队,所有人堵一个方向。

GPT-3(2020):验证Scaling Law

1750亿参数(放大100倍),570GB数据(Common Crawl清洗),作者从6人暴增到31人。验证了上下文学习能力,开始用Scaling Law指导决策。

谢青池
即使在那个时候,OpenAI里面也不是每个人都信。GPT-1的作者之一并不坚信这件事情——哪怕你是作者也不信。但有几个核心的人信:Ilya肯定是信的,Sam肯定也信,因为他去搞钱了。
关键辨析

GPT vs BERT:为什么GPT最终胜出?

BERT更擅长语言建模(更小模型、更好效果),但开放性不强。GPT的Next Token Prediction是一种"大型隐式多任务学习"——预测数学的下一个Token、又要预测地理问题的下一个Token,被迫学到更通用的世界知识。这需要更大数据和更大规模才能显现,但天花板更高。

十三、InstructGPT与对齐:通往ChatGPT之路

InstructGPT(2022):RLHF的诞生

GPT-3"很强大但不好用"——生成不真实、有毒、无助于用户的输出。一作欧阳龙(华人),合作者John SchulmanPPO作者,第一个在语言模型领域把强化学习搞work的人)。

训练流程

  • 雇佣40多个合同工构建SFT数据(大几千条)和排序标注
  • 合同工给模型输出打"优良中差"分,得到大量偏好对
  • 用偏好数据训练Reward Model,再用RLHF让模型对齐人类意图
100x
1.3B InstructGPT在指令遵循上优于175B GPT-3
~40人
合同工标注团队(论文逐一列名)
承前启后
Dario看到变化后离职创立Anthropic

Tulu:后训练的开源标杆

Allen AI研究所(微软联合创始人Paul Allen资助)基于Llama 3.1做后训练,公开全部流程、数据、代码、配方。效果超过原版Llama 3、Qwen 2.5、Mistral,可与GPT-4o竞争。一作Nathan Lambert是知名Substack作者。

十四、多模态变迁:视频、GAN、Diffusion与ViT

视频理解:从李飞飞到双流网络

2014年,Andrej Karpathy(李飞飞的博士生,后为OpenAI创始成员、特斯拉AI总监)构建了100万YouTube视频数据集。但发现多帧模型比单帧模型只提高了1.6个百分点——深度学习做视频"并没有做得很好"。

Koray Kavukcuoglu的双流网络解决了这个问题:将视频分为时间流(不同帧)和光流(运动信息),首次在视频理解上超越手工特征模型——视频领域的AlexNet时刻

GAN(2014):生成的开天辟地

对抗思想

Goodfellow的博弈框架

用判别器(警察)的loss来训练生成器(盗版画家)。"警察太强就直接把小偷摁死——就崩了。"GAN主导图像生成5-6年(2014-2019),能生成DeepFake级别的逼真图像,但训练极不稳定。

Diffusion Model的沉寂与复兴

2015年:发明但被冷落

Jessica(神经科学博士,曾做火星探测器)受物理扩散启发提出。效果远不如GAN,"发出来就被冷落了"。她自称"最不知名的工作是发明扩散模型"。

2020年:DDPM重新点亮

两个关键改进:(1)从"预测去噪后图像"改为"预测添加的噪声"(类似残差思想);(2)用UNet做骨干网络。训练稳定、效果不比GAN差。

ViT(2020):让数据适应模型

谢青池
如果不能让模型适应数据,就让数据适应模型。把图像每16x16像素切一块(patch),编号后变成序列,直接用Transformer处理。论文标题就是——An Image is Worth 16x16 Words。

这样图像处理可以完整享受Transformer的算法和Infra生态,不用做任何更改。大数据预训练后效果超越最先进的CNN,且消耗更少计算资源。后来SoraDiT也是这个逻辑——把视频搞成序列,塞进Transformer。

深度学习关键论文时间线与范式变迁

十五、CLIPStable Diffusion:文生图的诞生

CLIP(2021):对比学习的突破

OpenAI用4亿图文对(Instagram/微博式的图片+描述)训练,让模型学会:特朗普这个词的embedding和特朗普照片的embedding在向量空间中非常接近。无需标注数据就超越了ImageNet监督学习的最好效果。

LAION-5B:开源数据的力量

作者Schuhmann是一名德国高中物理和计算机老师,认为AI被少数巨头垄断对人类不利。他号召开源社区用CLIP过滤Common Crawl,构建了50亿图文对的数据集——比ImageNet大了一个数量级。

LAION-5B中的NSFW处理

色情图片没有删除,只做了标记。如果把这些数据去掉训练,模型会失去对人体结构的理解能力——"就像一个好的画家要看过人的裸体才知道人的结构"。所以现在所有多模态模型都保留这些数据训练(原生有能力),但在输出时关掉,而不是训练时去除。

Stable Diffusion(2021):两大创新

创新内容效果
潜空间将像素空间(1080x720)压缩到128x128的低维空间做扩散计算量减少两个量级,且效果反而更好——"压缩可以产生智能"
交叉注意力将CLIP文本编码器作为条件输入到UNet中实现文生图能力——过去只能图生图
谢青池
压缩为什么能提高效果?就像费曼学习法——把书从厚读薄的过程就是学习的过程。模型也可以在从高维压缩到低维的过程中,丢掉噪声、学到更多知识的本质信息。

DiT(2022):Transformer统一图像生成

作者谢赛宁William Peebles将Stable Diffusion中的UNet换成Transformer,大幅提高扩展性。两人后来加入OpenAI,创建了Sora

十六、关键人物图谱与学术脉络

两大学术阵营

欧洲:牛津/剑桥/DeepMind

  • 更偏算法和模型结构
  • 代表:Koray、Oriol
  • AlphaGo系列、双流网络

硅谷:Google Brain

  • 更偏Infra和工程
  • 代表:Jeff Dean、Ilya、Quoc Le、吴永辉
  • Transformer、GPT系列

两帮人合并成Gemini(双子星)后,"确实有些不服气",整合第一年并不顺利。"中国内部的段子说Gemini其实是一个失败的名字——双子星意味着没有融合。"

核心人物流转图

人物关键贡献现在
Ilya SutskeverAlexNet、Seq2Seq、GPT系列SSI(新公司)
Jeff DeanMapReduce、TensorFlow、蒸馏Google首席科学家
Noam ShazeerTransformer、MoECharacter AI → Google
吴永辉Google翻译(神经网络版)字节SEED预训练负责人
Oriol VinyalsSeq2Seq、蒸馏Gemini预训练负责人
Andrej Karpathy视频理解、特斯拉Transformer视觉教育者/YouTube
何恺明ResNetMIT教授
姚顺雨ReActOpenAI研究员

关于成果盛产期

青池观察:多数情况下还是年轻研究员出成果——"没有历史包袱"。但硅谷也有工程师走上管理岗后仍然hands-on写代码的文化。"美国其实没有算法工程师、前端工程师、后端工程师这种太明显的区分——他们只有软件工程师和硬件工程师。"

十七、启示与延伸思考

1. 架构创新需要硬件适配

Transformer统一江湖的根本原因不仅是建模能力强,更在于它"抽中了硬件彩票"——特别适合GPU并行计算。未来的新架构可能需要先有新硬件(如存算一体),然后才会应运而生。"截止到目前为止,Transformer的超参数调整都很小。"

2. Scale的三个维度必须协同

从AlexNet到GPT-3,每次重大突破都是数据、计算、模型三者同时Scale的结果。只Scale其中一个维度收效甚微。DeepSeek的V3论文展示了算法-Infra Co-design的极致——3000卡可能相当于Meta的2万卡效果。

3. 边缘范式的逆袭模式

GPT在BERT阴影下坚持了多年;Diffusion在GAN阴影下沉寂了5年;强化学习(AlphaGo Zero)在监督学习主导的时代蓄力。当前的边缘范式可能就是未来的主流——关键是"有几个核心的人信"。

4. 苦涩教训的工程实践

手工特征在短期总是有效,但长期被通用方法替代。Cursor(multi-agent)vs Claude Code(single agent)就是当下的缩影——随着模型能力增强,后者正变得越来越好用。等待有时比行动更有价值:"我大概知道这个问题现在解决不了,五六个月后模型能解决。"

5. 数据工程被严重低估

LAION-5B的数据清洗细节、FineWeb的精炼互联网方法、DeepMind Chinchilla证明数据与参数应等比Scale——数据不是"有就行"。Common Crawl的清洗是精细工作,GPT-3需要专门的数据团队才能清洗。

6. 开源与闭源的博弈

LAION-5B的德国高中老师、Stable Diffusion的开源、Tulu公开全部后训练配方——开源社区持续推动AI民主化。但OpenAI从GPT-2之后逐渐闭源,CLIP只开放模型不开放数据集。这个张力至今未解。

7. AI时代的个人方法论

青池给出三层建议:(1) 多用AI——"把AI用好也是稀缺技能";(2) 学编程——"未来更多是Builder,不会有那么多细分岗位";(3) 读论文——"读论文反而让你没有那么焦虑"。了解原理后,你能判断哪些问题值得等待模型进步自行解决,哪些需要当下手工干预。

8. 我们仍处于极早期

青池的判断:如果比照电脑发展(大型机→中型机→小型机→PC),AI还处于"个人计算的前期"。Scaling Law没有到头——"我们还有很多地方做得很粗糙"。OpenAI在尝试构建下一代操作系统——不再通过编写好的软件获取算力,而是通过对话,用参数操作物理世界API。