深度研究 — #117 开源一段论文探索之旅：模型范式、Infra和数据、语言、多模态的完整变迁史

嘉宾与缘起：产品经理为何读论文
学习方法论：用AI学AI
GPU的起源：从Brook到CUDA
AlexNet：深度学习的开端
Seq2Seq与Attention：序列建模革命
ResNet与蒸馏：让模型更深更小
Transformer：拉开时代序幕
AlphaGo Zero与MoE：2017年三大突破
CoT、LoRA与ReAct：后训练与Agent萌芽
Bitter Lesson：苦涩的教训
Infra与数据变迁：ZeRO、Scaling Law与MegaScale
语言模型演进：从Word2Vec到GPT-3
InstructGPT与对齐：通往ChatGPT之路
多模态变迁：视频、GAN、Diffusion与ViT
CLIP与Stable Diffusion：文生图的诞生
关键人物图谱与学术脉络
启示与延伸思考

一、嘉宾与缘起：产品经理为何读论文

本期嘉宾谢青池，美团光年之外的产品负责人，本科和研究生读的计算机，毕业后在豆瓣做产品，中间九年创业（O2O、消费），2022年GPT来临时开始系统性地自学AI论文。她用一年多时间啃了200多篇、不到300篇AI论文，从"全然不得要领"到逐步入门。

谢青池

对于产品经理来说，产品就是在给定边界里面去求最优解。很多时候边界的变化会影响产品的最优解的变化。读论文是探索边界的一个方式和方法。

为什么AI时代需要读论文？

互联网时代

技术已比较成熟，本质是一种技术的应用
移动互联网时期技术性论文比较少
青池在豆瓣时读的是城市规划论文（杨盖尔）

AI时代

技术还处于早期，还没有那么成熟
需要通过论文了解边界、follow演进
掌握三到五年都不变的基础知识

三个讲解视角

历史

论文的前因后果与时代背景

范式

原有范式的危机与新范式崛起

人物

作者如何登上舞台、扮演角色

产品经理读论文的独特价值

青池强调，读论文最难的不是单点知识，而是"不知道为什么要这么做"。作者写论文跟做产品一样——要解决一个问题，有历史背景、方法选择和效果验证。理解"为什么"比理解"是什么"更重要。

二、学习方法论：用AI学AI

核心障碍与解决方案

三大障碍

学术理论晦涩：重新用国外材料学习线性代数、概率论、偏微分方程
英文论文壁垒：用沉浸式翻译插件解决，"我不是来学英语的，我是来学AI的"
平台期痛苦：头两三个月云里雾里，看论文"看着看着就看睡着了"

类型	资源	特点
视频	吴恩达机器学习/AI课程	入门经典
视频	李宏毅深层式AI时代下的机器学习（2025版）	B站有授权版
视频	Andrej Karpathy YouTube	质量极高
视频	李沐论文精读系列（B站）	"每个精读视频我都看过两三遍"
视频	3Blue1Brown	数学/神经网络可视化科普
书籍	《动手学深度学习》(d2l.ai)	开源，李沐是作者之一
书籍	《深度学习中的数学》	补概率论基础
工具	Claude Artifact / 豆包可视化	让AI做可视化讲原理

三、GPU的起源：从Brook到CUDA

深度神经网络的发展随四个要素推进：芯片（算力载体）、Infra（操作芯片的软件系统）、数据、模型结构。

GPU编程的开端：Brook for GPU（2004）

里程碑论文

Brook: Streaming Computing on Graphics Hardware

2004年，以Flops衡量，GPU因高度并行的处理结构，计算能力快速超越CPU。但给GPU编程极其痛苦——着色器编程语言接近汇编，缺乏高级抽象。

一作Ian Buck和导师团队将超级计算机使用的Brook语言移植到GPU上，开创了GPU通用计算的基本框架：流(Stream)、核函数(Kernel)、规约(Reduce)。Buck毕业后加入英伟达，是CUDA创始成员，至今仍是CUDA的VP。

导师Pat Hanrahan的传奇

2019年图灵奖得主（计算机图形学贡献）
Pixar动画工作室创始员工之一
三次奥斯卡技术奖
BI软件Tableau的创始人（2019年被Salesforce以157亿美元收购）
"典型的硅谷精英，横跨产学研三界"

英伟达CUDA的苦涩坚持

谢青池

老黄为了强推CUDA，让显卡的性能没有上升，但BOM成本几乎翻了一倍。有段时间英伟达股票跌到地上，几乎差一点被人恶意并购。但他坚持了下来——坚持了大概10年左右时间，才看到CUDA的重要产出。

竞争者的消亡

Brook论文的赞助商里还有ATI——当时ATI也做了类似CUDA的东西，所有GPU厂家都做了。但只有英伟达坚持下来了，其他厂家没有坚持住，退出市场。"并不是老黄很有远见"——他当时对GPU的设想基本不包含现代AI的东西，这是一个坚持的结果。

四、AlexNet：深度学习的开端（2012）

历史背景：ImageNet竞赛

李飞飞团队创建了ImageNet数据集（1400万张标注图像，2万多类别），并从2010年开始举办竞赛。前三届参赛队伍递减（13支→7支→6支），"眼看就办不下去了"。

2010年第一届

余凯团队（NEC）用传统特征提取方法夺冠，"做到第一名后就没关注了"

2012年第三届

AlexNet横空出世，比第二名好出十几个百分点，震惊整个行业

三位作者

Alex

Infra大人，搞定GPU（两张GPU联合渲染）

Ilya

OpenAI联合创始人和首席科学家

Hinton

诺贝尔奖得主，深度学习先驱

谢青池（引述余凯评价）

余凯对Ilya的印象是最差的，觉得他这个人夸夸其谈。觉得Alex非常靠谱，比较少言——别人搞不定GPU，他可以搞定。

核心贡献

同时Scale三个维度

AlexNet是那个时代第一篇同时scale了数据、计算量和模型规模的工作。6250万参数、65万神经元（现在看只有0.06B）。数据得益于ImageNet，计算得益于Alex搞定GPU，三者协同产生了范式变迁的结果。

五、Seq2Seq与Attention：序列建模革命（2014）

深度学习突破从视觉开始，2014年来到了自然语言处理领域。当时各子领域各做各的研究、各开各的会。

解决的核心问题：序列到序列

翻译的本质挑战

过去的神经网络只能输出固定长度——五个字进去必须五个单词出来
翻译需要可变长度的输入和输出（序列到序列问题）
长序列时隐藏向量空间不足，信息丢失——"模型不认识很早以前那些词的意思了"

两篇关键论文的作者脉络

论文	核心作者	后续去向
Seq2Seq	Ilya、Oriol、Quoc Le	Oriol：Gemini预训练负责人；Quoc Le：Gemini后训练负责人
Attention（Bahdanau）	Bahdanau、Yoshua Bengio	Bengio：2018年图灵奖得主

三大核心贡献

纯机器学习超越统计方法——边缘范式超出主流范式，推动范式更新
复兴Encoder-Decoder结构——70-80年代发明的结构被重新用于序列建模
引入注意力机制——解决隐藏状态瓶颈，为Transformer埋下伏笔。"本质上就是给模型一个空间，让它能够对序列之间的关系进行建模"

六、ResNet与蒸馏：让模型更深更小（2015）

ResNet：比深更深

2015年，人们发现模型搞大到100层以上，不但不会变更好，反而变更差——"模型退化"问题。ResNet引入残差连接，将学习目标从"学习F(x)"变为"学习F(x)+x"，彻底解决退化问题。

~30万

论文引用量（比Transformer更高）

4位

中国作者（微软亚研院）

100%

现代网络都是残差网络

四位作者的后续

何恺明：MIT教授
张祥宇：阶跃星辰Co-founder和首席科学家（ep102嘉宾）
任少卿：蔚来自动驾驶负责人
孙剑：旷视首席科学家（已去世）

蒸馏：教师与学生的学习范式（2015）

Hinton、Oriol和Jeff Dean合作。核心思想：用大模型（教师）的完整概率分布（软标签）训练小模型（学生），不仅给最终答案（硬标签），还给"没有选择的那些概率"。

谢青池

GPT有时候会说它被别人蒸馏了，那就是别人拿它的模型输出来给自己的学生模型学习。但这种蒸馏没有那么完整，因为GPT不会给外界输出它的概率分布。

七、Transformer：拉开时代序幕（2017）

范式革命

Attention Is All You Need

RNN天生有时序依赖，没有抽中硬件彩票（不适合GPU并行）。CNN难以捕捉长距离依赖。作者们想：既然注意力机制那么好用，能不能只要注意力机制？

Transformer为什么能统一江湖？

建模能力

注意力机制让任意位置的词可以直接计算相关关系
不像CNN要"绕好几层"才能拿到依赖
"在上下文窗口内，词与词之间能够直接感知到对方"

硬件匹配

所有注意力计算可以分开并行——各算各的
特别适合GPU并行计算
"抽中了硬件彩票"
建模能力强 + 可scale = 大模型基础

八位作者与Noam的故事

八位作者当时都在Google，后来都离开了。最有名的Noam Shazeer后来创立了Character AI——工程能力与算法能力兼备，大量手搓模型让推理成本极低。

Noam Shazeer

我们不提供对模型为什么work的任何解释。如果它work，那我们把它归为神的仁慈。

位置编码的中国贡献

Transformer需要位置编码来感知序列顺序（"我打你"和"你打我"不同）。后来有一个重要改进——旋转位置编码（RoPE），由苏剑林提出，成为现代模型的标准组件。

深度学习关键模型参数规模演进（对数尺度）

八、AlphaGo Zero与MoE：2017年三大突破

2017年回头看有三个极重要的工作：Transformer、AlphaGo Zero、MoE。

AlphaGo Zero：不需要人类知识

两个核心贡献

纯强化学习：不依赖棋谱、不需要"气""眼"等先验知识，用更少的卡训练36小时即超越击败李世石的版本
启发Test-time Scaling：每走一步棋执行1600次蒙特卡洛搜索——"如果模型不做test-time computing，能力其实并没有那么强"。直接启发了OpenAI开发O1 Thinking模型

谢青池

AlphaGo Zero既启发了强化学习，也启发了Thinking。你可以理解为它启发了DeepSeek R1的Zero版本，也启发了O1。R1有一个Zero版本——他们尝试不做SFT会怎样。

作者之一Koray Kavukcuoglu后来是Inflection的Co-Founder，Inflection被微软并购后成为微软AI负责人。他也是双流网络（视频理解）的作者。

现代MoE的开端

MoE概念由Hinton在90年代提出，2017年被Noam重新发明。核心逻辑：人脑是分区的、稀疏的——每次思考不激活所有区域。训练超大参数模型，推理时只激活小部分，获得"1000倍模型容量提升，计算效率仅略有损失"。

MoE的工程挑战

MoE到现在也不太好训。OpenAI在GPT-4时转向MoE；Llama转MoE不成功，"搞崩了"；MiniMax选择MoE后"训了三次才做成"。DeepSeek选择MoE是成本优先的技术路线选择——"成本在未来的AI对人的使用中会非常重要"。

九、CoT、LoRA与ReAct：后训练与Agent萌芽

Chain-of-Thought（2022）：定义时代问题

作者Jason Wei，OpenAI少数只有本科学历的研究员，达特茅斯毕业的华人。发现只要向模型展示推导的中间步骤——"请你一步一步思考"——就能大幅提高推理表现。

CoT的深远影响

让大家意识到模型的能力在预训练中已经蕴含，需要通过后训练"激发"
将Scaling重心从预训练转向后训练，最终催生Thinking模型
让大家关注模型输入的构建——从Prompt Engineering到Context Engineering
Jason Wei是O1团队成员，论文引用量在R1出来后爆炸式增长

谢青池

有两种研究员。一种很擅长解决问题，另一种很擅长找到这个时代最重要的问题是什么。Jason Wei属于后者——学术难度很低，像一篇博文，但提了一个非常重要的问题。

LoRA（2021）：微调的外挂

作者Edward Hu（华人，Yoshua Bengio学生），解决大模型微调成本高的问题。核心：在模型旁边加两个小矩阵，只学习增量（类似ResNet的残差思想），不引入额外推理延迟。设计给Transformer用，但更多落地在Diffusion Model（选风格、选LoRA）。

ReAct（2022）：Agent的起源

作者姚顺雨（清华姚班，97年生，说唱联合社创始人），论文发表在ChatGPT之前。让模型不仅能推理，还能观察和行动——"想完以后行动，行动之后观察，观察之后再想"。他的导师是GPT-1的作者。

好问题比好答案更重要

CoT和ReAct的作者都有一个特点：定义了时代最重要的问题，论文引用量从2024年开始暴涨（O1和R1出来后）。"如果我们回过头来看，这些好问题好像没有那么难。"

十、Bitter Lesson：苦涩的教训

Richard Sutton在2018年写下的经典文章，OpenAI研究员传说"上班前喝一杯咖啡，先读一遍，然后才开始干活"。

核心命题

通用方法终将胜出

从1970年至今，利用计算的通用方法最终最为有效，且优势显著。根本原因在于计算单位成本的持续指数级下降。目前能以这种方式无限扩展的两种方法：搜索（Search）和学习（Learning）。

Sutton（原文翻译）

AI研究者试图将知识编码入其智能体，这在短期内总是有效，且令研究者个人满足。但长期会陷入平台期，甚至阻碍进展。突破性进展最终来自相反路径——通过搜索和学习实现计算规模扩展。这种成功带来苦涩，因为它战胜了备受青睐的、以人类为中心的研究方式。

现实中的Bitter Lesson

手工特征（短期有效）

Cursor的multi-agent system需要人组织agent
Claude Code的System Prompt中规定"超过6位数请用Python"
Agent工程中手动安排工作流

通用方法（长期胜出）

Claude Code的single agent让模型自己组织
理想中模型应自己知道何时用计算器
"相信梯度下降就可以了"——杨植麟

Dario Amodei（引述）

在我们不做假设的时候，梯度下降比我们所有人更聪明。

十一、Infra与数据变迁：ZeRO、Scaling Law与MegaScale

ZeRO / DeepSpeed（2019）

模型参数从亿到千亿，但GPU显存只从16G到80G——一张卡装不下一个模型。微软余教授团队开发ZeRO框架（后开源为DeepSpeed），优化内存冗余，让可训练模型大小与GPU集群总显存成正比，理论上可无限扩展。

Scaling Law：两篇关键论文

OpenAI版（2020）

发现模型性能与计算量、数据量、参数量存在对数线性关系
建议给定计算预算下训尽可能大的模型
可用小模型实验预测大模型性能

DeepMind Chinchilla版

认为OpenAI策略导致模型"训练不足"
模型参数翻倍时，数据量也应翻倍
用更多数据训更小模型 > 更少数据训更大模型

Scaling Law的实际用途

不是为了画漂亮曲线——是为了用小模型实验预测大模型结果，做取舍决策。"你不可能每个实验都放在最大规模上，每个实验做三个月你受不了。"做完取舍后一次性做完整预训练——这时Scaling Law是否work就决定了"三个月后开盲盒"的结果。

MegaScale（2024，字节跳动）

第一篇公开发表的万卡集群训练论文。在2020-2022年间，全球只有三家公司有万卡训练经验：OpenAI、Google、DeepSeek。

万卡集群的核心挑战

训练效率：一万张卡弄不好效率还不如一千张卡
训练稳定性：GPU会物理损坏或比特翻转，需要监控→诊断→定位→踢卡→补卡→恢复
算法-Infra协同设计：DeepSeek V3论文中，张量并行正好贴着H800带宽限制，实现计算与通信几乎完美平衡

谢青池

现代训练中MFU（GPU使用率）只有50%甚至不到。也就是说有50%的GPU算力被空置。理论上如果做到100%，我们就可以少一半的卡。而且50%已经是非常好的水平了。

GPT系列模型参数量与数据量演进

十二、语言模型演进：从Word2Vec到GPT-3

Word2Vec（2013）：单词的向量化

过去单词被视为孤立原子——"苹果"只有一个意思。Word2Vec找到了连续的向量表示：King - Man + Woman ≈ Queen，意大利 - 罗马 ≈ 法国 - 巴黎。一作Thomas Mikolov，二作Jeff Dean。

从Word到Token的演化

Word2Vec向量化对象是单词，现在向量化对象已是Token。GPT-4的Token量约10万个，Token是比文字更少、更抽象的单位。经典测试"Strawberry有几个R"——模型总测不对，因为模型不认识字母，只认识Token。

GPT系列的信仰之路

GPT-1（2018）：开创范式

0.1B参数，5GB书籍数据。首次在NLP提出"无监督预训练 + 监督微调"，Decoder-only + Next Token Prediction。作者Alec Radford。

BERT登场：GPT被碾压

Google的BERT用双向表示（完形填空），0.11B就刷了几乎所有榜单。BERT论文直接批评GPT的单向架构"次优"且"可能非常有害"。整个NLP领域转向BERT。

GPT-2（2019）：坚持信仰

1.5B参数（放大10倍），40GB数据（爬Reddit高赞内容）。发现无需微调即可泛化到不同NLP任务——Zero-shot概念首次提出。OpenAI没有转向BERT。

组织调整：All In

GPT-2发布后一个月，Sam推动成立有限盈利公司。2019年7月微软注资10亿美元。砍掉玩魔方、玩游戏、强化学习等所有团队，所有人堵一个方向。

GPT-3（2020）：验证Scaling Law

1750亿参数（放大100倍），570GB数据（Common Crawl清洗），作者从6人暴增到31人。验证了上下文学习能力，开始用Scaling Law指导决策。

谢青池

即使在那个时候，OpenAI里面也不是每个人都信。GPT-1的作者之一并不坚信这件事情——哪怕你是作者也不信。但有几个核心的人信：Ilya肯定是信的，Sam肯定也信，因为他去搞钱了。

关键辨析

GPT vs BERT：为什么GPT最终胜出？

BERT更擅长语言建模（更小模型、更好效果），但开放性不强。GPT的Next Token Prediction是一种"大型隐式多任务学习"——预测数学的下一个Token、又要预测地理问题的下一个Token，被迫学到更通用的世界知识。这需要更大数据和更大规模才能显现，但天花板更高。

十三、InstructGPT与对齐：通往ChatGPT之路

InstructGPT（2022）：RLHF的诞生

GPT-3"很强大但不好用"——生成不真实、有毒、无助于用户的输出。一作欧阳龙（华人），合作者John Schulman（PPO作者，第一个在语言模型领域把强化学习搞work的人）。

训练流程

雇佣40多个合同工构建SFT数据（大几千条）和排序标注
合同工给模型输出打"优良中差"分，得到大量偏好对
用偏好数据训练Reward Model，再用RLHF让模型对齐人类意图

100x

1.3B InstructGPT在指令遵循上优于175B GPT-3

~40人

合同工标注团队（论文逐一列名）

承前启后

Dario看到变化后离职创立Anthropic

Tulu：后训练的开源标杆

Allen AI研究所（微软联合创始人Paul Allen资助）基于Llama 3.1做后训练，公开全部流程、数据、代码、配方。效果超过原版Llama 3、Qwen 2.5、Mistral，可与GPT-4o竞争。一作Nathan Lambert是知名Substack作者。

十四、多模态变迁：视频、GAN、Diffusion与ViT

视频理解：从李飞飞到双流网络

2014年，Andrej Karpathy（李飞飞的博士生，后为OpenAI创始成员、特斯拉AI总监）构建了100万YouTube视频数据集。但发现多帧模型比单帧模型只提高了1.6个百分点——深度学习做视频"并没有做得很好"。

Koray Kavukcuoglu的双流网络解决了这个问题：将视频分为时间流（不同帧）和光流（运动信息），首次在视频理解上超越手工特征模型——视频领域的AlexNet时刻。

GAN（2014）：生成的开天辟地

对抗思想

Goodfellow的博弈框架

用判别器（警察）的loss来训练生成器（盗版画家）。"警察太强就直接把小偷摁死——就崩了。"GAN主导图像生成5-6年（2014-2019），能生成DeepFake级别的逼真图像，但训练极不稳定。

Diffusion Model的沉寂与复兴

2015年：发明但被冷落

Jessica（神经科学博士，曾做火星探测器）受物理扩散启发提出。效果远不如GAN，"发出来就被冷落了"。她自称"最不知名的工作是发明扩散模型"。

2020年：DDPM重新点亮

两个关键改进：(1)从"预测去噪后图像"改为"预测添加的噪声"（类似残差思想）；(2)用UNet做骨干网络。训练稳定、效果不比GAN差。

ViT（2020）：让数据适应模型

谢青池

如果不能让模型适应数据，就让数据适应模型。把图像每16x16像素切一块（patch），编号后变成序列，直接用Transformer处理。论文标题就是——An Image is Worth 16x16 Words。

这样图像处理可以完整享受Transformer的算法和Infra生态，不用做任何更改。大数据预训练后效果超越最先进的CNN，且消耗更少计算资源。后来Sora的DiT也是这个逻辑——把视频搞成序列，塞进Transformer。

深度学习关键论文时间线与范式变迁

十五、CLIP与Stable Diffusion：文生图的诞生

CLIP（2021）：对比学习的突破

OpenAI用4亿图文对（Instagram/微博式的图片+描述）训练，让模型学会：特朗普这个词的embedding和特朗普照片的embedding在向量空间中非常接近。无需标注数据就超越了ImageNet监督学习的最好效果。

LAION-5B：开源数据的力量

作者Schuhmann是一名德国高中物理和计算机老师，认为AI被少数巨头垄断对人类不利。他号召开源社区用CLIP过滤Common Crawl，构建了50亿图文对的数据集——比ImageNet大了一个数量级。

LAION-5B中的NSFW处理

色情图片没有删除，只做了标记。如果把这些数据去掉训练，模型会失去对人体结构的理解能力——"就像一个好的画家要看过人的裸体才知道人的结构"。所以现在所有多模态模型都保留这些数据训练（原生有能力），但在输出时关掉，而不是训练时去除。

Stable Diffusion（2021）：两大创新

创新	内容	效果
潜空间	将像素空间（1080x720）压缩到128x128的低维空间做扩散	计算量减少两个量级，且效果反而更好——"压缩可以产生智能"
交叉注意力	将CLIP文本编码器作为条件输入到UNet中	实现文生图能力——过去只能图生图

谢青池

压缩为什么能提高效果？就像费曼学习法——把书从厚读薄的过程就是学习的过程。模型也可以在从高维压缩到低维的过程中，丢掉噪声、学到更多知识的本质信息。

DiT（2022）：Transformer统一图像生成

作者谢赛宁和William Peebles将Stable Diffusion中的UNet换成Transformer，大幅提高扩展性。两人后来加入OpenAI，创建了Sora。

十六、关键人物图谱与学术脉络

两大学术阵营

欧洲：牛津/剑桥/DeepMind

更偏算法和模型结构
代表：Koray、Oriol
AlphaGo系列、双流网络

硅谷：Google Brain

更偏Infra和工程
代表：Jeff Dean、Ilya、Quoc Le、吴永辉
Transformer、GPT系列

两帮人合并成Gemini（双子星）后，"确实有些不服气"，整合第一年并不顺利。"中国内部的段子说Gemini其实是一个失败的名字——双子星意味着没有融合。"

核心人物流转图

人物	关键贡献	现在
Ilya Sutskever	AlexNet、Seq2Seq、GPT系列	SSI（新公司）
Jeff Dean	MapReduce、TensorFlow、蒸馏	Google首席科学家
Noam Shazeer	Transformer、MoE	Character AI → Google
吴永辉	Google翻译（神经网络版）	字节SEED预训练负责人
Oriol Vinyals	Seq2Seq、蒸馏	Gemini预训练负责人
Andrej Karpathy	视频理解、特斯拉Transformer视觉	教育者/YouTube
何恺明	ResNet	MIT教授
姚顺雨	ReAct	OpenAI研究员

关于成果盛产期

青池观察：多数情况下还是年轻研究员出成果——"没有历史包袱"。但硅谷也有工程师走上管理岗后仍然hands-on写代码的文化。"美国其实没有算法工程师、前端工程师、后端工程师这种太明显的区分——他们只有软件工程师和硬件工程师。"

十七、启示与延伸思考

1. 架构创新需要硬件适配

Transformer统一江湖的根本原因不仅是建模能力强，更在于它"抽中了硬件彩票"——特别适合GPU并行计算。未来的新架构可能需要先有新硬件（如存算一体），然后才会应运而生。"截止到目前为止，Transformer的超参数调整都很小。"

2. Scale的三个维度必须协同

从AlexNet到GPT-3，每次重大突破都是数据、计算、模型三者同时Scale的结果。只Scale其中一个维度收效甚微。DeepSeek的V3论文展示了算法-Infra Co-design的极致——3000卡可能相当于Meta的2万卡效果。

3. 边缘范式的逆袭模式

GPT在BERT阴影下坚持了多年；Diffusion在GAN阴影下沉寂了5年；强化学习（AlphaGo Zero）在监督学习主导的时代蓄力。当前的边缘范式可能就是未来的主流——关键是"有几个核心的人信"。

4. 苦涩教训的工程实践

手工特征在短期总是有效，但长期被通用方法替代。Cursor（multi-agent）vs Claude Code（single agent）就是当下的缩影——随着模型能力增强，后者正变得越来越好用。等待有时比行动更有价值："我大概知道这个问题现在解决不了，五六个月后模型能解决。"

5. 数据工程被严重低估

LAION-5B的数据清洗细节、FineWeb的精炼互联网方法、DeepMind Chinchilla证明数据与参数应等比Scale——数据不是"有就行"。Common Crawl的清洗是精细工作，GPT-3需要专门的数据团队才能清洗。

6. 开源与闭源的博弈

LAION-5B的德国高中老师、Stable Diffusion的开源、Tulu公开全部后训练配方——开源社区持续推动AI民主化。但OpenAI从GPT-2之后逐渐闭源，CLIP只开放模型不开放数据集。这个张力至今未解。

7. AI时代的个人方法论

青池给出三层建议：(1) 多用AI——"把AI用好也是稀缺技能"；(2) 学编程——"未来更多是Builder，不会有那么多细分岗位"；(3) 读论文——"读论文反而让你没有那么焦虑"。了解原理后，你能判断哪些问题值得等待模型进步自行解决，哪些需要当下手工干预。

8. 我们仍处于极早期

青池的判断：如果比照电脑发展（大型机→中型机→小型机→PC），AI还处于"个人计算的前期"。Scaling Law没有到头——"我们还有很多地方做得很粗糙"。OpenAI在尝试构建下一代操作系统——不再通过编写好的软件获取算力，而是通过对话，用参数操作物理世界API。

开源一段论文探索之旅

目录