本期嘉宾谢青池,美团光年之外的产品负责人,本科和研究生读的计算机,毕业后在豆瓣做产品,中间九年创业(O2O、消费),2022年GPT来临时开始系统性地自学AI论文。她用一年多时间啃了200多篇、不到300篇AI论文,从"全然不得要领"到逐步入门。
青池强调,读论文最难的不是单点知识,而是"不知道为什么要这么做"。作者写论文跟做产品一样——要解决一个问题,有历史背景、方法选择和效果验证。理解"为什么"比理解"是什么"更重要。
| 类型 | 资源 | 特点 |
|---|---|---|
| 视频 | 吴恩达 机器学习/AI课程 | 入门经典 |
| 视频 | 李宏毅 深层式AI时代下的机器学习(2025版) | B站有授权版 |
| 视频 | Andrej Karpathy YouTube | 质量极高 |
| 视频 | 李沐 论文精读系列(B站) | "每个精读视频我都看过两三遍" |
| 视频 | 3Blue1Brown | 数学/神经网络可视化科普 |
| 书籍 | 《动手学深度学习》(d2l.ai) | 开源,李沐是作者之一 |
| 书籍 | 《深度学习中的数学》 | 补概率论基础 |
| 工具 | Claude Artifact / 豆包 可视化 | 让AI做可视化讲原理 |
深度神经网络的发展随四个要素推进:芯片(算力载体)、Infra(操作芯片的软件系统)、数据、模型结构。
2004年,以Flops衡量,GPU因高度并行的处理结构,计算能力快速超越CPU。但给GPU编程极其痛苦——着色器编程语言接近汇编,缺乏高级抽象。
一作Ian Buck和导师团队将超级计算机使用的Brook语言移植到GPU上,开创了GPU通用计算的基本框架:流(Stream)、核函数(Kernel)、规约(Reduce)。Buck毕业后加入英伟达,是CUDA创始成员,至今仍是CUDA的VP。
Brook论文的赞助商里还有ATI——当时ATI也做了类似CUDA的东西,所有GPU厂家都做了。但只有英伟达坚持下来了,其他厂家没有坚持住,退出市场。"并不是老黄很有远见"——他当时对GPU的设想基本不包含现代AI的东西,这是一个坚持的结果。
李飞飞团队创建了ImageNet数据集(1400万张标注图像,2万多类别),并从2010年开始举办竞赛。前三届参赛队伍递减(13支→7支→6支),"眼看就办不下去了"。
余凯团队(NEC)用传统特征提取方法夺冠,"做到第一名后就没关注了"
AlexNet横空出世,比第二名好出十几个百分点,震惊整个行业
AlexNet是那个时代第一篇同时scale了数据、计算量和模型规模的工作。6250万参数、65万神经元(现在看只有0.06B)。数据得益于ImageNet,计算得益于Alex搞定GPU,三者协同产生了范式变迁的结果。
深度学习突破从视觉开始,2014年来到了自然语言处理领域。当时各子领域各做各的研究、各开各的会。
| 论文 | 核心作者 | 后续去向 |
|---|---|---|
| Seq2Seq | Ilya、Oriol、Quoc Le | Oriol:Gemini预训练负责人;Quoc Le:Gemini后训练负责人 |
| Attention(Bahdanau) | Bahdanau、Yoshua Bengio | Bengio:2018年图灵奖得主 |
2015年,人们发现模型搞大到100层以上,不但不会变更好,反而变更差——"模型退化"问题。ResNet引入残差连接,将学习目标从"学习F(x)"变为"学习F(x)+x",彻底解决退化问题。
Hinton、Oriol和Jeff Dean合作。核心思想:用大模型(教师)的完整概率分布(软标签)训练小模型(学生),不仅给最终答案(硬标签),还给"没有选择的那些概率"。
RNN天生有时序依赖,没有抽中硬件彩票(不适合GPU并行)。CNN难以捕捉长距离依赖。作者们想:既然注意力机制那么好用,能不能只要注意力机制?
八位作者当时都在Google,后来都离开了。最有名的Noam Shazeer后来创立了Character AI——工程能力与算法能力兼备,大量手搓模型让推理成本极低。
Transformer需要位置编码来感知序列顺序("我打你"和"你打我"不同)。后来有一个重要改进——旋转位置编码(RoPE),由苏剑林提出,成为现代模型的标准组件。
2017年回头看有三个极重要的工作:Transformer、AlphaGo Zero、MoE。
作者之一Koray Kavukcuoglu后来是Inflection的Co-Founder,Inflection被微软并购后成为微软AI负责人。他也是双流网络(视频理解)的作者。
MoE概念由Hinton在90年代提出,2017年被Noam重新发明。核心逻辑:人脑是分区的、稀疏的——每次思考不激活所有区域。训练超大参数模型,推理时只激活小部分,获得"1000倍模型容量提升,计算效率仅略有损失"。
作者Jason Wei,OpenAI少数只有本科学历的研究员,达特茅斯毕业的华人。发现只要向模型展示推导的中间步骤——"请你一步一步思考"——就能大幅提高推理表现。
作者Edward Hu(华人,Yoshua Bengio学生),解决大模型微调成本高的问题。核心:在模型旁边加两个小矩阵,只学习增量(类似ResNet的残差思想),不引入额外推理延迟。设计给Transformer用,但更多落地在Diffusion Model(选风格、选LoRA)。
作者姚顺雨(清华姚班,97年生,说唱联合社创始人),论文发表在ChatGPT之前。让模型不仅能推理,还能观察和行动——"想完以后行动,行动之后观察,观察之后再想"。他的导师是GPT-1的作者。
CoT和ReAct的作者都有一个特点:定义了时代最重要的问题,论文引用量从2024年开始暴涨(O1和R1出来后)。"如果我们回过头来看,这些好问题好像没有那么难。"
Richard Sutton在2018年写下的经典文章,OpenAI研究员传说"上班前喝一杯咖啡,先读一遍,然后才开始干活"。
从1970年至今,利用计算的通用方法最终最为有效,且优势显著。根本原因在于计算单位成本的持续指数级下降。目前能以这种方式无限扩展的两种方法:搜索(Search)和学习(Learning)。
模型参数从亿到千亿,但GPU显存只从16G到80G——一张卡装不下一个模型。微软余教授团队开发ZeRO框架(后开源为DeepSpeed),优化内存冗余,让可训练模型大小与GPU集群总显存成正比,理论上可无限扩展。
不是为了画漂亮曲线——是为了用小模型实验预测大模型结果,做取舍决策。"你不可能每个实验都放在最大规模上,每个实验做三个月你受不了。"做完取舍后一次性做完整预训练——这时Scaling Law是否work就决定了"三个月后开盲盒"的结果。
第一篇公开发表的万卡集群训练论文。在2020-2022年间,全球只有三家公司有万卡训练经验:OpenAI、Google、DeepSeek。
过去单词被视为孤立原子——"苹果"只有一个意思。Word2Vec找到了连续的向量表示:King - Man + Woman ≈ Queen,意大利 - 罗马 ≈ 法国 - 巴黎。一作Thomas Mikolov,二作Jeff Dean。
Word2Vec向量化对象是单词,现在向量化对象已是Token。GPT-4的Token量约10万个,Token是比文字更少、更抽象的单位。经典测试"Strawberry有几个R"——模型总测不对,因为模型不认识字母,只认识Token。
0.1B参数,5GB书籍数据。首次在NLP提出"无监督预训练 + 监督微调",Decoder-only + Next Token Prediction。作者Alec Radford。
Google的BERT用双向表示(完形填空),0.11B就刷了几乎所有榜单。BERT论文直接批评GPT的单向架构"次优"且"可能非常有害"。整个NLP领域转向BERT。
1.5B参数(放大10倍),40GB数据(爬Reddit高赞内容)。发现无需微调即可泛化到不同NLP任务——Zero-shot概念首次提出。OpenAI没有转向BERT。
GPT-2发布后一个月,Sam推动成立有限盈利公司。2019年7月微软注资10亿美元。砍掉玩魔方、玩游戏、强化学习等所有团队,所有人堵一个方向。
1750亿参数(放大100倍),570GB数据(Common Crawl清洗),作者从6人暴增到31人。验证了上下文学习能力,开始用Scaling Law指导决策。
BERT更擅长语言建模(更小模型、更好效果),但开放性不强。GPT的Next Token Prediction是一种"大型隐式多任务学习"——预测数学的下一个Token、又要预测地理问题的下一个Token,被迫学到更通用的世界知识。这需要更大数据和更大规模才能显现,但天花板更高。
GPT-3"很强大但不好用"——生成不真实、有毒、无助于用户的输出。一作欧阳龙(华人),合作者John Schulman(PPO作者,第一个在语言模型领域把强化学习搞work的人)。
Allen AI研究所(微软联合创始人Paul Allen资助)基于Llama 3.1做后训练,公开全部流程、数据、代码、配方。效果超过原版Llama 3、Qwen 2.5、Mistral,可与GPT-4o竞争。一作Nathan Lambert是知名Substack作者。
2014年,Andrej Karpathy(李飞飞的博士生,后为OpenAI创始成员、特斯拉AI总监)构建了100万YouTube视频数据集。但发现多帧模型比单帧模型只提高了1.6个百分点——深度学习做视频"并没有做得很好"。
Koray Kavukcuoglu的双流网络解决了这个问题:将视频分为时间流(不同帧)和光流(运动信息),首次在视频理解上超越手工特征模型——视频领域的AlexNet时刻。
用判别器(警察)的loss来训练生成器(盗版画家)。"警察太强就直接把小偷摁死——就崩了。"GAN主导图像生成5-6年(2014-2019),能生成DeepFake级别的逼真图像,但训练极不稳定。
Jessica(神经科学博士,曾做火星探测器)受物理扩散启发提出。效果远不如GAN,"发出来就被冷落了"。她自称"最不知名的工作是发明扩散模型"。
两个关键改进:(1)从"预测去噪后图像"改为"预测添加的噪声"(类似残差思想);(2)用UNet做骨干网络。训练稳定、效果不比GAN差。
这样图像处理可以完整享受Transformer的算法和Infra生态,不用做任何更改。大数据预训练后效果超越最先进的CNN,且消耗更少计算资源。后来Sora的DiT也是这个逻辑——把视频搞成序列,塞进Transformer。
OpenAI用4亿图文对(Instagram/微博式的图片+描述)训练,让模型学会:特朗普这个词的embedding和特朗普照片的embedding在向量空间中非常接近。无需标注数据就超越了ImageNet监督学习的最好效果。
作者Schuhmann是一名德国高中物理和计算机老师,认为AI被少数巨头垄断对人类不利。他号召开源社区用CLIP过滤Common Crawl,构建了50亿图文对的数据集——比ImageNet大了一个数量级。
色情图片没有删除,只做了标记。如果把这些数据去掉训练,模型会失去对人体结构的理解能力——"就像一个好的画家要看过人的裸体才知道人的结构"。所以现在所有多模态模型都保留这些数据训练(原生有能力),但在输出时关掉,而不是训练时去除。
| 创新 | 内容 | 效果 |
|---|---|---|
| 潜空间 | 将像素空间(1080x720)压缩到128x128的低维空间做扩散 | 计算量减少两个量级,且效果反而更好——"压缩可以产生智能" |
| 交叉注意力 | 将CLIP文本编码器作为条件输入到UNet中 | 实现文生图能力——过去只能图生图 |
作者谢赛宁和William Peebles将Stable Diffusion中的UNet换成Transformer,大幅提高扩展性。两人后来加入OpenAI,创建了Sora。
两帮人合并成Gemini(双子星)后,"确实有些不服气",整合第一年并不顺利。"中国内部的段子说Gemini其实是一个失败的名字——双子星意味着没有融合。"
| 人物 | 关键贡献 | 现在 |
|---|---|---|
| Ilya Sutskever | AlexNet、Seq2Seq、GPT系列 | SSI(新公司) |
| Jeff Dean | MapReduce、TensorFlow、蒸馏 | Google首席科学家 |
| Noam Shazeer | Transformer、MoE | Character AI → Google |
| 吴永辉 | Google翻译(神经网络版) | 字节SEED预训练负责人 |
| Oriol Vinyals | Seq2Seq、蒸馏 | Gemini预训练负责人 |
| Andrej Karpathy | 视频理解、特斯拉Transformer视觉 | 教育者/YouTube |
| 何恺明 | ResNet | MIT教授 |
| 姚顺雨 | ReAct | OpenAI研究员 |
青池观察:多数情况下还是年轻研究员出成果——"没有历史包袱"。但硅谷也有工程师走上管理岗后仍然hands-on写代码的文化。"美国其实没有算法工程师、前端工程师、后端工程师这种太明显的区分——他们只有软件工程师和硬件工程师。"
Transformer统一江湖的根本原因不仅是建模能力强,更在于它"抽中了硬件彩票"——特别适合GPU并行计算。未来的新架构可能需要先有新硬件(如存算一体),然后才会应运而生。"截止到目前为止,Transformer的超参数调整都很小。"
从AlexNet到GPT-3,每次重大突破都是数据、计算、模型三者同时Scale的结果。只Scale其中一个维度收效甚微。DeepSeek的V3论文展示了算法-Infra Co-design的极致——3000卡可能相当于Meta的2万卡效果。
GPT在BERT阴影下坚持了多年;Diffusion在GAN阴影下沉寂了5年;强化学习(AlphaGo Zero)在监督学习主导的时代蓄力。当前的边缘范式可能就是未来的主流——关键是"有几个核心的人信"。
手工特征在短期总是有效,但长期被通用方法替代。Cursor(multi-agent)vs Claude Code(single agent)就是当下的缩影——随着模型能力增强,后者正变得越来越好用。等待有时比行动更有价值:"我大概知道这个问题现在解决不了,五六个月后模型能解决。"
LAION-5B的数据清洗细节、FineWeb的精炼互联网方法、DeepMind Chinchilla证明数据与参数应等比Scale——数据不是"有就行"。Common Crawl的清洗是精细工作,GPT-3需要专门的数据团队才能清洗。
LAION-5B的德国高中老师、Stable Diffusion的开源、Tulu公开全部后训练配方——开源社区持续推动AI民主化。但OpenAI从GPT-2之后逐渐闭源,CLIP只开放模型不开放数据集。这个张力至今未解。
青池给出三层建议:(1) 多用AI——"把AI用好也是稀缺技能";(2) 学编程——"未来更多是Builder,不会有那么多细分岗位";(3) 读论文——"读论文反而让你没有那么焦虑"。了解原理后,你能判断哪些问题值得等待模型进步自行解决,哪些需要当下手工干预。
青池的判断:如果比照电脑发展(大型机→中型机→小型机→PC),AI还处于"个人计算的前期"。Scaling Law没有到头——"我们还有很多地方做得很粗糙"。OpenAI在尝试构建下一代操作系统——不再通过编写好的软件获取算力,而是通过对话,用参数操作物理世界API。