"I like to train deep neural nets on large datasets."
| 出生 | 1986年10月23日,斯洛伐克 Bratislava |
|---|---|
| 国籍 | 斯洛伐克-加拿大(15 岁随家人移民加拿大 Toronto) |
| 本科 | University of Toronto,CS + Physics 双学位,辅修数学 (2005-2009) |
| 硕士 | University of British Columbia (UBC),CS MSc (2009-2011) |
| 博士 | Stanford CS PhD (2011-2015),导师 Fei-Fei Li |
| 实习 | Google Brain (2011, 2013)、Google Research、DeepMind (2015) |
| 当前 | Anthropic 预训练团队 (2026.5.19-至今) |
| 领域 | 深度学习 / 计算机视觉 / AI 教育 / LLM 预训练 |
加入 Anthropic,在 Nick Joseph 领导的预训练团队下组建新子团队。
2024.7.16 在 X 上宣布创立 AI 原生教育平台 Eureka Labs。这是他产出最爆发的时期。
离开 Tesla 后开始 YouTube 教育创作。2023.2.9 宣布回归 OpenAI,负责 midtraining 和合成数据。
2017 年 6 月被 Elon Musk 从 OpenAI 挖走,领导 Autopilot 所有神经网络开发,后来也参与 Optimus 机器人。
2015 年 12 月 12 日 OpenAI 宣布成立,Karpathy 作为创始成员加入。
师从 Fei-Fei Li,研究图像-文本联合表征。博士论文:Connecting Images and Natural Language (2016)。
在 University of British Columbia 跟随 Michiel van de Panne 研究。
CS + Physics 双学位,辅修数学。
1986 年出生于 Bratislava(当时仍属捷克斯洛伐克)。约 15 岁随家人移民加拿大 Toronto。
2025年6月 YC AI Startup School 主题演讲《Software Is Changing (Again)》
| 时代 | 编程方式 | 代表 |
|---|---|---|
| Software 1.0 | 人类手写显式逻辑代码 | C / Python / Java(~70年) |
| Software 2.0 | 通过数据优化神经网络权重 | ImageNet / Tesla Autopilot |
| Software 3.0 | 自然语言即程序(LLM prompts) | ChatGPT / Cursor / Perplexity |
| 传统计算 | LLM 对应物 |
|---|---|
| CPU | LLM 模型本身 |
| RAM | Context Window |
| 系统调用 | API / Tool Use |
| 终端 | ChatGPT(原始命令行交互) |
| GUI 应用 | Cursor、Perplexity(定制化 LLM 应用) |
| Windows/macOS | OpenAI / Anthropic / Google(闭源 OS) |
| Linux | LLaMA 生态(开源 OS) |
Karpathy 认为我们现在处于"AI 计算的 1960s"——集中式、云端、分时共享,个人本地 AI 终端即将到来。
核心理念:造 Iron Man 战甲(人类增强),不造 Iron Man 机器人(完全自主)。
| 自主度 | 形式 | 案例 |
|---|---|---|
| 低 | Tab 补全 / 建议 | Copilot 自动补全 |
| 中 | 代码段重写 / 重构 | Cursor Cmd+K 编辑 |
| 高 | 全仓库级别重构 | Cursor Agent / Claude Code |
设计原则:快速 "生成-验证" 循环,用 GUI(diff view)而非纯文本让人类高效审查。
2025年2月提出,迅速成为硅谷最热门词汇
"你只需要看到东西、说出东西、运行东西、复制粘贴东西,大部分时候都能工作。" 程序员不再逐行审查代码,而是凭直觉和结果反馈迭代。自然语言成为编程接口,数十亿人获得了软件创造能力。
Karpathy 本人不会 Swift,但通过 AI 提示构建了一个完整的 iOS 应用。他还用 3Blue1Brown 的 Manim 库(通过纯提示)制作了数学可视化动画。HuggingFace 的 Tom Wolf 分享了小朋友通过 vibe coding 构建应用的视频。
原型容易,生产困难。DevOps、身份认证(如 Google 登录集成)、部署仍然是复杂挑战。Vibe Coding 适合快速验证想法,但完整产品仍需要深度工程能力。
Karpathy 将 LLM 描述为 "人类灵魂的随机模拟"(People Spirits)
| 缺陷 | 描述 | 类比 |
|---|---|---|
| 幻觉 | 自信地生成虚假信息 | — |
| 锯齿智能 | 某些领域超人,某些领域犯低级错误 | Rain Man(雨人) |
| 顺行性遗忘 | 无法在上下文窗口外形成长期记忆 | Memento / 50 First Dates |
启示:LLM 强大但脆弱,系统设计必须围绕这种双重性——既利用其百科全书式的知识,又为其失败模式设计安全网。
Karpathy 预测:这不是 "Agent 之年",而是 "Agent 之十年"
| 传统做法 | Agent-First 做法 |
|---|---|
| "点击这里" 文档 | 机器可读的 Markdown + curl 命令 |
| GUI 工作流 | 结构化 JSON API |
| robots.txt | llms.txt(告诉 AI 如何理解你的网站) |
| 人类阅读的代码库 | LLM 友好的文档(Deep Wiki 等工具) |
"Meet LLMs halfway" — 重构数字基础设施,让 Agent 能高效访问和处理信息。
每个项目都体现了 "去掉黑盒,从零实现" 的哲学
纯 C/CUDA 实现 GPT-2 训练。CPU 版本仅 ~1000 行代码。不依赖 PyTorch (245MB) 和 cPython (107MB)。展示了 LLM 训练的本质极其简洁。
github.com/karpathy/llm.c最简洁的 GPT 训练/微调代码。~300 行训练脚本。用于教学——理解 Transformer 的每一个细节。
github.com/karpathy/nanoGPT最小 BPE tokenizer 实现。揭示了 LLM "看世界的方式"——token 是 LLM 的原子单位,理解 tokenization 才能理解 LLM 的行为。
github.com/karpathy/minbpe50 行代码的自动微分引擎。用于教学反向传播——看完代码你就完全理解了深度学习的数学基础。
github.com/karpathy/micrograd多层 RNN 字符级语言模型。配套博客 "The Unreasonable Effectiveness of RNNs" 是深度学习史上最有影响力的科普文之一。
github.com/karpathy/char-rnn用 $100 云 GPU 在 4 小时内训练出自己的 ChatGPT。单脚本"speedrun"——跑完就有 web UI 可对话。最小实验台,用于后续 AI Agent 研究(Org Engineering 实验)。
github.com/karpathy/nanochatGPT 的最小 PyTorch 实现。证明了 GPT 架构惊人的简洁——核心就是 attention + MLP 的堆叠。
github.com/karpathy/minGPT全球最好的深度学习入门课程之一,完全免费
| # | 主题 | 核心项目 |
|---|---|---|
| 1 | 反向传播入门 | 从零构建 micrograd |
| 2 | 语言模型基础 | 构建 makemore(bigram → MLP) |
| 3-5 | MLP / BatchNorm / 激活函数 | 手写所有层,理解梯度流 |
| 6 | 手动反向传播 | 不用 .backward(),手算每个梯度 |
| 7 | Transformer | 从零构建 GPT |
| 8 | Tokenization | 构建 BPE tokenizer |
| 9 | GPT-2 复现 | 完整训练流程 |
| 10 | LLM 全景 | Intro to LLMs (1hr) |
2019年发表,至今仍是 ML 从业者的必读指南
1. 神经网络训练是一个 leaky abstraction——一旦偏离标准场景,你必须理解底层运作
2. 神经网络训练 静默失败——大多数错误是逻辑性的而非语法性的,不会抛异常
2021 年 Tesla 移除前向雷达,仅靠 8 个摄像头实现 FSD。Karpathy 的论证逻辑:
1. 人类仅用视觉就能安全驾驶 → 视觉信息理论上充分
2. 多传感器融合增加了系统复杂度和 failure mode
3. 纯视觉方案可以无限扩展(摄像头便宜),数据飞轮转得更快
4. 最终目标是端到端神经网络,而非规则拼接
部署 → 数据回流 → 自动发现困难场景 → 标注 → 训练 → 再部署
百万辆车就是百万个数据采集器。Shadow mode 在后台运行新模型,对比结果不一致时自动触发数据上传。这是 Software 2.0 在现实世界中规模最大的实践。
在 Dwarkesh Patel 播客中,Karpathy 坦言自动驾驶仍未"解决"——"这是一个漫长的 nines 之旅"(从 99% → 99.9% → 99.99%)。体现了他对技术诚实的品质:曾经主导这项技术的人,也会公开承认其距离完美还很远。
PhD 期间就做出 CS231n,离开 Tesla 后做教育,YouTube 免费教学。他相信知识应该被传播而非垄断。在 Lex Fridman 播客中建议初学者:"公开教学——写博客、发推、分享 GitHub 仓库——来固化理解。"
所有教学从零手写(micrograd 50 行、nanoGPT 300 行)。Tesla 纯视觉决策、llm.c 去掉 PyTorch 用纯 C。每次都在问:"这个东西的本质是什么?能不能更简单?"
不只是学习者,而是通过创造来学习:char-rnn 博文、minGPT、nanoGPT、llm.c、minbpe、Zero to Hero 系列。每个项目都是 "我理解了这个东西" 的证明。
"Software 2.0" (2017) → "LLM OS" (2023) → "Vibe Coding" (2025.2) → "Software 3.0" (2025.6) → "Agentic Engineering" (2026.2) → "Org Engineering" (2026.2)。每隔一段时间就能把模糊趋势凝练成一个 meme,定义整个行业的对话框架。
2026.1 公开说"4 个月没写代码了"——他不只是理论上提出 Vibe Coding 和 Agentic Engineering,而是自己完全践行。用 AI Agent 建 wiki、做研究、管理信息流。他的 LLM Wiki 已经增长到约 100 篇文章 / 40 万字——几乎不需要手动触碰。
公开说 AGI 仍需十年。离开 Tesla 后坦言自动驾驶未解决。不过度承诺,不追逐 hype。"这是一个 nines 的渐进之旅"。
学术→创业→大厂→教育→再创业,始终围绕 AI + 教育两条主线。每次角色切换都在新的维度深化理解:研究→工程→规模化→传播。
这篇 Medium 文章是 Karpathy 最具前瞻性的写作之一,早在 ChatGPT 出现 5 年前就预见了 AI 对软件工程的根本重塑。
在 Software 2.0 中,"源代码"不再是人写的逻辑,而是 1) 定义期望行为的数据集 + 2) 神经网络架构。训练过程就是"编译器",生成的权重就是"二进制"。
| 领域 | 从… | 到… |
|---|---|---|
| 视觉识别 | 手工特征 + SVM | ConvNet 端到端学习 |
| 语音识别 | GMM + HMM | 端到端神经网络 |
| 语音合成 | 拼接机制 | WaveNet 直接生成原始音频 |
| 机器翻译 | 短语统计模型 | Seq2Seq / Transformer |
| 游戏 | 手写搜索 + 评估 | AlphaGo Zero 自我对弈 |
| 数据库索引 | B-Tree | Learned Index(速度 +70%,内存 -90%) |
计算同质性:只有矩阵乘法 + ReLU,容易优化和验证
硬件友好:小指令集天然适合 ASIC / 神经形态芯片
恒定资源:没有动态内存分配、没有内存泄漏
端到端优化:分开训练的模块可以融合、联合反向传播
敏捷性:想要更快?减少通道数重新训练。有更多数据?增加通道数重新训练。
2 小时 25 分钟的深度对话,被认为是 2025 年最重要的 AI 播客之一
| 话题 | Karpathy 的立场 |
|---|---|
| AGI 时间线 | 十年渐进之旅,不是一年飞跃。"比你在 SF AI house party 听到的保守 5-10 倍" |
| 强化学习 | "RL is terrible — but everything else is much worse." 只能检查最终结果说"多做这种",像民主制度一样 |
| 模型坍缩 | 让模型想同一件事 10 次,"个个看着都合理,但分布已经坍缩得可怕" |
| March of Nines | 自动驾驶和 Agent 都是"可靠性的渐进之旅"——每多一个 9 就等于同样的工程量 |
| 当前 AI 类比 | 永久实习生——有能力但缺乏持久自主性、长期记忆和可靠工具使用 |
| 知识 vs 智能 | 想要一个 1B 参数的"认知核心"而非记忆一切的大模型——"我们太依赖规模了" |
Karpathy 发现了 LLM 与人类衰老的惊人平行:"人类也会在一生中坍缩。孩子还没有 overfit——他们的学习率高,探索空间大。"
合成数据训练之所以让模型变差,正是因为例子"静默坍缩"了——表面看着正常,实际多样性已丧失。RL 反而惩罚输出多样性,怎么提升熵是未解问题。
人类读一本书时做的事:合成数据生成、跟朋友讨论、多角度操纵信息。LLM 只做下一个 token 预测。
睡眠在学习中起关键作用——"上下文窗口有时会留下来"——LLM 没有这种机制。孩子擅长学语言但记不住细节;LLM 的记忆力反而是阻碍认知核心发展的因素。
Karpathy 在写 8000 行 nanochat 时发现 LLM 帮不上忙——模型总是用标准 DDP 而非他的自定义实现,因为它们"记错了"互联网惯例。
"行业在试图假装这很了不起,但现状并不是。这是 slop。" Vibe Coding 只适合样板代码;用英语描述意图的信息带宽远不如自动补全高效。
Karpathy 同时说"我们已经处于智能爆炸中"和"GDP 增速会维持 ~2%"。他把超级智能定义为"本质上就是自动化"——渐进过程,无离散跳变。这个立场引发了大量争议——如果你建造出比人类更聪明、更快、更便宜的头脑,结果却是一切照旧?
继 Vibe Coding 之后,Karpathy 的下一个概念命名
开发者不再写代码,而是编排 AI Agent——定义目标、约束和验证标准,让 Agent 自主执行。Spotify 一周后确认其顶级开发者自 2025.12 起就没写过代码了。
Karpathy 在 X 上分享了用 8 个 AI Agent(4 Claude + 4 Codex)组成虚拟研究实验室的实验:
配置:每个 Agent 独占 GPU,Git 分支隔离,tmux 窗格如虚拟办公室
任务:改进 nanochat 模型(如移除 logit softcap 不掉性能)
结果:视觉上很震撼但没有产出有意义的研究突破
| 失败模式 | 具体表现 |
|---|---|
| 实验设计差 | 随机或无意义的变体,缺乏强基线 |
| 无资源意识 | Agent 忽略计算成本和时间效率 |
| 虚假发现 | 一个 Agent "发现"增大 hidden size 提升 loss——但那只是训练更久了 |
| 本质问题 | "AI 擅长执行但缺乏构思能力(ideation)" |
用 prompts、角色、流程、工具、standup 作为"源代码"来编程一个组织(而非单个模型)。效率指标:组织在任意任务上产出进展的速度。从"编程计算机"进化到"编程公司"。
Karpathy 发布的 GitHub Gist,提出用 LLM 构建和维护个人知识库的新范式
传统 RAG 每次查询都重新从原始文档推导答案。LLM Wiki 让 AI 预先构建结构化 wiki——交叉引用、矛盾检测、综合分析都是预建的,而非每次查询时重构。
Karpathy 原话:"Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."
| 层 | 内容 | 谁拥有 |
|---|---|---|
| Raw Sources | 不可变的原始文档(文章、论文、数据) | 人类策展 |
| The Wiki | LLM 生成的 Markdown:摘要、实体页、概念页、对比分析 | LLM 完全拥有 |
| The Schema | 配置文档(CLAUDE.md),定义 wiki 结构和工作流 | 人机共同演化 |
| 操作 | 行为 | 价值 |
|---|---|---|
| Ingest | 读入新源→写摘要→更新索引→修改相关页面(单次可能触及 10-15 个页面) | 知识自动归纳 |
| Query | 搜索索引→读取相关页→综合回答(带引用)→好答案可回写 wiki | 探索即积累 |
| Lint | 定期检查矛盾、过时声明、孤立页面、缺失交叉引用 | 自动维护 |
Karpathy 的关键洞察:让人类放弃 wiki 的不是阅读或思考——而是 维护成本。"LLM 不会厌倦、不会忘记更新交叉引用、一次可以触及 15 个文件。" 维护成本降至接近零。
他将此追溯到 Vannevar Bush 1945 年的 Memex 概念——一个私人策展知识库。Bush 未解决的问题(谁来做维护?)正是 LLM 解决的。
Karpathy 推荐的理解 LLM 必读论文,按发展脉络排列
| # | 论文 | 核心贡献 |
|---|---|---|
| 1 | Attention Is All You Need (2017) | Transformer 架构——一切的起点 |
| 2 | GPT-1 (2018) | 生成式预训练 + 微调范式 |
| 3 | BERT (2019) | 双向预训练用于自然语言理解 |
| 4 | GPT-2 (2019) | 无监督多任务学习的涌现 |
| 5 | GPT-3 (2020) | Few-shot 学习通过规模涌现 |
| 6 | Scaling Laws (Kaplan, 2020) | 计算/数据/参数的幂律关系 |
| 7 | Chinchilla (2022) | 计算最优训练比例 |
| 8 | InstructGPT / RLHF (2022) | 通过人类反馈对齐 LLM |
| 9 | Constitutional AI (2022) | 自监督对齐 |
| 10 | Chain-of-Thought (2022) | 通过提示引导推理链 |
| 11 | Flash Attention (2022) | IO 感知的精确注意力加速 |
| 12 | LoRA (2021) | 低秩适配,高效微调 |
| 13 | LLaMA (2023) | 开源高效基础模型 |
| 14 | RAG (2020) | 检索增强生成 |
| 内容 | 链接 | 推荐度 |
|---|---|---|
| Neural Networks: Zero to Hero | 10 个视频系列 | 必看 |
| Software Is Changing (Again) | YC AI Startup School 2025.6 | 必看 |
| Intro to Large Language Models | 1hr 概览 2023.11 | 必看 |
| Tesla CVPR'21 Keynote | Autopilot 架构详解 | 推荐 |
| Lex Fridman #333 | Tesla AI / Self-Driving / AGI | 推荐 |
| Dwarkesh Patel 播客 | AGI is still a decade away (2025.10) | 必看 |
| 文章 | 链接 | 核心价值 |
|---|---|---|
| The Unreasonable Effectiveness of RNNs | 2015 | 深度学习启蒙神文 |
| A Recipe for Training Neural Networks | 2019 | ML 工程方法论圣经 |
| Software 2.0 | 2017 | 预见了 AI 对软件工程的重塑 |
| A Survival Guide to a PhD | 2016 | 读博心得,适合所有研究者 |
| 项目 | 链接 | 核心价值 |
|---|---|---|
| nanochat | github.com/karpathy/nanochat | $100/4h 训出自己的 ChatGPT |
| llm.c | github.com/karpathy/llm.c | 纯 C/CUDA 训练 GPT-2 |
| nanoGPT | github.com/karpathy/nanoGPT | 最简洁 GPT 训练代码 |
| minbpe | github.com/karpathy/minbpe | 最小 BPE tokenizer |
| micrograd | github.com/karpathy/micrograd | 50 行自动微分引擎 |
| 资源 | 链接 | 核心价值 |
|---|---|---|
| LLM Wiki 模式 | GitHub Gist (2025.12) | AI 维护的个人知识库架构(X thread 1600 万阅读) |
| LLM 必读论文清单 | Kaggle 整理 | 14 篇从 Transformer 到 LLaMA 的核心论文 |
| 平台 | 链接 |
|---|---|
| 个人网站 | karpathy.ai |
| GitHub | github.com/karpathy |
| X (Twitter) | @karpathy |
| Eureka Labs | eurekalabs.ai |