理想国 — Andrej Karpathy

Andrej Karpathy

"I like to train deep neural nets on large datasets."

出生	1986年10月23日，斯洛伐克 Bratislava
国籍	斯洛伐克-加拿大（15 岁随家人移民加拿大 Toronto）
本科	University of Toronto，CS + Physics 双学位，辅修数学 (2005-2009)
硕士	University of British Columbia (UBC)，CS MSc (2009-2011)
博士	Stanford CS PhD (2011-2015)，导师 Fei-Fei Li
实习	Google Brain (2011, 2013)、Google Research、DeepMind (2015)
当前	Anthropic 预训练团队 (2026.5.19-至今)
领域	深度学习 / 计算机视觉 / AI 教育 / LLM 预训练

完整时间线

Anthropic 预训练团队 (2026.5.19-至今)

加入 Anthropic，在 Nick Joseph 领导的预训练团队下组建新子团队。

角色："start a team focused on using Claude to accelerate pre-training research"——用 AI 来加速 AI 预训练研究。预训练是前沿模型开发中最昂贵、计算密度最高的阶段。
原话："I think the next few years at the frontier of LLMs will be especially formative. I am very excited to join the team here and get back to R&D."
教育承诺："I remain deeply passionate about education and plan to resume my work on it in time."
战略意义：OpenAI 联合创始人加入最大竞争对手。Anthropic 的判断是：AI 辅助研究（而非单纯堆算力）才是保持竞争力的关键。Karpathy 是极少数能同时跨越 LLM 理论和大规模训练实践的研究者。
Eureka Labs：公司未来状态不明确，但他的教育使命不变。
同期：Anthropic 同时招入网络安全老兵 Chris Rohlf 进入前沿红队。

Eureka Labs + 独立时期 (2024.7-2026.5)

2024.7.16 在 X 上宣布创立 AI 原生教育平台 Eureka Labs。这是他产出最爆发的时期。

开源爆发：llm.c (纯 C 训练 GPT-2)、minbpe (最小 tokenizer)、nanochat ($100 训 ChatGPT)。
2024.9.5：入选 TIME100 Most Influential People in AI。
2025.2：提出 "Vibe Coding" 概念，迅速成为硅谷热词。
2025.6：在 YC AI Startup School 发表 "Software Is Changing (Again)" 演讲，提出 Software 3.0 框架。
2025.10.13：发布 nanochat——"最疯狂的 repo"，单脚本 4h 训出可对话 LLM。
2025.10.17：Dwarkesh Patel 播客——"AGI is still a decade away"，2.5 小时深度对话，提出 March of Nines 框架。
2025.12：发布 LLM Wiki 模式 GitHub Gist（后 2026.4 X thread 获 1600 万阅读），提出 AI 维护知识库新范式。
2026.1：公开声明"4 个月没写代码了"——全面转入 Agentic Engineering 工作流。
2026.2.5：提出 "Agentic Engineering" 概念——开发者编排 Agent 而非自己写代码。
2026.2.27：X 长贴分享 8-Agent 虚拟研究实验室实验，提出 "Org Engineering" 概念。

独立创作期 + 回归 OpenAI (2022.7-2024.2)

离开 Tesla 后开始 YouTube 教育创作。2023.2.9 宣布回归 OpenAI，负责 midtraining 和合成数据。

Zero to Hero 系列：从 2022 年下半年开始发布，迅速积累百万订阅。从 micrograd 到 GPT-2 复现，完整覆盖深度学习基础。
2023.5：在 Microsoft Build 发表 "State of GPT" 演讲——拆解 GPT 训练流程的每一步。
2023.11："Intro to Large Language Models" 1 小时视频——提出 LLM OS 概念。
2024.2.13：再次离开 OpenAI。

Tesla AI 总监 (2017.6-2022.7)

2017 年 6 月被 Elon Musk 从 OpenAI 挖走，领导 Autopilot 所有神经网络开发，后来也参与 Optimus 机器人。

核心决策：推动"纯视觉"方案——移除雷达和超声波传感器，仅靠 8 个摄像头实现 FSD。
规模化成就：管理数百万辆车的数据回流 pipeline、自动标注系统、大规模分布式训练基础设施。
重要节点：2019 Tesla Autonomy Day 演讲、2020 ScaledML 演讲、2021 CVPR Keynote、2021.8 Tesla AI Day。
2019.4：发表 "A Recipe for Training Neural Networks" 博文——至今仍是 ML 工程师必读。
2020：入选 MIT Technology Review "Innovators Under 35"。
2022.7.13：宣布离开 Tesla。

OpenAI 联合创始人 (2015.12-2017.6)

2015 年 12 月 12 日 OpenAI 宣布成立，Karpathy 作为创始成员加入。

共同创始人：Sam Altman、Greg Brockman、Ilya Sutskever、Wojciech Zaremba、John Schulman 等。使命：确保 AGI 有益于全人类。
研究方向：生成模型（PixelCNN++, ICLR 2017）、基于网页的强化学习（World of Bits, ICML 2017）。
2017.11：发表 "Software 2.0" 博文——定义了神经网络作为新编程范式的框架，5 年后被 LLM 浪潮完全验证。

Stanford PhD (2011-2015)

师从 Fei-Fei Li，研究图像-文本联合表征。博士论文：Connecting Images and Natural Language (2016)。

实习经历：PhD 期间穿插了 3 段顶级实习——Google Brain (2011, 无监督视频学习)、Google Research (2013, YouTube 视频分类)、DeepMind (2015, 深度强化学习)。
CS231n 课程：2015 年设计并首次授课，150 名学生；2016 年增至 330 人；2017 年爆涨至 750 人，成为 Stanford 历史上最受欢迎的课程之一。课程录像在 YouTube 上获得数百万观看。
关键论文：CVPR 2014 (大规模视频分类, Oral)、CVPR 2015 (深度视觉-语义对齐, Oral)、IJCV 2015 (ImageNet 挑战赛论文)、CVPR 2016 (DenseCap, Oral)。
开源项目：char-rnn (2015.5)——用 RNN 生成莎士比亚/LaTeX/Linux 代码；ConvNetJS——在浏览器中训练神经网络的 JS 库。
博文出圈：2015.5 发表 "The Unreasonable Effectiveness of RNNs"，成为深度学习史上最有影响力的科普文之一。

UBC 硕士 (2009-2011)

在 University of British Columbia 跟随 Michiel van de Panne 研究。

研究方向：四足动物运动技能的深度强化学习。发表 SIGGRAPH 2011 论文 "Locomotion Skills for Simulated Quadrupeds"——用神经网络让虚拟动物学会奔跑。

University of Toronto 本科 (2005-2009)

CS + Physics 双学位，辅修数学。

UofT 背景：Geoffrey Hinton 所在的深度学习摇篮。Karpathy 在这里接触到神经网络的基础理论和实验方法。

少年时代：斯洛伐克 → 加拿大 (1986-2005)

1986 年出生于 Bratislava（当时仍属捷克斯洛伐克）。约 15 岁随家人移民加拿大 Toronto。

自学编程：高中期间自学编程语言，构建小游戏，探索计算机基础。2006 年以 "badmephisto" 的身份在 YouTube 上发布魔方教学视频——这是他最早的教育内容创作。
父母的牺牲：博士论文致谢中写道："To my parents, who sacrificed the comfort of Slovakia to move our family to Canada when I was young, and in so doing allowed me to grasp new opportunities."

核心思想框架：Software 3.0

2025年6月 YC AI Startup School 主题演讲《Software Is Changing (Again)》

Karpathy 在 YC AI Startup School 2025 发表 "Software Is Changing (Again)" 演讲

软件三个时代

时代	编程方式	代表
Software 1.0	人类手写显式逻辑代码	C / Python / Java（~70年）
Software 2.0	通过数据优化神经网络权重	ImageNet / Tesla Autopilot
Software 3.0	自然语言即程序（LLM prompts）	ChatGPT / Cursor / Perplexity

LLM = 新型计算机（操作系统类比）

传统计算	LLM 对应物
CPU	LLM 模型本身
RAM	Context Window
系统调用	API / Tool Use
终端	ChatGPT（原始命令行交互）
GUI 应用	Cursor、Perplexity（定制化 LLM 应用）
Windows/macOS	OpenAI / Anthropic / Google（闭源 OS）
Linux	LLaMA 生态（开源 OS）

Karpathy 认为我们现在处于"AI 计算的 1960s"——集中式、云端、分时共享，个人本地 AI 终端即将到来。

自主性滑块（Autonomy Slider）

核心理念：造 Iron Man 战甲（人类增强），不造 Iron Man 机器人（完全自主）。

自主度	形式	案例
低	Tab 补全 / 建议	Copilot 自动补全
中	代码段重写 / 重构	Cursor Cmd+K 编辑
高	全仓库级别重构	Cursor Agent / Claude Code

设计原则：快速 "生成-验证" 循环，用 GUI（diff view）而非纯文本让人类高效审查。

"Vibe Coding" — 编程范式革命

2025年2月提出，迅速成为硅谷最热门词汇

定义

什么是 Vibe Coding？

"你只需要看到东西、说出东西、运行东西、复制粘贴东西，大部分时候都能工作。" 程序员不再逐行审查代码，而是凭直觉和结果反馈迭代。自然语言成为编程接口，数十亿人获得了软件创造能力。

实践案例

Karpathy 本人不会 Swift，但通过 AI 提示构建了一个完整的 iOS 应用。他还用 3Blue1Brown 的 Manim 库（通过纯提示）制作了数学可视化动画。HuggingFace 的 Tom Wolf 分享了小朋友通过 vibe coding 构建应用的视频。

局限性（诚实的反思）

原型容易，生产困难。DevOps、身份认证（如 Google 登录集成）、部署仍然是复杂挑战。Vibe Coding 适合快速验证想法，但完整产品仍需要深度工程能力。

LLM 心理学：超能力与认知缺陷

Karpathy 将 LLM 描述为 "人类灵魂的随机模拟"（People Spirits）

认知缺陷

缺陷	描述	类比
幻觉	自信地生成虚假信息	—
锯齿智能	某些领域超人，某些领域犯低级错误	Rain Man（雨人）
顺行性遗忘	无法在上下文窗口外形成长期记忆	Memento / 50 First Dates

启示：LLM 强大但脆弱，系统设计必须围绕这种双重性——既利用其百科全书式的知识，又为其失败模式设计安全网。

面向 Agent 的基础设施重构

Karpathy 预测：这不是 "Agent 之年"，而是 "Agent 之十年"

为 AI Agent 重构数字世界

传统做法	Agent-First 做法
"点击这里" 文档	机器可读的 Markdown + curl 命令
GUI 工作流	结构化 JSON API
robots.txt	llms.txt（告诉 AI 如何理解你的网站）
人类阅读的代码库	LLM 友好的文档（Deep Wiki 等工具）

"Meet LLMs halfway" — 重构数字基础设施，让 Agent 能高效访问和处理信息。

开源项目：从第一性原理手搓一切

每个项目都体现了 "去掉黑盒，从零实现" 的哲学

llm.c

GitHub 40k+ stars

纯 C/CUDA 实现 GPT-2 训练。CPU 版本仅 ~1000 行代码。不依赖 PyTorch (245MB) 和 cPython (107MB)。展示了 LLM 训练的本质极其简洁。

github.com/karpathy/llm.c

nanoGPT

GitHub 38k+ stars

最简洁的 GPT 训练/微调代码。~300 行训练脚本。用于教学——理解 Transformer 的每一个细节。

github.com/karpathy/nanoGPT

minbpe

GitHub 12k+ stars

最小 BPE tokenizer 实现。揭示了 LLM "看世界的方式"——token 是 LLM 的原子单位，理解 tokenization 才能理解 LLM 的行为。

github.com/karpathy/minbpe

micrograd

GitHub 10k+ stars

50 行代码的自动微分引擎。用于教学反向传播——看完代码你就完全理解了深度学习的数学基础。

github.com/karpathy/micrograd

char-rnn

经典之作 (2015)

多层 RNN 字符级语言模型。配套博客 "The Unreasonable Effectiveness of RNNs" 是深度学习史上最有影响力的科普文之一。

github.com/karpathy/char-rnn

nanochat

GitHub (2025.10)

用 $100 云 GPU 在 4 小时内训练出自己的 ChatGPT。单脚本"speedrun"——跑完就有 web UI 可对话。最小实验台，用于后续 AI Agent 研究（Org Engineering 实验）。

github.com/karpathy/nanochat

minGPT

nanoGPT 前身

GPT 的最小 PyTorch 实现。证明了 GPT 架构惊人的简洁——核心就是 attention + MLP 的堆叠。

github.com/karpathy/minGPT

YouTube: Neural Networks: Zero to Hero

全球最好的深度学习入门课程之一，完全免费

Neural Networks: Zero to Hero — YouTube 课程系列封面

课程路线图（10 个视频）

#	主题	核心项目
1	反向传播入门	从零构建 micrograd
2	语言模型基础	构建 makemore（bigram → MLP）
3-5	MLP / BatchNorm / 激活函数	手写所有层，理解梯度流
6	手动反向传播	不用 .backward()，手算每个梯度
7	Transformer	从零构建 GPT
8	Tokenization	构建 BPE tokenizer
9	GPT-2 复现	完整训练流程
10	LLM 全景	Intro to LLMs (1hr)

经典博文：A Recipe for Training Neural Networks

2019年发表，至今仍是 ML 从业者的必读指南

核心洞察

两个基本观察

1. 神经网络训练是一个 leaky abstraction——一旦偏离标准场景，你必须理解底层运作
2. 神经网络训练 静默失败——大多数错误是逻辑性的而非语法性的，不会抛异常

六步方法论

与数据合为一体 — 花数小时检查数据，寻找重复、损坏、噪声标签、不平衡。在写模型代码之前。
建立端到端 pipeline + 笨基线 — 用最简单的模型（线性分类器），固定随机种子，验证 loss 初始值，过拟合单个 batch。
过拟合 — 找到足够大的模型把训练 loss 降到很低。"Don't be a hero"——从论文里复制架构，用 Adam 3e-4。
正则化 — 牺牲训练精度换验证精度。优先级：更多真实数据 > 数据增强 > 预训练 > 减小模型 > dropout/weight decay。
调参 — 随机搜索优于网格搜索（网络对不同参数敏感度不同）。
榨取最后的性能 — Ensemble（几乎保证 +2%）、训练更长时间（网络训练的时间比你直觉想的要长得多）。

"The qualities that correlate most strongly with success in deep learning are patience and attention to detail."

— A Recipe for Training Neural Networks, 2019

Tesla 深度复盘：Software 2.0 的大规模实践

Karpathy 在 CVPR 2021 展示 Tesla Autopilot 神经网络架构

第一性原理决策

纯视觉方案（Vision-Only）

2021 年 Tesla 移除前向雷达，仅靠 8 个摄像头实现 FSD。Karpathy 的论证逻辑：

1. 人类仅用视觉就能安全驾驶 → 视觉信息理论上充分
2. 多传感器融合增加了系统复杂度和 failure mode
3. 纯视觉方案可以无限扩展（摄像头便宜），数据飞轮转得更快
4. 最终目标是端到端神经网络，而非规则拼接

数据引擎（Data Engine）闭环

部署 → 数据回流 → 自动发现困难场景 → 标注 → 训练 → 再部署

百万辆车就是百万个数据采集器。Shadow mode 在后台运行新模型，对比结果不一致时自动触发数据上传。这是 Software 2.0 在现实世界中规模最大的实践。

离开后的反思 (2025)

在 Dwarkesh Patel 播客中，Karpathy 坦言自动驾驶仍未"解决"——"这是一个漫长的 nines 之旅"（从 99% → 99.9% → 99.99%）。体现了他对技术诚实的品质：曾经主导这项技术的人，也会公开承认其距离完美还很远。

Lex Fridman Podcast #333 — 深入探讨 Tesla AI、自动驾驶、AGI 与外星生命

值得学习的品质

教育者本能

PhD 期间就做出 CS231n，离开 Tesla 后做教育，YouTube 免费教学。他相信知识应该被传播而非垄断。在 Lex Fridman 播客中建议初学者："公开教学——写博客、发推、分享 GitHub 仓库——来固化理解。"

第一性原理思维

所有教学从零手写（micrograd 50 行、nanoGPT 300 行）。Tesla 纯视觉决策、llm.c 去掉 PyTorch 用纯 C。每次都在问："这个东西的本质是什么？能不能更简单？"

产出型学习

不只是学习者，而是通过创造来学习：char-rnn 博文、minGPT、nanoGPT、llm.c、minbpe、Zero to Hero 系列。每个项目都是 "我理解了这个东西" 的证明。

概念命名力

"Software 2.0" (2017) → "LLM OS" (2023) → "Vibe Coding" (2025.2) → "Software 3.0" (2025.6) → "Agentic Engineering" (2026.2) → "Org Engineering" (2026.2)。每隔一段时间就能把模糊趋势凝练成一个 meme，定义整个行业的对话框架。

知行合一

2026.1 公开说"4 个月没写代码了"——他不只是理论上提出 Vibe Coding 和 Agentic Engineering，而是自己完全践行。用 AI Agent 建 wiki、做研究、管理信息流。他的 LLM Wiki 已经增长到约 100 篇文章 / 40 万字——几乎不需要手动触碰。

技术诚实

公开说 AGI 仍需十年。离开 Tesla 后坦言自动驾驶未解决。不过度承诺，不追逐 hype。"这是一个 nines 的渐进之旅"。

长期主义 + 多栖切换

学术→创业→大厂→教育→再创业，始终围绕 AI + 教育两条主线。每次角色切换都在新的维度深化理解：研究→工程→规模化→传播。

金句集

"The hottest new programming language is English."

— Software Is Changing (Again), 2025

"I just see things, I say things, I run things, and I copy paste things, and it mostly works."

— 关于 Vibe Coding, 2025

"The best teachers in the world should design courses, and AI should be the TA."

— Eureka Labs 发布, 2024

"Neural net training is a leaky abstraction... the qualities most correlated with success are patience and attention to detail."

— A Recipe for Training Neural Networks, 2019

"Don't be a hero. I know it's tempting to go and design your own crazy architecture... copy-paste what works."

— A Recipe for Training Neural Networks, 2019

"Build Iron Man suits, not Iron Man robots."

— 关于 AI Agent 设计哲学, 2025

"We're in the 1960s of AI computing — centralized, cloud-based, time-sharing. Personal local AI is coming."

— Software Is Changing (Again), 2025

"Humans collapse during the course of their lives. Children haven't overfit yet."

— Dwarkesh Patel 播客, 2025.10（关于模型坍缩与人类类比）

"RL is terrible — but everything else we've tried has been worse."

— Dwarkesh Patel 播客, 2025.10

"AI is adept at execution but deficient in ideation."

— X, 2026.2.27（Org Engineering 实验总结）

"The smartest student would aim for 85% in every class. Not 100%."

— 给学生的建议（把省下的时间投入真实项目和产出）

"Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."

— LLM Wiki Gist, 2025.12 / 2026.4

Software 2.0 原文解析 (2017)

这篇 Medium 文章是 Karpathy 最具前瞻性的写作之一，早在 ChatGPT 出现 5 年前就预见了 AI 对软件工程的根本重塑。

核心论点

源代码的含义已经改变

在 Software 2.0 中，"源代码"不再是人写的逻辑，而是 1) 定义期望行为的数据集 + 2) 神经网络架构。训练过程就是"编译器"，生成的权重就是"二进制"。

已被神经网络接管的领域（2017 年预测，现已全部验证）

领域	从…	到…
视觉识别	手工特征 + SVM	ConvNet 端到端学习
语音识别	GMM + HMM	端到端神经网络
语音合成	拼接机制	WaveNet 直接生成原始音频
机器翻译	短语统计模型	Seq2Seq / Transformer
游戏	手写搜索 + 评估	AlphaGo Zero 自我对弈
数据库索引	B-Tree	Learned Index（速度 +70%，内存 -90%）

Software 2.0 的独特优势

计算同质性：只有矩阵乘法 + ReLU，容易优化和验证
硬件友好：小指令集天然适合 ASIC / 神经形态芯片
恒定资源：没有动态内存分配、没有内存泄漏
端到端优化：分开训练的模块可以融合、联合反向传播
敏捷性：想要更快？减少通道数重新训练。有更多数据？增加通道数重新训练。

"When we develop AGI, it will certainly be written in Software 2.0."

— Software 2.0, Medium, 2017

Dwarkesh Patel 播客：AGI 仍需十年 (2025.10)

2 小时 25 分钟的深度对话，被认为是 2025 年最重要的 AI 播客之一

核心观点

话题	Karpathy 的立场
AGI 时间线	十年渐进之旅，不是一年飞跃。"比你在 SF AI house party 听到的保守 5-10 倍"
强化学习	"RL is terrible — but everything else is much worse." 只能检查最终结果说"多做这种"，像民主制度一样
模型坍缩	让模型想同一件事 10 次，"个个看着都合理，但分布已经坍缩得可怕"
March of Nines	自动驾驶和 Agent 都是"可靠性的渐进之旅"——每多一个 9 就等于同样的工程量
当前 AI 类比	永久实习生——有能力但缺乏持久自主性、长期记忆和可靠工具使用
知识 vs 智能	想要一个 1B 参数的"认知核心"而非记忆一切的大模型——"我们太依赖规模了"

深度洞察

模型坍缩 (Model Collapse) 与人类类比

Karpathy 发现了 LLM 与人类衰老的惊人平行："人类也会在一生中坍缩。孩子还没有 overfit——他们的学习率高，探索空间大。"

合成数据训练之所以让模型变差，正是因为例子"静默坍缩"了——表面看着正常，实际多样性已丧失。RL 反而惩罚输出多样性，怎么提升熵是未解问题。

LLM 为什么不像人类那样学习

人类读一本书时做的事：合成数据生成、跟朋友讨论、多角度操纵信息。LLM 只做下一个 token 预测。

睡眠在学习中起关键作用——"上下文窗口有时会留下来"——LLM 没有这种机制。孩子擅长学语言但记不住细节；LLM 的记忆力反而是阻碍认知核心发展的因素。

Vibe Coding 的诚实反思

Karpathy 在写 8000 行 nanochat 时发现 LLM 帮不上忙——模型总是用标准 DDP 而非他的自定义实现，因为它们"记错了"互联网惯例。

"行业在试图假装这很了不起，但现状并不是。这是 slop。" Vibe Coding 只适合样板代码；用英语描述意图的信息带宽远不如自动补全高效。

GDP 悖论：最耐人寻味的矛盾

Karpathy 同时说"我们已经处于智能爆炸中"和"GDP 增速会维持 ~2%"。他把超级智能定义为"本质上就是自动化"——渐进过程，无离散跳变。这个立场引发了大量争议——如果你建造出比人类更聪明、更快、更便宜的头脑，结果却是一切照旧？

Agentic Engineering + Org Engineering (2026.2)

继 Vibe Coding 之后，Karpathy 的下一个概念命名

2026.2.5

Agentic Engineering

开发者不再写代码，而是编排 AI Agent——定义目标、约束和验证标准，让 Agent 自主执行。Spotify 一周后确认其顶级开发者自 2025.12 起就没写过代码了。

2026.2.27

Org Engineering 实验

Karpathy 在 X 上分享了用 8 个 AI Agent（4 Claude + 4 Codex）组成虚拟研究实验室的实验：

配置：每个 Agent 独占 GPU，Git 分支隔离，tmux 窗格如虚拟办公室
任务：改进 nanochat 模型（如移除 logit softcap 不掉性能）
结果：视觉上很震撼但没有产出有意义的研究突破

AI Agent 研究团队为何失败

失败模式	具体表现
实验设计差	随机或无意义的变体，缺乏强基线
无资源意识	Agent 忽略计算成本和时间效率
虚假发现	一个 Agent "发现"增大 hidden size 提升 loss——但那只是训练更久了
本质问题	"AI 擅长执行但缺乏构思能力(ideation)"

Org Engineering 的定义

用 prompts、角色、流程、工具、standup 作为"源代码"来编程一个组织（而非单个模型）。效率指标：组织在任意任务上产出进展的速度。从"编程计算机"进化到"编程公司"。

"The next important skill might be org engineering — designing systems where teams of AI agents work together effectively."

— X, 2026.2

LLM Wiki 模式 (2025.12)

Karpathy 发布的 GitHub Gist，提出用 LLM 构建和维护个人知识库的新范式

颠覆 RAG

核心理念：Wiki 是持久的、复利增长的产物

传统 RAG 每次查询都重新从原始文档推导答案。LLM Wiki 让 AI 预先构建结构化 wiki——交叉引用、矛盾检测、综合分析都是预建的，而非每次查询时重构。

Karpathy 原话："Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."

三层架构

层	内容	谁拥有
Raw Sources	不可变的原始文档（文章、论文、数据）	人类策展
The Wiki	LLM 生成的 Markdown：摘要、实体页、概念页、对比分析	LLM 完全拥有
The Schema	配置文档（CLAUDE.md），定义 wiki 结构和工作流	人机共同演化

三个核心操作

操作	行为	价值
Ingest	读入新源→写摘要→更新索引→修改相关页面（单次可能触及 10-15 个页面）	知识自动归纳
Query	搜索索引→读取相关页→综合回答（带引用）→好答案可回写 wiki	探索即积累
Lint	定期检查矛盾、过时声明、孤立页面、缺失交叉引用	自动维护

为什么能成功

Karpathy 的关键洞察：让人类放弃 wiki 的不是阅读或思考——而是 维护成本。"LLM 不会厌倦、不会忘记更新交叉引用、一次可以触及 15 个文件。" 维护成本降至接近零。

他将此追溯到 Vannevar Bush 1945 年的 Memex 概念——一个私人策展知识库。Bush 未解决的问题（谁来做维护？）正是 LLM 解决的。

推荐论文清单：LLM Mastery

Karpathy 推荐的理解 LLM 必读论文，按发展脉络排列

#	论文	核心贡献
1	Attention Is All You Need (2017)	Transformer 架构——一切的起点
2	GPT-1 (2018)	生成式预训练 + 微调范式
3	BERT (2019)	双向预训练用于自然语言理解
4	GPT-2 (2019)	无监督多任务学习的涌现
5	GPT-3 (2020)	Few-shot 学习通过规模涌现
6	Scaling Laws (Kaplan, 2020)	计算/数据/参数的幂律关系
7	Chinchilla (2022)	计算最优训练比例
8	InstructGPT / RLHF (2022)	通过人类反馈对齐 LLM
9	Constitutional AI (2022)	自监督对齐
10	Chain-of-Thought (2022)	通过提示引导推理链
11	Flash Attention (2022)	IO 感知的精确注意力加速
12	LoRA (2021)	低秩适配，高效微调
13	LLaMA (2023)	开源高效基础模型
14	RAG (2020)	检索增强生成

Intro to Large Language Models (2023) — 1 小时全景讲解 LLM 的工作原理和未来方向

完整资源索引

视频 / 演讲

内容	链接	推荐度
Neural Networks: Zero to Hero	10 个视频系列	必看
Software Is Changing (Again)	YC AI Startup School 2025.6	必看
Intro to Large Language Models	1hr 概览 2023.11	必看
Tesla CVPR'21 Keynote	Autopilot 架构详解	推荐
Lex Fridman #333	Tesla AI / Self-Driving / AGI	推荐
Dwarkesh Patel 播客	AGI is still a decade away (2025.10)	必看

博客文章

文章	链接	核心价值
The Unreasonable Effectiveness of RNNs	2015	深度学习启蒙神文
A Recipe for Training Neural Networks	2019	ML 工程方法论圣经
Software 2.0	2017	预见了 AI 对软件工程的重塑
A Survival Guide to a PhD	2016	读博心得，适合所有研究者

开源项目

项目	链接	核心价值
nanochat	github.com/karpathy/nanochat	$100/4h 训出自己的 ChatGPT
llm.c	github.com/karpathy/llm.c	纯 C/CUDA 训练 GPT-2
nanoGPT	github.com/karpathy/nanoGPT	最简洁 GPT 训练代码
minbpe	github.com/karpathy/minbpe	最小 BPE tokenizer
micrograd	github.com/karpathy/micrograd	50 行自动微分引擎

方法论 / 工具

资源	链接	核心价值
LLM Wiki 模式	GitHub Gist (2025.12)	AI 维护的个人知识库架构（X thread 1600 万阅读）
LLM 必读论文清单	Kaggle 整理	14 篇从 Transformer 到 LLaMA 的核心论文

网站 / 社交

平台	链接
个人网站	karpathy.ai
GitHub	github.com/karpathy
X (Twitter)	@karpathy
Eureka Labs	eurekalabs.ai