理想国

向传奇人物学习,记录他们的思想、行动和轨迹
Vol.01 — Andrej Karpathy
Andrej Karpathy

Andrej Karpathy

"I like to train deep neural nets on large datasets."

出生1986年10月23日,斯洛伐克 Bratislava
国籍斯洛伐克-加拿大(15 岁随家人移民加拿大 Toronto)
本科University of Toronto,CS + Physics 双学位,辅修数学 (2005-2009)
硕士University of British Columbia (UBC),CS MSc (2009-2011)
博士Stanford CS PhD (2011-2015),导师 Fei-Fei Li
实习Google Brain (2011, 2013)、Google Research、DeepMind (2015)
当前Anthropic 预训练团队 (2026.5.19-至今)
领域深度学习 / 计算机视觉 / AI 教育 / LLM 预训练

完整时间线

Anthropic 预训练团队 (2026.5.19-至今)

加入 Anthropic,在 Nick Joseph 领导的预训练团队下组建新子团队。

角色:"start a team focused on using Claude to accelerate pre-training research"——用 AI 来加速 AI 预训练研究。预训练是前沿模型开发中最昂贵、计算密度最高的阶段。
原话:"I think the next few years at the frontier of LLMs will be especially formative. I am very excited to join the team here and get back to R&D."
教育承诺:"I remain deeply passionate about education and plan to resume my work on it in time."
战略意义:OpenAI 联合创始人加入最大竞争对手。Anthropic 的判断是:AI 辅助研究(而非单纯堆算力)才是保持竞争力的关键。Karpathy 是极少数能同时跨越 LLM 理论和大规模训练实践的研究者。
Eureka Labs:公司未来状态不明确,但他的教育使命不变。
同期:Anthropic 同时招入网络安全老兵 Chris Rohlf 进入前沿红队。

Eureka Labs + 独立时期 (2024.7-2026.5)

2024.7.16 在 X 上宣布创立 AI 原生教育平台 Eureka Labs。这是他产出最爆发的时期。

开源爆发:llm.c (纯 C 训练 GPT-2)、minbpe (最小 tokenizer)、nanochat ($100 训 ChatGPT)。
2024.9.5:入选 TIME100 Most Influential People in AI。
2025.2:提出 "Vibe Coding" 概念,迅速成为硅谷热词。
2025.6:在 YC AI Startup School 发表 "Software Is Changing (Again)" 演讲,提出 Software 3.0 框架。
2025.10.13:发布 nanochat——"最疯狂的 repo",单脚本 4h 训出可对话 LLM。
2025.10.17:Dwarkesh Patel 播客——"AGI is still a decade away",2.5 小时深度对话,提出 March of Nines 框架。
2025.12:发布 LLM Wiki 模式 GitHub Gist(后 2026.4 X thread 获 1600 万阅读),提出 AI 维护知识库新范式。
2026.1:公开声明"4 个月没写代码了"——全面转入 Agentic Engineering 工作流。
2026.2.5:提出 "Agentic Engineering" 概念——开发者编排 Agent 而非自己写代码。
2026.2.27:X 长贴分享 8-Agent 虚拟研究实验室实验,提出 "Org Engineering" 概念。

独立创作期 + 回归 OpenAI (2022.7-2024.2)

离开 Tesla 后开始 YouTube 教育创作。2023.2.9 宣布回归 OpenAI,负责 midtraining 和合成数据。

Zero to Hero 系列:从 2022 年下半年开始发布,迅速积累百万订阅。从 micrograd 到 GPT-2 复现,完整覆盖深度学习基础。
2023.5:在 Microsoft Build 发表 "State of GPT" 演讲——拆解 GPT 训练流程的每一步。
2023.11:"Intro to Large Language Models" 1 小时视频——提出 LLM OS 概念。
2024.2.13:再次离开 OpenAI。

Tesla AI 总监 (2017.6-2022.7)

2017 年 6 月被 Elon Musk 从 OpenAI 挖走,领导 Autopilot 所有神经网络开发,后来也参与 Optimus 机器人。

核心决策:推动"纯视觉"方案——移除雷达和超声波传感器,仅靠 8 个摄像头实现 FSD。
规模化成就:管理数百万辆车的数据回流 pipeline、自动标注系统、大规模分布式训练基础设施。
重要节点:2019 Tesla Autonomy Day 演讲、2020 ScaledML 演讲、2021 CVPR Keynote、2021.8 Tesla AI Day。
2019.4:发表 "A Recipe for Training Neural Networks" 博文——至今仍是 ML 工程师必读。
2020:入选 MIT Technology Review "Innovators Under 35"。
2022.7.13:宣布离开 Tesla。

OpenAI 联合创始人 (2015.12-2017.6)

2015 年 12 月 12 日 OpenAI 宣布成立,Karpathy 作为创始成员加入。

共同创始人:Sam Altman、Greg Brockman、Ilya Sutskever、Wojciech Zaremba、John Schulman 等。使命:确保 AGI 有益于全人类。
研究方向:生成模型(PixelCNN++, ICLR 2017)、基于网页的强化学习(World of Bits, ICML 2017)。
2017.11:发表 "Software 2.0" 博文——定义了神经网络作为新编程范式的框架,5 年后被 LLM 浪潮完全验证。

Stanford PhD (2011-2015)

师从 Fei-Fei Li,研究图像-文本联合表征。博士论文:Connecting Images and Natural Language (2016)。

实习经历:PhD 期间穿插了 3 段顶级实习——Google Brain (2011, 无监督视频学习)、Google Research (2013, YouTube 视频分类)、DeepMind (2015, 深度强化学习)。
CS231n 课程:2015 年设计并首次授课,150 名学生;2016 年增至 330 人;2017 年爆涨至 750 人,成为 Stanford 历史上最受欢迎的课程之一。课程录像在 YouTube 上获得数百万观看。
关键论文:CVPR 2014 (大规模视频分类, Oral)、CVPR 2015 (深度视觉-语义对齐, Oral)、IJCV 2015 (ImageNet 挑战赛论文)、CVPR 2016 (DenseCap, Oral)。
开源项目:char-rnn (2015.5)——用 RNN 生成莎士比亚/LaTeX/Linux 代码;ConvNetJS——在浏览器中训练神经网络的 JS 库。
博文出圈:2015.5 发表 "The Unreasonable Effectiveness of RNNs",成为深度学习史上最有影响力的科普文之一。

UBC 硕士 (2009-2011)

在 University of British Columbia 跟随 Michiel van de Panne 研究。

研究方向:四足动物运动技能的深度强化学习。发表 SIGGRAPH 2011 论文 "Locomotion Skills for Simulated Quadrupeds"——用神经网络让虚拟动物学会奔跑。

University of Toronto 本科 (2005-2009)

CS + Physics 双学位,辅修数学。

UofT 背景:Geoffrey Hinton 所在的深度学习摇篮。Karpathy 在这里接触到神经网络的基础理论和实验方法。

少年时代:斯洛伐克 → 加拿大 (1986-2005)

1986 年出生于 Bratislava(当时仍属捷克斯洛伐克)。约 15 岁随家人移民加拿大 Toronto。

自学编程:高中期间自学编程语言,构建小游戏,探索计算机基础。2006 年以 "badmephisto" 的身份在 YouTube 上发布魔方教学视频——这是他最早的教育内容创作。
父母的牺牲:博士论文致谢中写道:"To my parents, who sacrificed the comfort of Slovakia to move our family to Canada when I was young, and in so doing allowed me to grasp new opportunities."

核心思想框架:Software 3.0

2025年6月 YC AI Startup School 主题演讲《Software Is Changing (Again)》

Software Is Changing (Again)
Karpathy 在 YC AI Startup School 2025 发表 "Software Is Changing (Again)" 演讲

软件三个时代

时代编程方式代表
Software 1.0人类手写显式逻辑代码C / Python / Java(~70年)
Software 2.0通过数据优化神经网络权重ImageNet / Tesla Autopilot
Software 3.0自然语言即程序(LLM prompts)ChatGPT / Cursor / Perplexity

LLM = 新型计算机(操作系统类比)

传统计算LLM 对应物
CPULLM 模型本身
RAMContext Window
系统调用API / Tool Use
终端ChatGPT(原始命令行交互)
GUI 应用Cursor、Perplexity(定制化 LLM 应用)
Windows/macOSOpenAI / Anthropic / Google(闭源 OS)
LinuxLLaMA 生态(开源 OS)

Karpathy 认为我们现在处于"AI 计算的 1960s"——集中式、云端、分时共享,个人本地 AI 终端即将到来。

自主性滑块(Autonomy Slider)

核心理念:造 Iron Man 战甲(人类增强),不造 Iron Man 机器人(完全自主)。

自主度形式案例
Tab 补全 / 建议Copilot 自动补全
代码段重写 / 重构Cursor Cmd+K 编辑
全仓库级别重构Cursor Agent / Claude Code

设计原则:快速 "生成-验证" 循环,用 GUI(diff view)而非纯文本让人类高效审查。

"Vibe Coding" — 编程范式革命

2025年2月提出,迅速成为硅谷最热门词汇

定义

什么是 Vibe Coding?

"你只需要看到东西、说出东西、运行东西、复制粘贴东西,大部分时候都能工作。" 程序员不再逐行审查代码,而是凭直觉和结果反馈迭代。自然语言成为编程接口,数十亿人获得了软件创造能力。

实践案例

Karpathy 本人不会 Swift,但通过 AI 提示构建了一个完整的 iOS 应用。他还用 3Blue1Brown 的 Manim 库(通过纯提示)制作了数学可视化动画。HuggingFace 的 Tom Wolf 分享了小朋友通过 vibe coding 构建应用的视频。

局限性(诚实的反思)

原型容易,生产困难。DevOps、身份认证(如 Google 登录集成)、部署仍然是复杂挑战。Vibe Coding 适合快速验证想法,但完整产品仍需要深度工程能力。

LLM 心理学:超能力与认知缺陷

Karpathy 将 LLM 描述为 "人类灵魂的随机模拟"(People Spirits)

认知缺陷

缺陷描述类比
幻觉自信地生成虚假信息
锯齿智能某些领域超人,某些领域犯低级错误Rain Man(雨人)
顺行性遗忘无法在上下文窗口外形成长期记忆Memento / 50 First Dates

启示:LLM 强大但脆弱,系统设计必须围绕这种双重性——既利用其百科全书式的知识,又为其失败模式设计安全网。

面向 Agent 的基础设施重构

Karpathy 预测:这不是 "Agent 之年",而是 "Agent 之十年"

为 AI Agent 重构数字世界

传统做法Agent-First 做法
"点击这里" 文档机器可读的 Markdown + curl 命令
GUI 工作流结构化 JSON API
robots.txtllms.txt(告诉 AI 如何理解你的网站)
人类阅读的代码库LLM 友好的文档(Deep Wiki 等工具)

"Meet LLMs halfway" — 重构数字基础设施,让 Agent 能高效访问和处理信息。

开源项目:从第一性原理手搓一切

每个项目都体现了 "去掉黑盒,从零实现" 的哲学

llm.c

GitHub 40k+ stars

纯 C/CUDA 实现 GPT-2 训练。CPU 版本仅 ~1000 行代码。不依赖 PyTorch (245MB) 和 cPython (107MB)。展示了 LLM 训练的本质极其简洁。

github.com/karpathy/llm.c

nanoGPT

GitHub 38k+ stars

最简洁的 GPT 训练/微调代码。~300 行训练脚本。用于教学——理解 Transformer 的每一个细节。

github.com/karpathy/nanoGPT

minbpe

GitHub 12k+ stars

最小 BPE tokenizer 实现。揭示了 LLM "看世界的方式"——token 是 LLM 的原子单位,理解 tokenization 才能理解 LLM 的行为。

github.com/karpathy/minbpe

micrograd

GitHub 10k+ stars

50 行代码的自动微分引擎。用于教学反向传播——看完代码你就完全理解了深度学习的数学基础。

github.com/karpathy/micrograd

char-rnn

经典之作 (2015)

多层 RNN 字符级语言模型。配套博客 "The Unreasonable Effectiveness of RNNs" 是深度学习史上最有影响力的科普文之一。

github.com/karpathy/char-rnn

nanochat

GitHub (2025.10)

用 $100 云 GPU 在 4 小时内训练出自己的 ChatGPT。单脚本"speedrun"——跑完就有 web UI 可对话。最小实验台,用于后续 AI Agent 研究(Org Engineering 实验)。

github.com/karpathy/nanochat

minGPT

nanoGPT 前身

GPT 的最小 PyTorch 实现。证明了 GPT 架构惊人的简洁——核心就是 attention + MLP 的堆叠。

github.com/karpathy/minGPT

YouTube: Neural Networks: Zero to Hero

全球最好的深度学习入门课程之一,完全免费

Neural Networks: Zero to Hero
Neural Networks: Zero to Hero — YouTube 课程系列封面

课程路线图(10 个视频)

#主题核心项目
1反向传播入门从零构建 micrograd
2语言模型基础构建 makemore(bigram → MLP)
3-5MLP / BatchNorm / 激活函数手写所有层,理解梯度流
6手动反向传播不用 .backward(),手算每个梯度
7Transformer从零构建 GPT
8Tokenization构建 BPE tokenizer
9GPT-2 复现完整训练流程
10LLM 全景Intro to LLMs (1hr)

经典博文:A Recipe for Training Neural Networks

2019年发表,至今仍是 ML 从业者的必读指南

核心洞察

两个基本观察

1. 神经网络训练是一个 leaky abstraction——一旦偏离标准场景,你必须理解底层运作
2. 神经网络训练 静默失败——大多数错误是逻辑性的而非语法性的,不会抛异常

六步方法论

  1. 与数据合为一体 — 花数小时检查数据,寻找重复、损坏、噪声标签、不平衡。在写模型代码之前。
  2. 建立端到端 pipeline + 笨基线 — 用最简单的模型(线性分类器),固定随机种子,验证 loss 初始值,过拟合单个 batch。
  3. 过拟合 — 找到足够大的模型把训练 loss 降到很低。"Don't be a hero"——从论文里复制架构,用 Adam 3e-4。
  4. 正则化 — 牺牲训练精度换验证精度。优先级:更多真实数据 > 数据增强 > 预训练 > 减小模型 > dropout/weight decay。
  5. 调参 — 随机搜索优于网格搜索(网络对不同参数敏感度不同)。
  6. 榨取最后的性能 — Ensemble(几乎保证 +2%)、训练更长时间(网络训练的时间比你直觉想的要长得多)。
"The qualities that correlate most strongly with success in deep learning are patience and attention to detail."
— A Recipe for Training Neural Networks, 2019

Tesla 深度复盘:Software 2.0 的大规模实践

Karpathy at Tesla CVPR'21
Karpathy 在 CVPR 2021 展示 Tesla Autopilot 神经网络架构
第一性原理决策

纯视觉方案(Vision-Only)

2021 年 Tesla 移除前向雷达,仅靠 8 个摄像头实现 FSD。Karpathy 的论证逻辑:

1. 人类仅用视觉就能安全驾驶 → 视觉信息理论上充分
2. 多传感器融合增加了系统复杂度和 failure mode
3. 纯视觉方案可以无限扩展(摄像头便宜),数据飞轮转得更快
4. 最终目标是端到端神经网络,而非规则拼接

数据引擎(Data Engine)闭环

部署 → 数据回流 → 自动发现困难场景 → 标注 → 训练 → 再部署

百万辆车就是百万个数据采集器。Shadow mode 在后台运行新模型,对比结果不一致时自动触发数据上传。这是 Software 2.0 在现实世界中规模最大的实践。

离开后的反思 (2025)

在 Dwarkesh Patel 播客中,Karpathy 坦言自动驾驶仍未"解决"——"这是一个漫长的 nines 之旅"(从 99% → 99.9% → 99.99%)。体现了他对技术诚实的品质:曾经主导这项技术的人,也会公开承认其距离完美还很远。

Lex Fridman Podcast #333
Lex Fridman Podcast #333 — 深入探讨 Tesla AI、自动驾驶、AGI 与外星生命

值得学习的品质

教育者本能

PhD 期间就做出 CS231n,离开 Tesla 后做教育,YouTube 免费教学。他相信知识应该被传播而非垄断。在 Lex Fridman 播客中建议初学者:"公开教学——写博客、发推、分享 GitHub 仓库——来固化理解。"

第一性原理思维

所有教学从零手写(micrograd 50 行、nanoGPT 300 行)。Tesla 纯视觉决策、llm.c 去掉 PyTorch 用纯 C。每次都在问:"这个东西的本质是什么?能不能更简单?"

产出型学习

不只是学习者,而是通过创造来学习:char-rnn 博文、minGPT、nanoGPT、llm.c、minbpe、Zero to Hero 系列。每个项目都是 "我理解了这个东西" 的证明。

概念命名力

"Software 2.0" (2017) → "LLM OS" (2023) → "Vibe Coding" (2025.2) → "Software 3.0" (2025.6) → "Agentic Engineering" (2026.2) → "Org Engineering" (2026.2)。每隔一段时间就能把模糊趋势凝练成一个 meme,定义整个行业的对话框架。

知行合一

2026.1 公开说"4 个月没写代码了"——他不只是理论上提出 Vibe Coding 和 Agentic Engineering,而是自己完全践行。用 AI Agent 建 wiki、做研究、管理信息流。他的 LLM Wiki 已经增长到约 100 篇文章 / 40 万字——几乎不需要手动触碰。

技术诚实

公开说 AGI 仍需十年。离开 Tesla 后坦言自动驾驶未解决。不过度承诺,不追逐 hype。"这是一个 nines 的渐进之旅"。

长期主义 + 多栖切换

学术→创业→大厂→教育→再创业,始终围绕 AI + 教育两条主线。每次角色切换都在新的维度深化理解:研究→工程→规模化→传播。

金句集

"The hottest new programming language is English."
— Software Is Changing (Again), 2025
"I just see things, I say things, I run things, and I copy paste things, and it mostly works."
— 关于 Vibe Coding, 2025
"The best teachers in the world should design courses, and AI should be the TA."
— Eureka Labs 发布, 2024
"Neural net training is a leaky abstraction... the qualities most correlated with success are patience and attention to detail."
— A Recipe for Training Neural Networks, 2019
"Don't be a hero. I know it's tempting to go and design your own crazy architecture... copy-paste what works."
— A Recipe for Training Neural Networks, 2019
"Build Iron Man suits, not Iron Man robots."
— 关于 AI Agent 设计哲学, 2025
"We're in the 1960s of AI computing — centralized, cloud-based, time-sharing. Personal local AI is coming."
— Software Is Changing (Again), 2025
"Humans collapse during the course of their lives. Children haven't overfit yet."
— Dwarkesh Patel 播客, 2025.10(关于模型坍缩与人类类比)
"RL is terrible — but everything else we've tried has been worse."
— Dwarkesh Patel 播客, 2025.10
"AI is adept at execution but deficient in ideation."
— X, 2026.2.27(Org Engineering 实验总结)
"The smartest student would aim for 85% in every class. Not 100%."
— 给学生的建议(把省下的时间投入真实项目和产出)
"Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."
— LLM Wiki Gist, 2025.12 / 2026.4

Software 2.0 原文解析 (2017)

这篇 Medium 文章是 Karpathy 最具前瞻性的写作之一,早在 ChatGPT 出现 5 年前就预见了 AI 对软件工程的根本重塑。

核心论点

源代码的含义已经改变

在 Software 2.0 中,"源代码"不再是人写的逻辑,而是 1) 定义期望行为的数据集 + 2) 神经网络架构。训练过程就是"编译器",生成的权重就是"二进制"。

已被神经网络接管的领域(2017 年预测,现已全部验证)

领域从…到…
视觉识别手工特征 + SVMConvNet 端到端学习
语音识别GMM + HMM端到端神经网络
语音合成拼接机制WaveNet 直接生成原始音频
机器翻译短语统计模型Seq2Seq / Transformer
游戏手写搜索 + 评估AlphaGo Zero 自我对弈
数据库索引B-TreeLearned Index(速度 +70%,内存 -90%)

Software 2.0 的独特优势

计算同质性:只有矩阵乘法 + ReLU,容易优化和验证
硬件友好:小指令集天然适合 ASIC / 神经形态芯片
恒定资源:没有动态内存分配、没有内存泄漏
端到端优化:分开训练的模块可以融合、联合反向传播
敏捷性:想要更快?减少通道数重新训练。有更多数据?增加通道数重新训练。

"When we develop AGI, it will certainly be written in Software 2.0."
— Software 2.0, Medium, 2017

Dwarkesh Patel 播客:AGI 仍需十年 (2025.10)

2 小时 25 分钟的深度对话,被认为是 2025 年最重要的 AI 播客之一

核心观点

话题Karpathy 的立场
AGI 时间线十年渐进之旅,不是一年飞跃。"比你在 SF AI house party 听到的保守 5-10 倍"
强化学习"RL is terrible — but everything else is much worse." 只能检查最终结果说"多做这种",像民主制度一样
模型坍缩让模型想同一件事 10 次,"个个看着都合理,但分布已经坍缩得可怕"
March of Nines自动驾驶和 Agent 都是"可靠性的渐进之旅"——每多一个 9 就等于同样的工程量
当前 AI 类比永久实习生——有能力但缺乏持久自主性、长期记忆和可靠工具使用
知识 vs 智能想要一个 1B 参数的"认知核心"而非记忆一切的大模型——"我们太依赖规模了"
深度洞察

模型坍缩 (Model Collapse) 与人类类比

Karpathy 发现了 LLM 与人类衰老的惊人平行:"人类也会在一生中坍缩。孩子还没有 overfit——他们的学习率高,探索空间大。"

合成数据训练之所以让模型变差,正是因为例子"静默坍缩"了——表面看着正常,实际多样性已丧失。RL 反而惩罚输出多样性,怎么提升熵是未解问题。

LLM 为什么不像人类那样学习

人类读一本书时做的事:合成数据生成、跟朋友讨论、多角度操纵信息。LLM 只做下一个 token 预测。

睡眠在学习中起关键作用——"上下文窗口有时会留下来"——LLM 没有这种机制。孩子擅长学语言但记不住细节;LLM 的记忆力反而是阻碍认知核心发展的因素。

Vibe Coding 的诚实反思

Karpathy 在写 8000 行 nanochat 时发现 LLM 帮不上忙——模型总是用标准 DDP 而非他的自定义实现,因为它们"记错了"互联网惯例。

"行业在试图假装这很了不起,但现状并不是。这是 slop。" Vibe Coding 只适合样板代码;用英语描述意图的信息带宽远不如自动补全高效。

GDP 悖论:最耐人寻味的矛盾

Karpathy 同时说"我们已经处于智能爆炸中"和"GDP 增速会维持 ~2%"。他把超级智能定义为"本质上就是自动化"——渐进过程,无离散跳变。这个立场引发了大量争议——如果你建造出比人类更聪明、更快、更便宜的头脑,结果却是一切照旧?

Agentic Engineering + Org Engineering (2026.2)

继 Vibe Coding 之后,Karpathy 的下一个概念命名

2026.2.5

Agentic Engineering

开发者不再写代码,而是编排 AI Agent——定义目标、约束和验证标准,让 Agent 自主执行。Spotify 一周后确认其顶级开发者自 2025.12 起就没写过代码了。

2026.2.27

Org Engineering 实验

Karpathy 在 X 上分享了用 8 个 AI Agent(4 Claude + 4 Codex)组成虚拟研究实验室的实验:

配置:每个 Agent 独占 GPU,Git 分支隔离,tmux 窗格如虚拟办公室
任务:改进 nanochat 模型(如移除 logit softcap 不掉性能)
结果:视觉上很震撼但没有产出有意义的研究突破

AI Agent 研究团队为何失败

失败模式具体表现
实验设计差随机或无意义的变体,缺乏强基线
无资源意识Agent 忽略计算成本和时间效率
虚假发现一个 Agent "发现"增大 hidden size 提升 loss——但那只是训练更久了
本质问题"AI 擅长执行但缺乏构思能力(ideation)"

Org Engineering 的定义

用 prompts、角色、流程、工具、standup 作为"源代码"来编程一个组织(而非单个模型)。效率指标:组织在任意任务上产出进展的速度。从"编程计算机"进化到"编程公司"。

"The next important skill might be org engineering — designing systems where teams of AI agents work together effectively."
— X, 2026.2

LLM Wiki 模式 (2025.12)

Karpathy 发布的 GitHub Gist,提出用 LLM 构建和维护个人知识库的新范式

颠覆 RAG

核心理念:Wiki 是持久的、复利增长的产物

传统 RAG 每次查询都重新从原始文档推导答案。LLM Wiki 让 AI 预先构建结构化 wiki——交叉引用、矛盾检测、综合分析都是预建的,而非每次查询时重构。

Karpathy 原话:"Obsidian is the IDE; the LLM is the programmer; the wiki is the codebase."

三层架构

内容谁拥有
Raw Sources不可变的原始文档(文章、论文、数据)人类策展
The WikiLLM 生成的 Markdown:摘要、实体页、概念页、对比分析LLM 完全拥有
The Schema配置文档(CLAUDE.md),定义 wiki 结构和工作流人机共同演化

三个核心操作

操作行为价值
Ingest读入新源→写摘要→更新索引→修改相关页面(单次可能触及 10-15 个页面)知识自动归纳
Query搜索索引→读取相关页→综合回答(带引用)→好答案可回写 wiki探索即积累
Lint定期检查矛盾、过时声明、孤立页面、缺失交叉引用自动维护

为什么能成功

Karpathy 的关键洞察:让人类放弃 wiki 的不是阅读或思考——而是 维护成本。"LLM 不会厌倦、不会忘记更新交叉引用、一次可以触及 15 个文件。" 维护成本降至接近零。

他将此追溯到 Vannevar Bush 1945 年的 Memex 概念——一个私人策展知识库。Bush 未解决的问题(谁来做维护?)正是 LLM 解决的。

推荐论文清单:LLM Mastery

Karpathy 推荐的理解 LLM 必读论文,按发展脉络排列

#论文核心贡献
1Attention Is All You Need (2017)Transformer 架构——一切的起点
2GPT-1 (2018)生成式预训练 + 微调范式
3BERT (2019)双向预训练用于自然语言理解
4GPT-2 (2019)无监督多任务学习的涌现
5GPT-3 (2020)Few-shot 学习通过规模涌现
6Scaling Laws (Kaplan, 2020)计算/数据/参数的幂律关系
7Chinchilla (2022)计算最优训练比例
8InstructGPT / RLHF (2022)通过人类反馈对齐 LLM
9Constitutional AI (2022)自监督对齐
10Chain-of-Thought (2022)通过提示引导推理链
11Flash Attention (2022)IO 感知的精确注意力加速
12LoRA (2021)低秩适配,高效微调
13LLaMA (2023)开源高效基础模型
14RAG (2020)检索增强生成
Intro to Large Language Models
Intro to Large Language Models (2023) — 1 小时全景讲解 LLM 的工作原理和未来方向

完整资源索引

视频 / 演讲

内容链接推荐度
Neural Networks: Zero to Hero10 个视频系列必看
Software Is Changing (Again)YC AI Startup School 2025.6必看
Intro to Large Language Models1hr 概览 2023.11必看
Tesla CVPR'21 KeynoteAutopilot 架构详解推荐
Lex Fridman #333Tesla AI / Self-Driving / AGI推荐
Dwarkesh Patel 播客AGI is still a decade away (2025.10)必看

博客文章

文章链接核心价值
The Unreasonable Effectiveness of RNNs2015深度学习启蒙神文
A Recipe for Training Neural Networks2019ML 工程方法论圣经
Software 2.02017预见了 AI 对软件工程的重塑
A Survival Guide to a PhD2016读博心得,适合所有研究者

开源项目

项目链接核心价值
nanochatgithub.com/karpathy/nanochat$100/4h 训出自己的 ChatGPT
llm.cgithub.com/karpathy/llm.c纯 C/CUDA 训练 GPT-2
nanoGPTgithub.com/karpathy/nanoGPT最简洁 GPT 训练代码
minbpegithub.com/karpathy/minbpe最小 BPE tokenizer
microgradgithub.com/karpathy/micrograd50 行自动微分引擎

方法论 / 工具

资源链接核心价值
LLM Wiki 模式GitHub Gist (2025.12)AI 维护的个人知识库架构(X thread 1600 万阅读)
LLM 必读论文清单Kaggle 整理14 篇从 Transformer 到 LLaMA 的核心论文

网站 / 社交

平台链接
个人网站karpathy.ai
GitHubgithub.com/karpathy
X (Twitter)@karpathy
Eureka Labseurekalabs.ai