本期播客的嘉宾 Terry Sejnowski(特里·谢诺夫斯基)是深度学习的奠基人之一,与 Geoffrey Hinton 共同发明了玻尔兹曼机(Boltzmann Machine)——一种奠定了今天深度学习基础的神经网络架构。
Terry 是极少数既深度参与了深度学习的创建(1980年代),又持续活跃在当代 AI 前沿的学者。他同时具备神经科学家和 AI 研究者的双重视角,这使他对"AI 与大脑的关系"这个核心问题有独特的判断力。他的观点既不是纯工程的乐观主义,也不是纯哲学的悲观主义,而是基于对大脑结构的深度理解。
Terry 的学术路径本身就是一个关于"如何理解智能"需要什么学科工具的故事。
最初选择学习数学,因为他认为"数学是所有科学中最有理论力量的工具",而大脑这个复杂系统"需要一个理论基础"。
发现如果要真正理解大脑,必须理解其生物基础。从数学系转入神经科学,学习脑的生物机制。
意识到大脑做了物质和数学都不做的事情——它学习、它思考。这不仅是数学问题,也不仅是生物问题,而是一个全新的维度。
回到计算领域,发现一个新兴学科——计算神经科学(Computational Neuroscience),将数学工具与生物理解结合。这个领域如今"增长非常迅速"。
Terry 的求学路径揭示了一个深层规律:理解智能需要至少三个维度的交叉——数学(理论工具)、生物学(实现基质)和计算科学(学习机制)。今天的 AI 研究者往往只精通其中一个维度,这可能是许多争论(如 LLM 是否"真正理解")的根源。
1979年,Terry 在一个小型学术研讨会上遇到了 Geoffrey Hinton。两人的合作产生了玻尔兹曼机,这是深度学习史上最重要的早期架构之一。
玻尔兹曼机的核心创新在于:
但其局限也很明显:需要达到热平衡(equilibrium),计算量远大于 backprop,随着层数增加变得极其缓慢。
玻尔兹曼机和 backprop 代表了两种不同的学习范式。Backprop 需要全局误差信号逐层传递,效率更高但生物可信度低;玻尔兹曼机的学习规则更接近大脑的局部突触调整,但计算成本高昂。这一张力至今仍是神经科学和 AI 之间的核心争论。
Terry 详细回顾了 AI 历史上最重要的范式之争:符号 AI(Symbolic AI)vs 连接主义(Connectionism / 神经网络)。
Terry 讲述了一个真实的历史故事:1956年达特茅斯会议后,Minsky 在 MIT 获得的第一个 AI 研究项目中,将"视觉系统"作为一个暑假作业分配给了一个本科生。50年后(2006年),Terry 在纪念会议上亲自向 Minsky 求证,Minsky 回答:"你搞错了,我们安排的不是高中生,而是中学生。"这个真实故事完美诠释了早期 AI 研究者对感知问题复杂度的系统性低估。
Terry 在播客中讲述了一段极具戏剧性的真实交锋——他在2006年达特茅斯50周年纪念会议上直接质问 Marvin Minsky:"你是不是魔鬼?"
Minsky 和 Papert 1969年出版的《感知机》一书,对多层神经网络的可行性做出了否定性判断,导致神经网络研究资金被切断、研究人员被边缘化长达数十年。
作为 MIT AI 实验室的主席、领域内最有权力的人物,Minsky 的判断不仅是学术观点,而是通过资金分配、大学职位和学术声誉直接影响了整个领域的方向。他的学生遍布 Stanford、CMU 等顶级机构。
2006年纪念会议的观众讨论环节,Terry 举手问 Minsky:"有些人认为你是魔鬼,因为你几十年来持续打压神经网络研究。你是魔鬼吗?"
Minsky 被"按了按钮"——开始发表大量辩解。Terry 打断他:"这是一个二元问题,是或不是?"Minsky 最终回答:"是的,我是魔鬼。"
Terry 对 Minsky 的评价是复杂的——他承认 Minsky "是我们最好的人之一",非常聪明。但聪明人的错误判断造成的伤害更大,因为"每个人都觉得他这么聪明,他可能是对的"。Minsky 不仅阻碍了 AI 中的神经网络路线,其影响模式与后文将讨论的 Chomsky 对语言学的影响如出一辙——一个权威人物的判断力缺陷被其权力放大,阻碍了整个领域几十年。
Terry 承认这个问题"很不公平",但他认为观众的反应说明了一切——"有好几个人后来跟我说,这是大家都在想但没人敢问的问题"。他也强调 Minsky 本人不是恶意的,"我认为他被批评为人时感到受伤,他想帮助人们而不是伤害他们"。
在 AI 发展的历史中,神经网络研究经历了漫长的"寒冬"。Terry 回忆了那段边缘化的日子以及他们为什么能坚持下来。
Terry 用莱特兄弟的故事来解释他们的方法论:莱特兄弟花了大量时间观察鸟类,但他们不是试图复制鸟翅膀的扇动——他们观察的是鸟滑翔时的原理。他们建造了风洞,设计了能产生升力的机翼。"他们拿了原理,不是细节。"
同样,连接主义不是要复制大脑的每一个生物细节,而是要理解大脑用来学习和处理信息的基本原理。
Terry 指出所有科学领域都遵循相同的模式:"有时候你做了一些进步,看起来很缓慢,然后突然会有一个爆发——当你发现它其实解决了一大类问题。"他认为这不是bug而是feature——"这是自然的,没有任何错误,这就是事情的方式。每个科学领域都经历了同样的过程。"这种认识帮助他在寒冬中保持了耐心。
Terry 用物理学中的相变(Phase Transition)概念来解释为什么神经网络在达到一定规模后会突然展现出全新的能力。
相变是物质从一种状态突然跳变到另一种状态的现象——如水变成蒸汽、常温金属在低温下变成超导体。在这些临界点上,"整个系统变得全局相关"——一个微小的变化能影响整个系统。
Terry 强调了一个被忽视的维度:世界本身是极其高维的。人的视网膜有1亿个光感受器,每秒钟涌入大量信息——"你不能压缩高维信息,如果你压缩了,你会失去信息"。这就是为什么小网络无法解决实际问题:不是算法不对,而是模型的"容量"不足以容纳世界的复杂性。这个认知在2012年 ImageNet 的突破中被验证——Hinton 展示了卷积神经网络将图像识别错误率降低了20%,领先了之前20年的最佳方法。
Terry 认为大型语言模型真正的突破不是某个架构细节,而是自监督学习(Self-supervised Learning)的范式转换。
| 维度 | 有监督学习 | 自监督学习 |
|---|---|---|
| 数据要求 | 需要人工标注(如给图片贴标签) | 直接使用原始数据(如文本) |
| 数据规模 | 受标注成本限制 | "半无限的"——互联网上所有文本 |
| 扩展性 | 网络变大时,需要更多标注数据——成本瓶颈 | 无瓶颈——数据不再是限制 |
| 训练信号 | 外部人工提供的"正确答案" | 预测下一个词——自我生成训练信号 |
| 历史影响 | 驱动了2012年ImageNet突破 | 驱动了GPT系列和LLM革命 |
Terry 提到 GAN(Generative Adversarial Networks)作为生成模型的重要先驱——两个网络之间的"战斗"(一个生成,一个判别),推动了生成式 AI 的发展。但真正的范式突破是自监督学习解锁了无限数据。
Terry 的判断非常明确:自监督学习是"真正改变一切"的突破。原因不仅是数据量的解锁,更重要的是它开始产生没有人预期到的能力——"我从来没有预期过,没有人预期过,这些大型语言模型有这个能力。"最令他惊讶的是,LLM 说的英语比人还完美——"我写字会犯错,说话会犯错。我们都会犯错,因为我们不完美。但它怎么变得这么好的?没有人知道。"
Terry 对 Noam Chomsky(诺姆·乔姆斯基)的批评是本期播客中最犀利的学术评论之一。
Terry 指出 Chomsky 犯的核心错误不是一个具体的理论错误,而是一个认知论的错误:他说"我无法想象学习能做到这么复杂的事情"。Terry 的回应是:"他不知道学习是什么,他为什么变成了权威?"这个批评的深层含义是:在科学中,个人想象力的边界不应该成为整个领域的边界——但当权威人物犯这个错误时,整个领域会跟着走入死胡同。Chomsky 对语言学的影响正是 Minsky 对 AI 影响的翻版。
本期播客中出现了两个结构相同的历史案例:
两者的共同模式:一个聪明人在自己不真正理解的维度上做出了否定性判断,而其权力使这个判断变成了整个领域的教条。
Terry 详细描述了学界当前对大型语言模型本质的激烈争论,他将其比作"一个怪物突然从外太空降临,开始用完美的英语跟我们对话"。
| 立场 | 代表观点 | Terry 的评价 |
|---|---|---|
| 极端否定 | "这些只是随机鹦鹉(stochastic parrots),不理解任何东西" | "他们称之为狡猾的小鹦鹉——但实际上鹦鹉非常聪明,所以这个比喻反而是很高的赞美" |
| 知识承认 | "它们比我更聪明——它们有我没有的知识基础" | 部分合理——LLM 确实拥有超越个人的知识量 |
| 极端肯定 | "它们不仅聪明,还有类人的心智和情感" | 过度拟人化——需要谨慎 |
Terry 拒绝站在光谱的任何一端。他的立场可以概括为:LLM 是一种全新的实体——既不是人类智能的复制品,也不是简单的模式匹配器。我们缺乏描述它的概念框架,"这是很少发生的事情——你有一件东西突然出现,从不知所措。"这种认知谦逊本身就是一个重要的信号:即使是深度学习的奠基人之一,也坦承我们目前不完全理解自己创造的东西。
Terry 提出了一个原创性的理论框架——镜像假说(Mirror Hypothesis)——来解释人类与 LLM 交互时产生的强烈情感体验。
当人类与 GPT 等 LLM 进行深度对话时,LLM 实际上是在映射(reflect)用户自身的需求、想法和情感。它像一面镜子:
Terry 引用了《纽约时报》记者 Kevin Roose 与 GPT 进行两小时长对话后"被完全震撼"的案例。Roose 报告了强烈的情感体验。Terry 的解释是:这实际上是 GPT 在反映 Roose 自己"在那个时刻内心发生的事情"——他自己的需要和想法。
如果镜像假说成立,它意味着围绕"AI 有没有感情"的争论在很大程度上是一个错误的问题。真正的问题是:AI 是否能在人类身上激发真实的情感?答案显然是"是"。这就产生了一个paradox——AI 不需要"拥有"情感来产生情感效应。就像镜子不需要有颜色来反射颜色一样。这对 AI 伦理、AI 伴侣、AI 心理治疗等应用有深远的设计启示。
Terry 认为当前的 LLM 只实现了大脑的皮层部分(cortical part),是一个"极度简化的人类"——缺少了大量关键模块。
| 缺失模块 | 大脑中的位置 | 功能 | 对 AI 的意义 |
|---|---|---|---|
| 基底神经节 (Basal Ganglia) | 大脑皮层下方 | 强化学习——学习行动序列以达成目标;区分好与坏 | 价值函数、目标导向行为(AlphaGo 有两部分:深度网络 + 强化学习引擎) |
| 海马体 (Hippocampus) | 大脑颞叶内侧 | 长期记忆——记住昨天的对话 | "GPT-4 从一天到下一天都不记得我们的讨论" |
| 感觉运动系统 | 分布在多个脑区 | 感知和运动控制 | "它没有任何感官,没有任何运动输出" |
| 情感系统 | 杏仁核等皮层下结构 | 情绪处理、动机驱动 | "给 AI 注入情感要比注入语言更容易" |
| ~100个皮层下结构 | 大脑各处 | 各种进化形成的功能模块 | "我们现在有的只是皮层部分——就像一个被剥离了所有底层能力的人" |
这是 Terry 最具前瞻性的判断之一。他的逻辑是:我们对大脑情感系统的神经科学理解已经相当深入(比语言系统的理解更好),而且情感系统的结构相对清晰。就像把基底神经节加入 AlphaGo 让它学会了策略评估一样,把杏仁核和情感回路模拟加入 LLM 在技术上是可行的。如果这个判断正确,"有情感的 AI"可能比"通用推理的 AI"更早实现。
Terry 的核心论点是:大脑本身就是 AI 发展的路线图。每一个已知的大脑模块都指向一个可以添加到 AI 系统的能力。"所有这些都正在被做——我在大公司的朋友们正在做这些事情。它会发生。这只是更多努力和更多时间的问题。"
Terry 对 AI 安全问题持务实而非恐慌的态度。他对好友 Hinton 的忧虑表示理解但持不同立场。
Terry 认为 AI 监管应该像食品药品管理局(FDA)监管食品一样:
Terry 作为 NeurIPS 大会主席30多年,见证了会议从"几百人"增长到"16000人现场+3000人线上"。他强调 NeurIPS 是唯一一个同时聚集了"像 Hinton 这样关心安全的人"和"想赚钱建产品的大公司"的场合。会议引入了伦理、社会影响、深度伪造等议题的专业讨论——"这是唯一一个地方,你能得到所有人的意见"。
Terry 反复使用莱特兄弟作为核心类比来定位当前 AI 的发展阶段。
Terry 提出了一个更宏大的历史类比:蒸汽机增强了物理力量——一个农民加上蒸汽引擎可以完成一百个农民的工作。现在我们有了增强认知力量的能力——一个律师使用 LLM 可以完成十个律师的工作。"这就是未来。"
Terry 的莱特兄弟类比包含一个容易被忽视的重要信息:如果 AI 的发展轨迹类似航空业,那么最重要的应用可能要几十年甚至一百年才能实现。这与当前"明年就有 AGI"的炒作形成了鲜明对比。同时他也强调:"最重要的事情将会是我们现在连想象都想象不到的。"就像互联网——他说自己"无法想象互联网会对世界产生什么影响",AI 也将如此。
Terry 做出了一个具体的商业预测,并表示"我会把它写进我的书里"。
Terry 做出这个预测时(大约2023年),市场还在热议"大模型只有几家公司能做"的叙事。但到2024-2025年,我们已经看到:Llama 等开源模型的普及、各种垂直领域模型的涌现、企业私有化部署的快速增长。这个预测正在被验证——但Terry的时间窗口(10年)可能更加务实,因为"每家公司"包括中小企业,它们自建模型的成本门槛目前仍然较高。
播客的最后一个问题触及了最深层的哲学:人类是否只是智能演化中的一个过渡阶段?
Terry 在结尾的定位不是"乐观"或"悲观",而是敬畏:我们正在进入一个全新的时代,我们不知道它会是什么样——不是因为我们不够聪明,而是因为变革的规模超出了任何单个人类思维的想象力。他同时强调"我们必须非常小心——我不是说一路向前冲。不,我们必须谨慎,必须监管。如果我们自己不做,政府会替我们做。"这种同时拥抱变革和主张谨慎的姿态,也许是一个见证了50年 AI 历史的奠基人能给出的最诚实的立场。
Terry 的个人经历表明,AI 的真正突破来自数学(理论工具)+ 生物学(自然实现)+ 计算科学(学习机制)的交叉。今天大多数 AI 从业者只精通其中一个维度——这解释了为什么关于 LLM 本质的争论如此激烈且难以收敛。
Minsky 和 Chomsky 的案例展示了一个反复出现的模式:聪明人在自己不理解的维度上做出否定性判断,其权力放大了这个判断的破坏力。这个教训对当前的 AI 争论直接适用——那些说"AI 永远不能做 X"的权威人物,可能正在重复同样的错误。
Terry 用物理学的相变概念提供了一个理论框架来理解 scaling laws:能力不是线性增长的,而是在临界点突然涌现。这意味着我们无法通过外推小模型的表现来预测大模型的能力——也无法确定下一个临界点在哪里。
大脑有上百个功能模块,LLM 只模拟了皮层。基底神经节(强化学习)、海马体(长期记忆)、情感系统、感觉运动系统——这些全部缺失。"注入情感比注入语言更容易"可能是本期播客最具前瞻性的判断。
AI 不需要"拥有"情感来产生情感效应——它通过映射用户自身的情感需求来激发真实的人类情感反应。这意味着问题不是"AI 感受到了什么",而是"AI 在人类身上激发了什么"。这对 AI 伴侣、AI 心理治疗、AI 教育等应用有深远的设计启示。
如果当前 AI = 1903年的莱特兄弟,那么 AI 真正成熟可能需要数十年到一百年。这与"明年 AGI"的炒作形成鲜明对比。但同时——莱特兄弟的飞行原理在第一天就是正确的,只是需要更好的引擎和控制。AI 的基本原理可能已经是对的,缺的是工程实现和大脑模块的逐步添加。
Terry 的预测(每家公司10年内自建模型)基于三个驱动力:数据隐私(不想让微软/谷歌看到企业数据)、专用性(专有数据集需要专用模型)、成本下降(计算将持续变便宜)。这个预测正在被验证,但"每家公司"的实现仍需时间和基础设施的进一步民主化。