深度研究 — #139 苏煜：Agent技术史与智能的专化

嘉宾画像：从Semantic Parsing到Agent创业
Agent的定义：三要素框架
Agent演化史：从逻辑到神经到语言
Language Agent：语言作为脚手架
Language Agent三年编年史
边界的消弭：GUI、CLI与Coding
OpenClaw Moment：与ChatGPT Moment的同构
Agent的核心瓶颈：Specialization
World Model：远超视觉的广义定义
Neocortex与千脑智能
语言与思维：进化论视角的辩护
创业：Neo Cognition与Agent Research Lab
Agent的社会辐射：技术民主化与就业冲击
启示与延伸思考

一、嘉宾画像：从Semantic Parsing到Agent创业

苏煜，Ohio State University (OSU) NLP Group创建者，2025年从学校on leave，在硅谷创立Neo Cognition——一家定位为Agent Research Lab的公司，种子轮融资4000万美金。

OSU

NLP Group 创始人

$40M

种子轮融资

6个月

从创立到完成融资

代表性工作

Mind2Web — 第一个基于LLM的Web Agent / Computer Use Agent（2022.10启动，2023初发布）
CACT — 多模态Web Agent，基于GPT-4V，在API尚未开放时自行hack了网页界面API
MMMU — 多模态大模型最广泛使用的benchmark之一
UGround — 推动"Agent应该像人一样用电脑"的范式（visual perception + pixel-level actions）
AgentBench — 与清华合作的Agent最早benchmark之一

学术谱系中的Agent脉络

苏煜指出，很多在LLM/Agent领域产生重大影响的人实际上是Semantic Parsing出身：

Semantic Parsing → Agent 的人物网络

Percy Liang — Stanford
Luke Zettlemoyer — UW / Meta，做了RoBERTa和ELMo（GPT的重要先驱）
于涛 — 港大，OSWorld等工作
苏煜 & 盛欢 — OSU

这条线索暗示Semantic Parsing与Agent问题之间存在深层联系：两者都在解决"如何让机器理解人类意图并在环境中执行"的问题。

苏煜

Let machines understand human thinking. Don't let humans think like machines. — 这是我PhD defense时的宣言。让机器去理解人的语言、理解人的想法，而不是让人去像机器一样思考。

二、Agent的定义：三要素框架

苏煜给出了一个简洁但深刻的Agent定义，由三个要素构成：

核心框架

Agent三要素

Entity（实体性） — 有boundary（边界），不是一个发散的、没有边界的东西
Environment（环境性） — 需要在某种外界环境中工作
Goal-directed（目的性） — 带有目的性地进行活动，而不是随机游荡

所有动物都符合这个定义——"所有的动物它都是Agent，尤其是人，可能是有最先进智能的Agent。"

Agent的两大核心能力

Memory（记忆）

知识的表达、获取、更新、遗忘
语义知识（Semantic Memory）
情景记忆（Episodic Memory）
过程性记忆（Procedural Memory）— 如学骑自行车
人的所有学到的东西都存在神经突触中，本质上都是Memory

Autonomy（自主性）

Perception — 感知世界
Reasoning — 基于感知和知识做推理
Decision Making — 基于推理做决策
Action — 决策反映到外界环境
Memory是Autonomy的基础，两者一体两面

分析框架的统一性

这个Memory + Autonomy框架可以用来分析所有类型的Agent——从人类Agent到逻辑Agent、神经Agent、语言Agent。苏煜在整个对话中反复用这个框架来评估不同代际Agent的能力边界和演进方向，使得看似纷繁的Agent发展史呈现出清晰的分析结构。

三、Agent演化史：从逻辑到神经到语言

苏煜将Agent的发展划分为三个大的范式阶段，并用Memory/Autonomy框架逐一评估。

Agent演化时间线：三个范式阶段

第一阶段：逻辑Agent（1950s-1990s）

核心特征与局限

代表：专家系统（Expert Systems），基于一阶谓词逻辑
Memory：只有有限集的logical statements，表达能力被逻辑语言所限。后来尝试的高阶逻辑、模糊逻辑、概率逻辑"只解决了很小部分的问题"
Autonomy：全部能力就是take a question → inference engine → 答案。对不同复杂度问题的计算量是固定的
致命瓶颈：Knowledge Acquisition Bottleneck — 让工程师采访领域专家、再翻译成逻辑语言，过程"非常痛苦、非常低效"
后果：直接导致1980-90年代最大的一次AI Winter

苏煜

Stuart Russell跟我提过，虽然大家觉得《Artificial Intelligence: A Modern Approach》好像是一本AI的书，但实际上它本质上是一本关于Agent的书。他的书的第一章就是来讲什么是一个Intelligent Agent。只是现在大家有点遗忘了这个事情。

第二阶段：神经Agent（2000s-2020）

核心特征与局限

代表：Deep RL系列 — Atari游戏、AlphaGo、Dota、星际争霸
Memory：一个很小的神经网络（几十M到~100M参数），只存储关于特定游戏的知识
Autonomy：输入画面 → 一次forward pass → 输出动作。推理是隐式的，且计算量固定 — "不管多么复杂的情况，它所能用到的compute就是一个forward pass"
致命瓶颈：Sample Inefficiency — 一个简单的游戏可能要玩几百万盘才能学会
泛化性：有所提高（同一网络可以玩不同Atari游戏），但远非人类级别的泛化

为什么游戏成为训练场

DeepMind创始人Demis Hassabis个人对游戏非常情有独钟
游戏作为高度可重复的虚拟环境，天然解决data abundance问题
输入输出高度受限和简单，适合当时的技术条件

平行发展：Semantic Parsing

与Neural Agent专注"做深"不同，Semantic Parsing关注的是"做广"——把人说的任何话转化成机器能读懂的语义表达。它扩大了Agent的输入宽度（language understanding）和行动空间（可以命令机器做各种事情），与Neural Agent形成互补。

四、Language Agent：语言作为脚手架

2020年后，特别是2022年ChatGPT出现后，Agent进入第三阶段——苏煜称之为Language Agent。这个命名源自他与杨迪、姚顺宇、于涛在2024年合作的一个tutorial。

核心概念

Language作为Scaffold（脚手架）

这一代Agent的本质不同在于：Language可以作为所有能力的脚手架——

Perception脚手架：Language Understanding使人机交互形式极大灵活化
Reasoning脚手架：Chain of Thought让推理从"一次forward pass"变为Adaptive Computing — 任务越复杂，产生越多token，每个token都是一次forward pass，实现自适应计算量
Action脚手架：语言（包括formal language、programming language）是全能的行动媒介，可在数字世界做任何事
Memory脚手架：大模型训练本质是"以语言为脚手架，通过压缩形成对世界的表示"

苏煜

早年大家觉得Language Model只是所谓的Stochastic Parrot（随机鹦鹉），只是在模仿人类语言做统计预测。但实际上我们越来越理解，大语言模型训练的过程是一个压缩，从语言的surface form压缩成一个meaning representation，一个对世界的model。

语言在进化中的加速剂作用

苏煜从生物演化视角论证了语言的根本性：

一个类比

真核细胞生物出现 — 约10亿年前
哺乳动物出现 — 2-4亿年前
Homo属出现 — 约200万年前
系统性符号化表达 — 约10万年前（洞穴壁画、宗教符号）
书面语言 — 约5000-6000年
最近5000-6000年 = 人类文明大爆炸

语言在人类演化中起到了爆炸式的加速剂作用。而在AI的演化中，"好像又是一个类似的效果"——这是为什么苏煜在2023年写了博客《Language Agents: A Critical Evolutionary Step for AI》。

Semantic Parsing vs Language Agent的区别

不是说之前没有人把语言用于AI——NLP整个领域就在做这件事。区别在于：LLM出现前，每次只能做某个特定环境（某个数据库、某个知识图谱、某个网站）。LLM提供了一个非常强的prior，内置了基于语言的世界模型，使得Agent可以放到任何环境中"至少reasonably地产生一些行为"。

五、Language Agent三年编年史

苏煜从个人经历出发，梳理了2022-2026年Language Agent的关键时间线。他坦言这个覆盖偏向Computer Use Agent方向。

2022年初 — Chain of Thought

语言带来的Adaptive Computing/Reasoning，"非常本质的不同"。

2022年10月 — ReAct

姚顺宇的工作。将CoT从数学推理扩展到有外部环境的Agent场景。"想法很简单，但影响力相当深远。"

2022年底 — LLM Planner & Mind2Web

与ChatGPT同一时间。LLM Planner是最早用LLM做Robot Planning的工作之一；Mind2Web是第一个基于LLM的Web Agent。

2023年2月 — Toolformer

Meta出品，第一个用LLM做Tool Use的工作。Luke Zettlemoyer主导。微软CTO Satya在全公司传阅此论文。

2023年3月 — AutoGPT

GitHub历史上star数涨最快的repo，没有之一。当时18万stars。"在当时它的火爆程度就跟OpenClaw现在的火爆程度差不太多。"

2023年中 — GPT-4V & 多模态转向

第一个真正能打的多模态模型。Agent全面向多模态转向。CACT等vision-based agent开始出现。

2023年7月 — WebArena

CMU Graham Neubig团队，做了完整网站replica作为可复现的agent测试环境。

2024年3-4月 — OSWorld

于涛团队。从Web扩展到Desktop/Mobile环境。

2024年下半年 — UGround

确立"Agent应该像人一样用电脑"的范式：Visual Perception + Pixel-level Actions。后续Claude Computer Use、OpenAI Operator均采用此embodiment。

2024年10月 — Claude Computer Use

Anthropic发布。采用类UGround的embodiment。

2025年上半年 — Claude Code爆发

在Cursor影响下诞生。OPUS 4.5出来后，"大家对coding的感知和实践都发生了翻天覆地的变化"。硅谷"基本上已经不自己写代码了"。

2025年11月-2026年2月 — OpenClaw Moment

2025年底release，2026年2月真正火爆。标志着Agent范式的变化。

六、边界的消弭：GUI、CLI与Coding

苏煜认为当前Agent领域的各种分类——Browser Use、Desktop Use、Mobile Use、GUI-based、Text-based、Coding、Tool Use——都是临时性的。

苏煜

At the end of the day，大家想要的就是一个Universal Digital Agent——可以在数字世界里面做人能做到的所有事情，甚至做得更好的Agent。这些分类只是a means to an end，而且这个boundary正在快速消灭。

Coding的根本性地位

关键判断

Coding是最根本性的Building Layer

苏煜对Dario Amodei（Anthropic CEO）的把握表示佩服：Coding至少对Digital World来说是最根本性的fabric。"你所有东西都能用code来表达。"Coding会来主导打破GUI/CLI/API之间的boundary——因为GUI本身就是通过code render的。

GUI会不会消失？

苏煜给出明确判断：GUI不会消失。从多个角度论证：

GUI存续的四重理由

人类需要GUI — 人类是visual animal，大脑就是"it's wired that way"
GUI是de facto interface — 99%的数字世界已有GUI，设计过程中已encode了大量knowledge、constraints、business logic。Agent用GUI可以piggyback on all this accumulated knowledge
维度优势 — Text是一维表示，visual是二维甚至更高维，对复杂关系的表达更高效
Semantic Web的教训 — Tim Berners-Lee推了20多年也没让互联网全面采用语义标准。新标准的全面adoption几乎不可能，因为缺乏足够强的incentive

Language Agent还是Coding Agent？

苏煜否认了"Language Agent应改名Coding Agent"的说法：Programming Language本身就是Language。Language从来不只是自然语言，它包括编程语言、图表语言、手势——都是符号化的表达。"所有Language最终达到的目的都是一样的：描述和操纵世界的工具。"

七、OpenClaw Moment：与ChatGPT Moment的同构

苏煜对OpenClaw Moment给出了一个精妙的结构性分析：它与ChatGPT Moment在本质上是同构的。

ChatGPT Moment (2022)

底层LLM技术已发展多年（BERT 2018 → GPT系列）
技术已经ready，ChatGPT只是把模型fine-tune成chatbot
本质变化是交互形式的变化
OpenAI自己也非常surprised
标志LLM范式的到来

OpenClaw Moment (2025-26)

Agent技术已有很大发展（coding能力、设计范式）
做Agent的人看OpenClaw codebase："nothing is new here"
本质变化也是交互形式的变化 + YOLO（全部permission打开）
因为开源所以安全问题相对可控
标志Agent范式的到来

OpenClaw的交互形式创新

苏煜指出OpenClaw的两个关键创新：（1）可在WhatsApp等即时通讯中交互，24小时always-on的独立环境；（2）YOLO模式——不管permission和safety，所有东西都打开。"大家给它各种各样的permission之后，发现原来这个Agent已经这么厉害了。"如果是闭源产品这样做"会出大问题"，但开源让问题相对可控。

中国vs美国的火爆差异

不同的舆论辐射模式

美国：火爆主要限于开发者群体和tech从业者，研究如何做得更深
中国：更加出圈和全民化——街头巷尾到地方政府都在聊。叙事从"开源项目"变成"时代性的产业机会"甚至"不学就被时代淘汰"
苏煜听说国内有老人拿着电脑去找人帮忙装OpenClaw
中国的应用层基因：Eric Schmidt也指出，中国在前端技术应用上动作很快。在AI时代这是很大优势——通用智能已超过临界点，缺的是有洞察和执行力的人去发现和抓住价值

后续反应

Anthropic的Claude Code"去各种抄OpenClaw的feature"（苏煜认为没有OpenClaw也会自然加上，更像催化剂）
OpenAI全面转向Agent、productivity、coding，砍掉实验性项目
NVIDIA老黄："每一个企业都要有一个Cloud Strategy"
国内各大厂动作非常快
裁员新闻与Agent能力perception高度相关

八、Agent的核心瓶颈：Specialization

这是整个对话的核心论点。苏煜认为当下Agent面临的所有问题——不可靠、不高效、太贵——都指向同一个根本性缺失：Specialization。

核心论点

从General Intelligence到Specialized Intelligence

当通用智能变得廉价和标配时，差异化来自于专化。世界不是一个世界，而是由几百万个小世界组成。每个职业、每个domain、每个公司、甚至每个软件都是自己的小世界。这些小世界加起来的entropy几乎无限——不可能有一个单一Agent能capture到所有entropy。

当前Agent的困境

60-70%

Agent做对的概率

30-40%

"不知道因为什么原因就失败了"

~100%

人类专家做对的概率

人不是这样的——如果我们成为某件事的专家，基本上百分之百能做对。因为我们经历了specialization的过程，学会了这个工作的所有ins and outs。在成为专家的过程中，我们变得更reliable、更快、更cost effective——而这恰恰是现在Agent面临的最大挑战。

当前的两种Agent学习范式及其不足

范式一：RL Post-Training

模型厂主导
包括Synthetic Environment、RL Gyms
学习速度、准确性、范畴与人类差距巨大

范式二：Non-Parametric Learning

以MD文件为主（SOUL.md、SKILL.md等）
正在演变到Harness层面（Meta-Harness、Auto-Harness）
有很大空间但上限有限

五个概念是同一件事

苏煜在总结中揭示了一个统一结构：Self-learning（学习方法）= Continued Learning（学习过程）= World Model（学习内容）= Specialization（学习目的）= Expert Agent（学习结果）。达成后带来的好处：reliability（可靠性）、speed（速度）、cost effectiveness（成本效率）。

九、World Model：远超视觉的广义定义

苏煜对World Model的定义远比主流（偏视觉、偏物理世界）宽广得多。

苏煜

大家提到World Model就倾向于说是一个vision-based model，关于physical world的model，做next frame prediction或3D reconstruction。但World Model不仅仅是那个样子。World Model一定程度上是整个Human Intelligence最重要的概念。

"实习生到专家"的世界模型

苏煜用一个生动的例子阐释广义World Model：

大学毕业生进入公司的学习过程

公司的组织架构 — 表面的org chart + 实际的org chart（到底谁说了算）
做什么事情要去找谁批准
各种工作软件的使用方法和因果关系
各种工作流（workflows）
人与人之间的心智模型（Theory of Mind）
所有这些 = 一个microworld的World Model

从intern变成expert的过程，就是构建这个microworld的World Model的过程。这个model显然不是一个video model，vision只是其中一部分。

Agent能力金字塔：从通用智能到专化智能

Neo Cognition的技术路线

Learning to Specialize by Learning the World Model of Work

目标不是产生特定的Expert Agent，而是研究一套学习方法
给定任何domain、任何职业、任何环境，可以快速specialize出Expert Agent
核心信念：最大的learning signal来自Continued Learning from Deployment — 在真实环境中持续学习
这也是苏煜从学校出来创业的根本原因 — "你需要有deployment才有learning"

十、Neocortex与千脑智能

苏煜的公司名字Neo Cognition中的"Neo"来自Neocortex（新皮层），占据人脑约70%的区域。

Neocortex的进化特殊性

进化时间短、但功能极广

哺乳动物才出现（约2亿多年前），在进化上极其年轻
早期哺乳动物的neocortex非常小，到大猩猩才急剧增大，人类登峰造极
其他脑区（脑干、海马体、小脑）进化了很长时间，高度特异化
Neocortex进化时间短但要做的事情特别多 — 视觉、语言、听觉、推理、planning
进化的最优策略：找到一个足够通用的learning machinery，然后重复很多遍

皮质柱：统一的学习单元

虽然功能上neocortex有很多分区（视觉区、听觉区等），但从解剖结构看都是高度相似的——基于一种叫做Cortical Column（皮质柱）的单元结构。人脑大概有15万个皮质柱。

理论参考

千脑智能理论（A Thousand Brains）

Jeff Hawkins提出：每个皮质柱的结构设计就是为学习World Model做准备。每个皮质柱可能有几百个小World Model，覆盖所有概念——不限于物理世界，包括语言、数学系统、抽象概念（民主、法治）。15万个皮质柱中，每个concept在不同皮质柱有多个World Model。

苏煜认为这是"在人脑怎么work方面走到最远的theory之一"，虽然evidence还非常早期和粗浅。

十一、语言与思维：进化论视角的辩护

苏煜与Chris Manning观点高度一致，强调语言的不可替代性。

对"Language和Thought可以分开"的回应

MIT的fMRI研究

有研究发现，人在做复杂推理任务时，语言区域（Wernicke区和Broca区）并不会被显著激活，由此论证language和thought可以分开。苏煜承认这一点，但指出：

Individual thought确实不需要language — 因为人的学习过程是内化（internalize）的过程
一开始需要language作为脚手架的知识，会被内化到神经直接连接中
这恰恰是睡眠时做梦、海马体进行short-term → long-term memory转换的过程
但这不代表在形成这些内化的过程中语言没有起至关重要的作用

苏煜（引述Chris Manning的认同）

Individual thought doesn't need language. But civilization needs language.

The Symbolic Species的论证

Terence Deacon在1990年代的著作论证了：从Homo属的祖先到Homo属的过程，是符号与人脑co-evolution的过程。先有符号化的abstract representation，反过来产生进化压力，让大脑随之变化以更好地服务符号化表达。

符号化开启了全新的进化赛道

苏煜认为这极其深刻：其他物种还在慢悠悠进化，Homo这边开启了一个自循环的symbolic赛道——产生了新的cultural进化压力。一个原始人跑到远处发现大老虎，可以回来告诉所有人；还可以口口相传跨越代际。不能适应语言环境的后代会被淘汰。"真的是在进化上新开了一个赛道。"

现代文明对语言的依赖

跳出个体层面看：任何尖端或非尖端的行业、domain，都是符号化的——language、diagram、programming language。这些是现代文明存在的根基。"你要在现代文明里产生价值的东西，都很难离开符号化的表达。"

十二、创业：Neo Cognition与Agent Research Lab

创业的内在逻辑

苏煜

Agent的research和production是分不开的。我相信最大的Agent learning signal来自于continued learning from deployment。你需要去真实环境里持续学习——前提是你得有deployment。在学校是很难做到的。所以我一直知道我早晚会去做startup，只是时间点和技术方向的选择。

为什么是这个时间点

底层技术（LLM各方面能力、tool use、coding、multimodal）开始变得ready
对Agent整体现状和bottleneck有了"很深刻的认知"
2025年起，有意思的Agent研究需要的资源（GPU、API、强团队）与学校基因不匹配
大部分有代表性的Agent idea都度过了proof of concept阶段

融资环境的两极分化

美国AI融资的马太效应

头部融资规模和估值越来越大：很多Neo Labs一上来融几千万到几亿美金，甚至十亿
OpenAI + Anthropic融资额可能占整个市场的30-50%
中间的VC firms struggle — 要么变成Megafund（如a16z），要么变成Boutique Firm
On average融资越来越难，但头部越来越容易

为什么大厂不能做

苏煜的回答：如果要做的事情（1）非常非常难，（2）解决后经济价值非常高，那它就是无限上限的space，容纳多个player。没有人能打包票说哪个技术路线对——就像Robotics一样，不确定性高 + 想象空间大 = 大量startup出现。

个人性格的底色

苏煜

我可能属于那种"魂不灵"的性格。不觉得这些东西有那么"所谓"。但另一方面我又知道，如果我真的想要一个事情，I put my mind to it, I put my effort to it，大概率是能够做到的。

苏煜来自湖南省一个小县城，高考湖南省前十进入清华（自主招生全省前几名），之后来美国读PhD。从小凌晨三点偷溜出去网吧玩游戏，但学习也没耽误。他认为对自己影响最大的习惯是从小读书——"读任何东西，只要是纸质的"。

十三、Agent的社会辐射：技术民主化与就业冲击

各大公司的Agent赌注

公司	Agent方向	苏煜评价
Anthropic	全面productivity（Claude Code + Computer Use + Browser）	"一家独大，给大家打了个样"
OpenAI	全面转向Agent、productivity、coding	"在往Anthropic方向收束"
Google	模型能力强 + 最好的生态位	"总觉得缺了一些东西。缺应用"
xAI	成立Macro（微软反义词），Computer Use Agent	可能用Tesla FSD路线（小模型+video+E2E），"a different bet，good luck"
Jeff Bezos	Project Prometheus，融资60-70亿美金	偏manufacturing、物流、基建方向，有大量Computer Use Agent部分
字节	UI-TARS系列 → 豆包手机	很好的工作
智谱	AutoGLM系列，做Agent开始很早	与OSU有合作渊源（AgentBench）

Agent安全与可靠性

苏煜

很多safety的问题，对于Agent来说归根结底是一个能力问题。就像人——intern更容易犯安全方面的错误，但老师傅就不会。因为他已经学会了做哪些事情容易有安全风险。但security稍微不一样，security是更加worst-case scenario，需要更专门的方法。

技术民主化的责任

Agent Researcher的社会责任

苏煜认为最大的现实concern不是存在性风险（existential risk）——"在可预见的未来我看不到可能性"，因为AI缺乏innate goals和intention——而是job displacement。如果失业速度远超新工作产生的速度，社会会出现大问题。Agent研究者的责任是让Agent变得"真正好用、容易用"，让每个有独特想法的人都能把想法转化成可产生价值的Agent——技术的民主化，而非让核心技术被少数巨头垄断。

苏煜的Agent发展预测

2026年及未来

技术主旋律：Continued Learning / Self Learning
不同bet会出现：基于World Model的continued learning是其中一种路线
关键挑战：Agent技术多快辐射到社会更多角落（reliability、speed、cost）
当前门槛依然很高——Anthropic等公司采用Patient Tier模式，大量forward deploy engineers驻扎客户处build agent
Continued Learning会被解决，时间是"未来几年"
解决后Agent会广泛渗透社会各角落，根本性改变很多行业的生产关系

启示与延伸思考

1. Language Agent不是一个临时标签，而是一个进化论命题

苏煜用生物演化（真核细胞→哺乳动物→人类→语言→文明）类比AI演化（逻辑Agent→神经Agent→Language Agent），论证语言在智能发展中的加速剂作用。最深刻的一点是：即使未来底层模型不再是LLM，"以language为根本去理解世界、做推理、跟世界交互的能力"不可能消失。Language Agent这个词可能变得redundant——不是因为语言不重要了，而是因为它变成了Agent的标配。

2. Adaptive Computing是Language Agent最被低估的属性

苏煜反复强调的一个对比：Deep RL Agent不管问题多复杂，计算量都是一个forward pass；而Chain of Thought让Language Agent实现了自适应计算——任务越复杂产生越多token，每个token都是额外的compute。这不是一个小的工程改进，而是一个质变——它让Agent第一次像人一样可以"花更多时间想更难的问题"。

3. OpenClaw Moment = ChatGPT Moment的同构重演

两者的共同模式：底层技术已ready → 交互形式的变革（而非技术突破）→ 大众突然发现"原来已经这么厉害了" → 整个产业格局重塑。苏煜预判OpenClaw的影响力规模会与ChatGPT comparable。对创业者的启示：在技术已ready但公众认知未到位的窗口期，交互形式创新是巨大的杠杆。

4. Specialization是Agent领域真正的"最后一公里"

从60-70%到接近100%的差距不是量变而是质变——这意味着Agent从"有时有用"变成"可以信赖"。苏煜将Self Learning、Continued Learning、World Model、Specialization、Expert Agent统一为同一件事的不同侧面，这个框架简洁有力。其中最关键的判断是：learning signal来自deployment，不来自lab——这解释了为什么他选择离开学校创业。

5. GUI vs CLI之争可能是一个伪问题

苏煜用Semantic Web的20年教训（Tim Berners-Lee推了20多年也没让全互联网采用语义标准）来论证：指望所有行业几年内转向CLI/API是不现实的。GUI已经encode了几十年积累的knowledge和constraints，Agent piggyback这些现有资产比重建一套新的接口更高效。关键判断：Coding会来主导打破GUI/CLI/API之间的boundary，而不是任何一方取代另一方。

6. 广义World Model是AI下一个十年的元问题

苏煜对World Model的定义远超视觉：组织架构、工作流、人际心智模型都是World Model的一部分。如果把Neocortex的皮质柱理论和千脑智能理论放在一起看，一个激进但有趣的假说浮现：人脑的15万个皮质柱，每个都在学习World Model的不同切面。当前AI的所有学习方法——无论RL还是非参数化——都远未触及这种持续、多面、自适应的学习能力。

7. Semantic Parsing到Agent的隐藏谱系

一个被忽视的学术社会学现象：Agent领域多位关键人物（Percy Liang、Luke Zettlemoyer、于涛、苏煜等）都出身Semantic Parsing——一个当年在NLP中被认为是niche area、甚至有老师告诫学生"不要去做"的方向。这条谱系暗示：解决"机器如何理解人类意图并在环境中执行"的核心能力，可能比当时更热门的方向（如计算机视觉）更直接地通向Agent。对年轻研究者的启示：选问题的重要性远大于选热度。

关键论文时间线（苏煜提及）

年份	论文/工作	意义
1943	Neuron计算模型	用computational model capture单个神经元，奠定所有神经网络基础
1985	Backpropagation (Hinton等)	不一定是最早formulation，但Hinton将其大众化
2012	AlexNet	神经网络的文艺复兴
2013	Word2Vec	同时把神经网络引入Language Processing
2014	Attention机制	Selective Attention，两篇论文（Seq2Seq + NYU机器翻译）
2017	Transformer	Full Self-Attention + Shortcut Connection (from ResNet)
2018	BERT	第一个真正大规模work的Language Foundation Model
GPT系列	GPT-1/2/3 → ChatGPT	超越AI领域的影响，产业格局重塑
2022	Chain of Thought	Adaptive Computing/Reasoning

苏煜：Agent技术史与智能的专化

目录

一、嘉宾画像：从Semantic Parsing到Agent创业

代表性工作

学术谱系中的Agent脉络

Semantic Parsing → Agent 的人物网络

二、Agent的定义：三要素框架

Agent三要素

Agent的两大核心能力

Memory（记忆）

Autonomy（自主性）

分析框架的统一性

三、Agent演化史：从逻辑到神经到语言

第一阶段：逻辑Agent（1950s-1990s）

核心特征与局限

第二阶段：神经Agent（2000s-2020）

核心特征与局限

为什么游戏成为训练场

平行发展：Semantic Parsing

四、Language Agent：语言作为脚手架

Language作为Scaffold（脚手架）

语言在进化中的加速剂作用

一个类比

Semantic Parsing vs Language Agent的区别

五、Language Agent三年编年史

2022年初 — Chain of Thought

2022年10月 — ReAct

2022年底 — LLM Planner & Mind2Web

2023年2月 — Toolformer

2023年3月 — AutoGPT

2023年中 — GPT-4V & 多模态转向

2023年7月 — WebArena

2024年3-4月 — OSWorld

2024年下半年 — UGround

2024年10月 — Claude Computer Use

2025年上半年 — Claude Code爆发

2025年11月-2026年2月 — OpenClaw Moment

六、边界的消弭：GUI、CLI与Coding

Coding的根本性地位

Coding是最根本性的Building Layer

GUI会不会消失？

GUI存续的四重理由

Language Agent还是Coding Agent？

七、OpenClaw Moment：与ChatGPT Moment的同构

ChatGPT Moment (2022)

OpenClaw Moment (2025-26)

OpenClaw的交互形式创新

中国vs美国的火爆差异

不同的舆论辐射模式

后续反应

八、Agent的核心瓶颈：Specialization

从General Intelligence到Specialized Intelligence

当前Agent的困境

当前的两种Agent学习范式及其不足

范式一：RL Post-Training

范式二：Non-Parametric Learning

五个概念是同一件事

九、World Model：远超视觉的广义定义

"实习生到专家"的世界模型

大学毕业生进入公司的学习过程

Neo Cognition的技术路线

Learning to Specialize by Learning the World Model of Work

十、Neocortex与千脑智能

Neocortex的进化特殊性

进化时间短、但功能极广

皮质柱：统一的学习单元

千脑智能理论（A Thousand Brains）

十一、语言与思维：进化论视角的辩护

对"Language和Thought可以分开"的回应

MIT的fMRI研究

The Symbolic Species的论证

符号化开启了全新的进化赛道

现代文明对语言的依赖

十二、创业：Neo Cognition与Agent Research Lab

创业的内在逻辑

为什么是这个时间点

融资环境的两极分化

美国AI融资的马太效应

为什么大厂不能做

个人性格的底色