← 返回张小珺主页
深度研究 Deep Dive

苏煜:Agent技术史与智能的专化

#139 从逻辑智能体到Language Agent,一位Agent研究者的纵深叙事
2026.5.1 · 02:17:48 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 嘉宾画像:从Semantic Parsing到Agent创业
  2. Agent的定义:三要素框架
  3. Agent演化史:从逻辑到神经到语言
  4. Language Agent:语言作为脚手架
  5. Language Agent三年编年史
  6. 边界的消弭:GUI、CLI与Coding
  7. OpenClaw Moment:与ChatGPT Moment的同构
  8. Agent的核心瓶颈:Specialization
  9. World Model:远超视觉的广义定义
  10. Neocortex与千脑智能
  11. 语言与思维:进化论视角的辩护
  12. 创业:Neo Cognition与Agent Research Lab
  13. Agent的社会辐射:技术民主化与就业冲击
  14. 启示与延伸思考

一、嘉宾画像:从Semantic Parsing到Agent创业

苏煜,Ohio State University (OSU) NLP Group创建者,2025年从学校on leave,在硅谷创立Neo Cognition——一家定位为Agent Research Lab的公司,种子轮融资4000万美金

OSU
NLP Group 创始人
$40M
种子轮融资
6个月
从创立到完成融资

代表性工作

学术谱系中的Agent脉络

苏煜指出,很多在LLM/Agent领域产生重大影响的人实际上是Semantic Parsing出身:

Semantic Parsing → Agent 的人物网络

  • Percy Liang — Stanford
  • Luke Zettlemoyer — UW / Meta,做了RoBERTa和ELMo(GPT的重要先驱)
  • 于涛 — 港大,OSWorld等工作
  • 苏煜 & 盛欢 — OSU

这条线索暗示Semantic Parsing与Agent问题之间存在深层联系:两者都在解决"如何让机器理解人类意图并在环境中执行"的问题。

苏煜
Let machines understand human thinking. Don't let humans think like machines. — 这是我PhD defense时的宣言。让机器去理解人的语言、理解人的想法,而不是让人去像机器一样思考。

二、Agent的定义:三要素框架

苏煜给出了一个简洁但深刻的Agent定义,由三个要素构成:

核心框架

Agent三要素

  • Entity(实体性) — 有boundary(边界),不是一个发散的、没有边界的东西
  • Environment(环境性) — 需要在某种外界环境中工作
  • Goal-directed(目的性) — 带有目的性地进行活动,而不是随机游荡

所有动物都符合这个定义——"所有的动物它都是Agent,尤其是人,可能是有最先进智能的Agent。"

Agent的两大核心能力

Memory(记忆)

  • 知识的表达、获取、更新、遗忘
  • 语义知识(Semantic Memory)
  • 情景记忆(Episodic Memory)
  • 过程性记忆(Procedural Memory)— 如学骑自行车
  • 人的所有学到的东西都存在神经突触中,本质上都是Memory

Autonomy(自主性)

  • Perception — 感知世界
  • Reasoning — 基于感知和知识做推理
  • Decision Making — 基于推理做决策
  • Action — 决策反映到外界环境
  • Memory是Autonomy的基础,两者一体两面

分析框架的统一性

这个Memory + Autonomy框架可以用来分析所有类型的Agent——从人类Agent到逻辑Agent、神经Agent、语言Agent。苏煜在整个对话中反复用这个框架来评估不同代际Agent的能力边界和演进方向,使得看似纷繁的Agent发展史呈现出清晰的分析结构。

三、Agent演化史:从逻辑到神经到语言

苏煜将Agent的发展划分为三个大的范式阶段,并用Memory/Autonomy框架逐一评估。

Agent演化时间线:三个范式阶段

第一阶段:逻辑Agent(1950s-1990s)

核心特征与局限

  • 代表:专家系统(Expert Systems),基于一阶谓词逻辑
  • Memory:只有有限集的logical statements,表达能力被逻辑语言所限。后来尝试的高阶逻辑、模糊逻辑、概率逻辑"只解决了很小部分的问题"
  • Autonomy:全部能力就是take a question → inference engine → 答案。对不同复杂度问题的计算量是固定的
  • 致命瓶颈:Knowledge Acquisition Bottleneck — 让工程师采访领域专家、再翻译成逻辑语言,过程"非常痛苦、非常低效"
  • 后果:直接导致1980-90年代最大的一次AI Winter
苏煜
Stuart Russell跟我提过,虽然大家觉得《Artificial Intelligence: A Modern Approach》好像是一本AI的书,但实际上它本质上是一本关于Agent的书。他的书的第一章就是来讲什么是一个Intelligent Agent。只是现在大家有点遗忘了这个事情。

第二阶段:神经Agent(2000s-2020)

核心特征与局限

  • 代表:Deep RL系列 — Atari游戏、AlphaGo、Dota、星际争霸
  • Memory:一个很小的神经网络(几十M到~100M参数),只存储关于特定游戏的知识
  • Autonomy:输入画面 → 一次forward pass → 输出动作。推理是隐式的,且计算量固定 — "不管多么复杂的情况,它所能用到的compute就是一个forward pass"
  • 致命瓶颈:Sample Inefficiency — 一个简单的游戏可能要玩几百万盘才能学会
  • 泛化性:有所提高(同一网络可以玩不同Atari游戏),但远非人类级别的泛化

为什么游戏成为训练场

平行发展:Semantic Parsing

与Neural Agent专注"做深"不同,Semantic Parsing关注的是"做广"——把人说的任何话转化成机器能读懂的语义表达。它扩大了Agent的输入宽度(language understanding)和行动空间(可以命令机器做各种事情),与Neural Agent形成互补。

四、Language Agent:语言作为脚手架

2020年后,特别是2022年ChatGPT出现后,Agent进入第三阶段——苏煜称之为Language Agent。这个命名源自他与杨迪、姚顺宇、于涛在2024年合作的一个tutorial。

核心概念

Language作为Scaffold(脚手架)

这一代Agent的本质不同在于:Language可以作为所有能力的脚手架——

  • Perception脚手架:Language Understanding使人机交互形式极大灵活化
  • Reasoning脚手架Chain of Thought让推理从"一次forward pass"变为Adaptive Computing — 任务越复杂,产生越多token,每个token都是一次forward pass,实现自适应计算量
  • Action脚手架:语言(包括formal language、programming language)是全能的行动媒介,可在数字世界做任何事
  • Memory脚手架:大模型训练本质是"以语言为脚手架,通过压缩形成对世界的表示"
苏煜
早年大家觉得Language Model只是所谓的Stochastic Parrot(随机鹦鹉),只是在模仿人类语言做统计预测。但实际上我们越来越理解,大语言模型训练的过程是一个压缩,从语言的surface form压缩成一个meaning representation,一个对世界的model。

语言在进化中的加速剂作用

苏煜从生物演化视角论证了语言的根本性:

一个类比

  • 真核细胞生物出现 — 约10亿年前
  • 哺乳动物出现 — 2-4亿年前
  • Homo属出现 — 约200万年前
  • 系统性符号化表达 — 约10万年前(洞穴壁画、宗教符号)
  • 书面语言 — 约5000-6000年
  • 最近5000-6000年 = 人类文明大爆炸

语言在人类演化中起到了爆炸式的加速剂作用。而在AI的演化中,"好像又是一个类似的效果"——这是为什么苏煜在2023年写了博客《Language Agents: A Critical Evolutionary Step for AI》。

Semantic Parsing vs Language Agent的区别

不是说之前没有人把语言用于AI——NLP整个领域就在做这件事。区别在于:LLM出现前,每次只能做某个特定环境(某个数据库、某个知识图谱、某个网站)。LLM提供了一个非常强的prior,内置了基于语言的世界模型,使得Agent可以放到任何环境中"至少reasonably地产生一些行为"。

五、Language Agent三年编年史

苏煜从个人经历出发,梳理了2022-2026年Language Agent的关键时间线。他坦言这个覆盖偏向Computer Use Agent方向。

2022年初 — Chain of Thought

语言带来的Adaptive Computing/Reasoning,"非常本质的不同"。

2022年10月 — ReAct

姚顺宇的工作。将CoT从数学推理扩展到有外部环境的Agent场景。"想法很简单,但影响力相当深远。"

2022年底 — LLM Planner & Mind2Web

与ChatGPT同一时间。LLM Planner是最早用LLM做Robot Planning的工作之一;Mind2Web是第一个基于LLM的Web Agent。

2023年2月 — Toolformer

Meta出品,第一个用LLM做Tool Use的工作。Luke Zettlemoyer主导。微软CTO Satya在全公司传阅此论文。

2023年3月 — AutoGPT

GitHub历史上star数涨最快的repo,没有之一。当时18万stars。"在当时它的火爆程度就跟OpenClaw现在的火爆程度差不太多。"

2023年中 — GPT-4V & 多模态转向

第一个真正能打的多模态模型。Agent全面向多模态转向。CACT等vision-based agent开始出现。

2023年7月 — WebArena

CMU Graham Neubig团队,做了完整网站replica作为可复现的agent测试环境。

2024年3-4月 — OSWorld

于涛团队。从Web扩展到Desktop/Mobile环境。

2024年下半年 — UGround

确立"Agent应该像人一样用电脑"的范式:Visual Perception + Pixel-level Actions。后续Claude Computer Use、OpenAI Operator均采用此embodiment。

2024年10月 — Claude Computer Use

Anthropic发布。采用类UGround的embodiment。

2025年上半年 — Claude Code爆发

Cursor影响下诞生。OPUS 4.5出来后,"大家对coding的感知和实践都发生了翻天覆地的变化"。硅谷"基本上已经不自己写代码了"。

2025年11月-2026年2月 — OpenClaw Moment

2025年底release,2026年2月真正火爆。标志着Agent范式的变化。

六、边界的消弭:GUI、CLI与Coding

苏煜认为当前Agent领域的各种分类——Browser Use、Desktop Use、Mobile Use、GUI-based、Text-based、Coding、Tool Use——都是临时性的。

苏煜
At the end of the day,大家想要的就是一个Universal Digital Agent——可以在数字世界里面做人能做到的所有事情,甚至做得更好的Agent。这些分类只是a means to an end,而且这个boundary正在快速消灭。

Coding的根本性地位

关键判断

Coding是最根本性的Building Layer

苏煜对Dario Amodei(Anthropic CEO)的把握表示佩服:Coding至少对Digital World来说是最根本性的fabric。"你所有东西都能用code来表达。"Coding会来主导打破GUI/CLI/API之间的boundary——因为GUI本身就是通过code render的。

GUI会不会消失?

苏煜给出明确判断:GUI不会消失。从多个角度论证:

GUI存续的四重理由

  • 人类需要GUI — 人类是visual animal,大脑就是"it's wired that way"
  • GUI是de facto interface — 99%的数字世界已有GUI,设计过程中已encode了大量knowledge、constraints、business logic。Agent用GUI可以piggyback on all this accumulated knowledge
  • 维度优势 — Text是一维表示,visual是二维甚至更高维,对复杂关系的表达更高效
  • Semantic Web的教训 — Tim Berners-Lee推了20多年也没让互联网全面采用语义标准。新标准的全面adoption几乎不可能,因为缺乏足够强的incentive

Language Agent还是Coding Agent?

苏煜否认了"Language Agent应改名Coding Agent"的说法:Programming Language本身就是Language。Language从来不只是自然语言,它包括编程语言、图表语言、手势——都是符号化的表达。"所有Language最终达到的目的都是一样的:描述和操纵世界的工具。"

七、OpenClaw Moment:与ChatGPT Moment的同构

苏煜对OpenClaw Moment给出了一个精妙的结构性分析:它与ChatGPT Moment在本质上是同构的。

ChatGPT Moment (2022)

  • 底层LLM技术已发展多年(BERT 2018 → GPT系列)
  • 技术已经ready,ChatGPT只是把模型fine-tune成chatbot
  • 本质变化是交互形式的变化
  • OpenAI自己也非常surprised
  • 标志LLM范式的到来

OpenClaw Moment (2025-26)

  • Agent技术已有很大发展(coding能力、设计范式)
  • 做Agent的人看OpenClaw codebase:"nothing is new here"
  • 本质变化也是交互形式的变化 + YOLO(全部permission打开)
  • 因为开源所以安全问题相对可控
  • 标志Agent范式的到来

OpenClaw的交互形式创新

苏煜指出OpenClaw的两个关键创新:(1)可在WhatsApp等即时通讯中交互,24小时always-on的独立环境;(2)YOLO模式——不管permission和safety,所有东西都打开。"大家给它各种各样的permission之后,发现原来这个Agent已经这么厉害了。"如果是闭源产品这样做"会出大问题",但开源让问题相对可控。

中国vs美国的火爆差异

不同的舆论辐射模式

  • 美国:火爆主要限于开发者群体和tech从业者,研究如何做得更深
  • 中国:更加出圈和全民化——街头巷尾到地方政府都在聊。叙事从"开源项目"变成"时代性的产业机会"甚至"不学就被时代淘汰"
  • 苏煜听说国内有老人拿着电脑去找人帮忙装OpenClaw
  • 中国的应用层基因:Eric Schmidt也指出,中国在前端技术应用上动作很快。在AI时代这是很大优势——通用智能已超过临界点,缺的是有洞察和执行力的人去发现和抓住价值

后续反应

八、Agent的核心瓶颈:Specialization

这是整个对话的核心论点。苏煜认为当下Agent面临的所有问题——不可靠、不高效、太贵——都指向同一个根本性缺失:Specialization

核心论点

从General Intelligence到Specialized Intelligence

当通用智能变得廉价和标配时,差异化来自于专化。世界不是一个世界,而是由几百万个小世界组成。每个职业、每个domain、每个公司、甚至每个软件都是自己的小世界。这些小世界加起来的entropy几乎无限——不可能有一个单一Agent能capture到所有entropy。

当前Agent的困境

60-70%
Agent做对的概率
30-40%
"不知道因为什么原因就失败了"
~100%
人类专家做对的概率

人不是这样的——如果我们成为某件事的专家,基本上百分之百能做对。因为我们经历了specialization的过程,学会了这个工作的所有ins and outs。在成为专家的过程中,我们变得更reliable、更、更cost effective——而这恰恰是现在Agent面临的最大挑战。

当前的两种Agent学习范式及其不足

范式一:RL Post-Training

  • 模型厂主导
  • 包括Synthetic Environment、RL Gyms
  • 学习速度、准确性、范畴与人类差距巨大

范式二:Non-Parametric Learning

  • 以MD文件为主(SOUL.md、SKILL.md等)
  • 正在演变到Harness层面(Meta-Harness、Auto-Harness)
  • 有很大空间但上限有限

五个概念是同一件事

苏煜在总结中揭示了一个统一结构:Self-learning(学习方法)= Continued Learning(学习过程)= World Model(学习内容)= Specialization(学习目的)= Expert Agent(学习结果)。达成后带来的好处:reliability(可靠性)、speed(速度)、cost effectiveness(成本效率)。

九、World Model:远超视觉的广义定义

苏煜对World Model的定义远比主流(偏视觉、偏物理世界)宽广得多。

苏煜
大家提到World Model就倾向于说是一个vision-based model,关于physical world的model,做next frame prediction或3D reconstruction。但World Model不仅仅是那个样子。World Model一定程度上是整个Human Intelligence最重要的概念。

"实习生到专家"的世界模型

苏煜用一个生动的例子阐释广义World Model:

大学毕业生进入公司的学习过程

  • 公司的组织架构 — 表面的org chart + 实际的org chart(到底谁说了算)
  • 做什么事情要去找谁批准
  • 各种工作软件的使用方法和因果关系
  • 各种工作流(workflows)
  • 人与人之间的心智模型(Theory of Mind)
  • 所有这些 = 一个microworld的World Model

从intern变成expert的过程,就是构建这个microworld的World Model的过程。这个model显然不是一个video model,vision只是其中一部分。

Agent能力金字塔:从通用智能到专化智能

Neo Cognition的技术路线

Learning to Specialize by Learning the World Model of Work

  • 目标不是产生特定的Expert Agent,而是研究一套学习方法
  • 给定任何domain、任何职业、任何环境,可以快速specialize出Expert Agent
  • 核心信念:最大的learning signal来自Continued Learning from Deployment — 在真实环境中持续学习
  • 这也是苏煜从学校出来创业的根本原因 — "你需要有deployment才有learning"

十、Neocortex与千脑智能

苏煜的公司名字Neo Cognition中的"Neo"来自Neocortex(新皮层),占据人脑约70%的区域。

Neocortex的进化特殊性

进化时间短、但功能极广

  • 哺乳动物才出现(约2亿多年前),在进化上极其年轻
  • 早期哺乳动物的neocortex非常小,到大猩猩才急剧增大,人类登峰造极
  • 其他脑区(脑干、海马体、小脑)进化了很长时间,高度特异化
  • Neocortex进化时间短但要做的事情特别多 — 视觉、语言、听觉、推理、planning
  • 进化的最优策略:找到一个足够通用的learning machinery,然后重复很多遍

皮质柱:统一的学习单元

虽然功能上neocortex有很多分区(视觉区、听觉区等),但从解剖结构看都是高度相似的——基于一种叫做Cortical Column(皮质柱)的单元结构。人脑大概有15万个皮质柱。

理论参考

千脑智能理论(A Thousand Brains)

Jeff Hawkins提出:每个皮质柱的结构设计就是为学习World Model做准备。每个皮质柱可能有几百个小World Model,覆盖所有概念——不限于物理世界,包括语言、数学系统、抽象概念(民主、法治)。15万个皮质柱中,每个concept在不同皮质柱有多个World Model。

苏煜认为这是"在人脑怎么work方面走到最远的theory之一",虽然evidence还非常早期和粗浅。

十一、语言与思维:进化论视角的辩护

苏煜与Chris Manning观点高度一致,强调语言的不可替代性。

对"Language和Thought可以分开"的回应

MIT的fMRI研究

有研究发现,人在做复杂推理任务时,语言区域(Wernicke区和Broca区)并不会被显著激活,由此论证language和thought可以分开。苏煜承认这一点,但指出:

  • Individual thought确实不需要language — 因为人的学习过程是内化(internalize)的过程
  • 一开始需要language作为脚手架的知识,会被内化到神经直接连接中
  • 这恰恰是睡眠时做梦、海马体进行short-term → long-term memory转换的过程
  • 但这不代表在形成这些内化的过程中语言没有起至关重要的作用
苏煜(引述Chris Manning的认同)
Individual thought doesn't need language. But civilization needs language.

The Symbolic Species的论证

Terence Deacon在1990年代的著作论证了:从Homo属的祖先到Homo属的过程,是符号与人脑co-evolution的过程。先有符号化的abstract representation,反过来产生进化压力,让大脑随之变化以更好地服务符号化表达。

符号化开启了全新的进化赛道

苏煜认为这极其深刻:其他物种还在慢悠悠进化,Homo这边开启了一个自循环的symbolic赛道——产生了新的cultural进化压力。一个原始人跑到远处发现大老虎,可以回来告诉所有人;还可以口口相传跨越代际。不能适应语言环境的后代会被淘汰。"真的是在进化上新开了一个赛道。"

现代文明对语言的依赖

跳出个体层面看:任何尖端或非尖端的行业、domain,都是符号化的——language、diagram、programming language。这些是现代文明存在的根基。"你要在现代文明里产生价值的东西,都很难离开符号化的表达。"

十二、创业:Neo Cognition与Agent Research Lab

创业的内在逻辑

苏煜
Agent的research和production是分不开的。我相信最大的Agent learning signal来自于continued learning from deployment。你需要去真实环境里持续学习——前提是你得有deployment。在学校是很难做到的。所以我一直知道我早晚会去做startup,只是时间点和技术方向的选择。

为什么是这个时间点

融资环境的两极分化

美国AI融资的马太效应

  • 头部融资规模和估值越来越大:很多Neo Labs一上来融几千万到几亿美金,甚至十亿
  • OpenAI + Anthropic融资额可能占整个市场的30-50%
  • 中间的VC firms struggle — 要么变成Megafund(如a16z),要么变成Boutique Firm
  • On average融资越来越难,但头部越来越容易

为什么大厂不能做

苏煜的回答:如果要做的事情(1)非常非常难,(2)解决后经济价值非常高,那它就是无限上限的space,容纳多个player。没有人能打包票说哪个技术路线对——就像Robotics一样,不确定性高 + 想象空间大 = 大量startup出现。

个人性格的底色

苏煜
我可能属于那种"魂不灵"的性格。不觉得这些东西有那么"所谓"。但另一方面我又知道,如果我真的想要一个事情,I put my mind to it, I put my effort to it,大概率是能够做到的。

苏煜来自湖南省一个小县城,高考湖南省前十进入清华(自主招生全省前几名),之后来美国读PhD。从小凌晨三点偷溜出去网吧玩游戏,但学习也没耽误。他认为对自己影响最大的习惯是从小读书——"读任何东西,只要是纸质的"。

十三、Agent的社会辐射:技术民主化与就业冲击

各大公司的Agent赌注

公司Agent方向苏煜评价
Anthropic全面productivity(Claude Code + Computer Use + Browser)"一家独大,给大家打了个样"
OpenAI全面转向Agent、productivity、coding"在往Anthropic方向收束"
Google模型能力强 + 最好的生态位"总觉得缺了一些东西。缺应用"
xAI成立Macro(微软反义词),Computer Use Agent可能用Tesla FSD路线(小模型+video+E2E),"a different bet,good luck"
Jeff BezosProject Prometheus,融资60-70亿美金偏manufacturing、物流、基建方向,有大量Computer Use Agent部分
字节UI-TARS系列 → 豆包手机很好的工作
智谱AutoGLM系列,做Agent开始很早与OSU有合作渊源(AgentBench)

Agent安全与可靠性

苏煜
很多safety的问题,对于Agent来说归根结底是一个能力问题。就像人——intern更容易犯安全方面的错误,但老师傅就不会。因为他已经学会了做哪些事情容易有安全风险。但security稍微不一样,security是更加worst-case scenario,需要更专门的方法。

技术民主化的责任

Agent Researcher的社会责任

苏煜认为最大的现实concern不是存在性风险(existential risk)——"在可预见的未来我看不到可能性",因为AI缺乏innate goals和intention——而是job displacement。如果失业速度远超新工作产生的速度,社会会出现大问题。Agent研究者的责任是让Agent变得"真正好用、容易用",让每个有独特想法的人都能把想法转化成可产生价值的Agent——技术的民主化,而非让核心技术被少数巨头垄断。

苏煜的Agent发展预测

2026年及未来

  • 技术主旋律:Continued Learning / Self Learning
  • 不同bet会出现:基于World Model的continued learning是其中一种路线
  • 关键挑战:Agent技术多快辐射到社会更多角落(reliability、speed、cost)
  • 当前门槛依然很高——Anthropic等公司采用Patient Tier模式,大量forward deploy engineers驻扎客户处build agent
  • Continued Learning会被解决,时间是"未来几年"
  • 解决后Agent会广泛渗透社会各角落,根本性改变很多行业的生产关系

启示与延伸思考

1. Language Agent不是一个临时标签,而是一个进化论命题

苏煜用生物演化(真核细胞→哺乳动物→人类→语言→文明)类比AI演化(逻辑Agent→神经Agent→Language Agent),论证语言在智能发展中的加速剂作用。最深刻的一点是:即使未来底层模型不再是LLM,"以language为根本去理解世界、做推理、跟世界交互的能力"不可能消失。Language Agent这个词可能变得redundant——不是因为语言不重要了,而是因为它变成了Agent的标配。

2. Adaptive Computing是Language Agent最被低估的属性

苏煜反复强调的一个对比:Deep RL Agent不管问题多复杂,计算量都是一个forward pass;而Chain of Thought让Language Agent实现了自适应计算——任务越复杂产生越多token,每个token都是额外的compute。这不是一个小的工程改进,而是一个质变——它让Agent第一次像人一样可以"花更多时间想更难的问题"。

3. OpenClaw Moment = ChatGPT Moment的同构重演

两者的共同模式:底层技术已ready → 交互形式的变革(而非技术突破)→ 大众突然发现"原来已经这么厉害了" → 整个产业格局重塑。苏煜预判OpenClaw的影响力规模会与ChatGPT comparable。对创业者的启示:在技术已ready但公众认知未到位的窗口期,交互形式创新是巨大的杠杆。

4. Specialization是Agent领域真正的"最后一公里"

从60-70%到接近100%的差距不是量变而是质变——这意味着Agent从"有时有用"变成"可以信赖"。苏煜将Self Learning、Continued Learning、World Model、Specialization、Expert Agent统一为同一件事的不同侧面,这个框架简洁有力。其中最关键的判断是:learning signal来自deployment,不来自lab——这解释了为什么他选择离开学校创业。

5. GUI vs CLI之争可能是一个伪问题

苏煜用Semantic Web的20年教训(Tim Berners-Lee推了20多年也没让全互联网采用语义标准)来论证:指望所有行业几年内转向CLI/API是不现实的。GUI已经encode了几十年积累的knowledge和constraints,Agent piggyback这些现有资产比重建一套新的接口更高效。关键判断:Coding会来主导打破GUI/CLI/API之间的boundary,而不是任何一方取代另一方。

6. 广义World Model是AI下一个十年的元问题

苏煜对World Model的定义远超视觉:组织架构、工作流、人际心智模型都是World Model的一部分。如果把Neocortex的皮质柱理论和千脑智能理论放在一起看,一个激进但有趣的假说浮现:人脑的15万个皮质柱,每个都在学习World Model的不同切面。当前AI的所有学习方法——无论RL还是非参数化——都远未触及这种持续、多面、自适应的学习能力。

7. Semantic Parsing到Agent的隐藏谱系

一个被忽视的学术社会学现象:Agent领域多位关键人物(Percy Liang、Luke Zettlemoyer、于涛、苏煜等)都出身Semantic Parsing——一个当年在NLP中被认为是niche area、甚至有老师告诫学生"不要去做"的方向。这条谱系暗示:解决"机器如何理解人类意图并在环境中执行"的核心能力,可能比当时更热门的方向(如计算机视觉)更直接地通向Agent。对年轻研究者的启示:选问题的重要性远大于选热度。

延伸阅读

关键论文时间线(苏煜提及)

年份论文/工作意义
1943Neuron计算模型用computational model capture单个神经元,奠定所有神经网络基础
1985Backpropagation (Hinton等)不一定是最早formulation,但Hinton将其大众化
2012AlexNet神经网络的文艺复兴
2013Word2Vec同时把神经网络引入Language Processing
2014Attention机制Selective Attention,两篇论文(Seq2Seq + NYU机器翻译)
2017TransformerFull Self-Attention + Shortcut Connection (from ResNet)
2018BERT第一个真正大规模work的Language Foundation Model
GPT系列GPT-1/2/3 → ChatGPT超越AI领域的影响,产业格局重塑
2022Chain of ThoughtAdaptive Computing/Reasoning