← 返回张小珺主页
一、嘉宾画像:从Semantic Parsing到Agent创业
苏煜,Ohio State University (OSU) NLP Group创建者,2025年从学校on leave,在硅谷创立Neo Cognition——一家定位为Agent Research Lab的公司,种子轮融资4000万美金。
代表性工作
- Mind2Web — 第一个基于LLM的Web Agent / Computer Use Agent(2022.10启动,2023初发布)
- CACT — 多模态Web Agent,基于GPT-4V,在API尚未开放时自行hack了网页界面API
- MMMU — 多模态大模型最广泛使用的benchmark之一
- UGround — 推动"Agent应该像人一样用电脑"的范式(visual perception + pixel-level actions)
- AgentBench — 与清华合作的Agent最早benchmark之一
学术谱系中的Agent脉络
苏煜指出,很多在LLM/Agent领域产生重大影响的人实际上是Semantic Parsing出身:
Semantic Parsing → Agent 的人物网络
- Percy Liang — Stanford
- Luke Zettlemoyer — UW / Meta,做了RoBERTa和ELMo(GPT的重要先驱)
- 于涛 — 港大,OSWorld等工作
- 苏煜 & 盛欢 — OSU
这条线索暗示Semantic Parsing与Agent问题之间存在深层联系:两者都在解决"如何让机器理解人类意图并在环境中执行"的问题。
苏煜
Let machines understand human thinking. Don't let humans think like machines. — 这是我PhD defense时的宣言。让机器去理解人的语言、理解人的想法,而不是让人去像机器一样思考。
二、Agent的定义:三要素框架
苏煜给出了一个简洁但深刻的Agent定义,由三个要素构成:
核心框架
Agent三要素
- Entity(实体性) — 有boundary(边界),不是一个发散的、没有边界的东西
- Environment(环境性) — 需要在某种外界环境中工作
- Goal-directed(目的性) — 带有目的性地进行活动,而不是随机游荡
所有动物都符合这个定义——"所有的动物它都是Agent,尤其是人,可能是有最先进智能的Agent。"
Agent的两大核心能力
Memory(记忆)
- 知识的表达、获取、更新、遗忘
- 语义知识(Semantic Memory)
- 情景记忆(Episodic Memory)
- 过程性记忆(Procedural Memory)— 如学骑自行车
- 人的所有学到的东西都存在神经突触中,本质上都是Memory
Autonomy(自主性)
- Perception — 感知世界
- Reasoning — 基于感知和知识做推理
- Decision Making — 基于推理做决策
- Action — 决策反映到外界环境
- Memory是Autonomy的基础,两者一体两面
分析框架的统一性
这个Memory + Autonomy框架可以用来分析所有类型的Agent——从人类Agent到逻辑Agent、神经Agent、语言Agent。苏煜在整个对话中反复用这个框架来评估不同代际Agent的能力边界和演进方向,使得看似纷繁的Agent发展史呈现出清晰的分析结构。
三、Agent演化史:从逻辑到神经到语言
苏煜将Agent的发展划分为三个大的范式阶段,并用Memory/Autonomy框架逐一评估。
第一阶段:逻辑Agent(1950s-1990s)
核心特征与局限
- 代表:专家系统(Expert Systems),基于一阶谓词逻辑
- Memory:只有有限集的logical statements,表达能力被逻辑语言所限。后来尝试的高阶逻辑、模糊逻辑、概率逻辑"只解决了很小部分的问题"
- Autonomy:全部能力就是take a question → inference engine → 答案。对不同复杂度问题的计算量是固定的
- 致命瓶颈:Knowledge Acquisition Bottleneck — 让工程师采访领域专家、再翻译成逻辑语言,过程"非常痛苦、非常低效"
- 后果:直接导致1980-90年代最大的一次AI Winter
第二阶段:神经Agent(2000s-2020)
核心特征与局限
- 代表:Deep RL系列 — Atari游戏、AlphaGo、Dota、星际争霸
- Memory:一个很小的神经网络(几十M到~100M参数),只存储关于特定游戏的知识
- Autonomy:输入画面 → 一次forward pass → 输出动作。推理是隐式的,且计算量固定 — "不管多么复杂的情况,它所能用到的compute就是一个forward pass"
- 致命瓶颈:Sample Inefficiency — 一个简单的游戏可能要玩几百万盘才能学会
- 泛化性:有所提高(同一网络可以玩不同Atari游戏),但远非人类级别的泛化
为什么游戏成为训练场
- DeepMind创始人Demis Hassabis个人对游戏非常情有独钟
- 游戏作为高度可重复的虚拟环境,天然解决data abundance问题
- 输入输出高度受限和简单,适合当时的技术条件
平行发展:Semantic Parsing
与Neural Agent专注"做深"不同,Semantic Parsing关注的是"做广"——把人说的任何话转化成机器能读懂的语义表达。它扩大了Agent的输入宽度(language understanding)和行动空间(可以命令机器做各种事情),与Neural Agent形成互补。
四、Language Agent:语言作为脚手架
2020年后,特别是2022年ChatGPT出现后,Agent进入第三阶段——苏煜称之为Language Agent。这个命名源自他与杨迪、姚顺宇、于涛在2024年合作的一个tutorial。
核心概念
Language作为Scaffold(脚手架)
这一代Agent的本质不同在于:Language可以作为所有能力的脚手架——
- Perception脚手架:Language Understanding使人机交互形式极大灵活化
- Reasoning脚手架:Chain of Thought让推理从"一次forward pass"变为Adaptive Computing — 任务越复杂,产生越多token,每个token都是一次forward pass,实现自适应计算量
- Action脚手架:语言(包括formal language、programming language)是全能的行动媒介,可在数字世界做任何事
- Memory脚手架:大模型训练本质是"以语言为脚手架,通过压缩形成对世界的表示"
苏煜
早年大家觉得Language Model只是所谓的Stochastic Parrot(随机鹦鹉),只是在模仿人类语言做统计预测。但实际上我们越来越理解,大语言模型训练的过程是一个压缩,从语言的surface form压缩成一个meaning representation,一个对世界的model。
语言在进化中的加速剂作用
苏煜从生物演化视角论证了语言的根本性:
一个类比
- 真核细胞生物出现 — 约10亿年前
- 哺乳动物出现 — 2-4亿年前
- Homo属出现 — 约200万年前
- 系统性符号化表达 — 约10万年前(洞穴壁画、宗教符号)
- 书面语言 — 约5000-6000年
- 最近5000-6000年 = 人类文明大爆炸
语言在人类演化中起到了爆炸式的加速剂作用。而在AI的演化中,"好像又是一个类似的效果"——这是为什么苏煜在2023年写了博客《Language Agents: A Critical Evolutionary Step for AI》。
Semantic Parsing vs Language Agent的区别
不是说之前没有人把语言用于AI——NLP整个领域就在做这件事。区别在于:LLM出现前,每次只能做某个特定环境(某个数据库、某个知识图谱、某个网站)。LLM提供了一个非常强的prior,内置了基于语言的世界模型,使得Agent可以放到任何环境中"至少reasonably地产生一些行为"。
五、Language Agent三年编年史
苏煜从个人经历出发,梳理了2022-2026年Language Agent的关键时间线。他坦言这个覆盖偏向Computer Use Agent方向。
2022年初 — Chain of Thought
语言带来的Adaptive Computing/Reasoning,"非常本质的不同"。
2022年10月 — ReAct
姚顺宇的工作。将CoT从数学推理扩展到有外部环境的Agent场景。"想法很简单,但影响力相当深远。"
2022年底 — LLM Planner & Mind2Web
与ChatGPT同一时间。LLM Planner是最早用LLM做Robot Planning的工作之一;Mind2Web是第一个基于LLM的Web Agent。
2023年2月 — Toolformer
Meta出品,第一个用LLM做Tool Use的工作。Luke Zettlemoyer主导。微软CTO Satya在全公司传阅此论文。
2023年3月 — AutoGPT
GitHub历史上star数涨最快的repo,没有之一。当时18万stars。"在当时它的火爆程度就跟OpenClaw现在的火爆程度差不太多。"
2023年中 — GPT-4V & 多模态转向
第一个真正能打的多模态模型。Agent全面向多模态转向。CACT等vision-based agent开始出现。
2023年7月 — WebArena
CMU Graham Neubig团队,做了完整网站replica作为可复现的agent测试环境。
2024年3-4月 — OSWorld
于涛团队。从Web扩展到Desktop/Mobile环境。
2024年下半年 — UGround
确立"Agent应该像人一样用电脑"的范式:Visual Perception + Pixel-level Actions。后续Claude Computer Use、OpenAI Operator均采用此embodiment。
2024年10月 — Claude Computer Use
Anthropic发布。采用类UGround的embodiment。
2025年上半年 — Claude Code爆发
在Cursor影响下诞生。OPUS 4.5出来后,"大家对coding的感知和实践都发生了翻天覆地的变化"。硅谷"基本上已经不自己写代码了"。
2025年11月-2026年2月 — OpenClaw Moment
2025年底release,2026年2月真正火爆。标志着Agent范式的变化。
六、边界的消弭:GUI、CLI与Coding
苏煜认为当前Agent领域的各种分类——Browser Use、Desktop Use、Mobile Use、GUI-based、Text-based、Coding、Tool Use——都是临时性的。
苏煜
At the end of the day,大家想要的就是一个Universal Digital Agent——可以在数字世界里面做人能做到的所有事情,甚至做得更好的Agent。这些分类只是a means to an end,而且这个boundary正在快速消灭。
Coding的根本性地位
关键判断
Coding是最根本性的Building Layer
苏煜对Dario Amodei(Anthropic CEO)的把握表示佩服:Coding至少对Digital World来说是最根本性的fabric。"你所有东西都能用code来表达。"Coding会来主导打破GUI/CLI/API之间的boundary——因为GUI本身就是通过code render的。
GUI会不会消失?
苏煜给出明确判断:GUI不会消失。从多个角度论证:
GUI存续的四重理由
- 人类需要GUI — 人类是visual animal,大脑就是"it's wired that way"
- GUI是de facto interface — 99%的数字世界已有GUI,设计过程中已encode了大量knowledge、constraints、business logic。Agent用GUI可以piggyback on all this accumulated knowledge
- 维度优势 — Text是一维表示,visual是二维甚至更高维,对复杂关系的表达更高效
- Semantic Web的教训 — Tim Berners-Lee推了20多年也没让互联网全面采用语义标准。新标准的全面adoption几乎不可能,因为缺乏足够强的incentive
Language Agent还是Coding Agent?
苏煜否认了"Language Agent应改名Coding Agent"的说法:Programming Language本身就是Language。Language从来不只是自然语言,它包括编程语言、图表语言、手势——都是符号化的表达。"所有Language最终达到的目的都是一样的:描述和操纵世界的工具。"
七、OpenClaw Moment:与ChatGPT Moment的同构
苏煜对OpenClaw Moment给出了一个精妙的结构性分析:它与ChatGPT Moment在本质上是同构的。
ChatGPT Moment (2022)
- 底层LLM技术已发展多年(BERT 2018 → GPT系列)
- 技术已经ready,ChatGPT只是把模型fine-tune成chatbot
- 本质变化是交互形式的变化
- OpenAI自己也非常surprised
- 标志LLM范式的到来
OpenClaw Moment (2025-26)
- Agent技术已有很大发展(coding能力、设计范式)
- 做Agent的人看OpenClaw codebase:"nothing is new here"
- 本质变化也是交互形式的变化 + YOLO(全部permission打开)
- 因为开源所以安全问题相对可控
- 标志Agent范式的到来
OpenClaw的交互形式创新
苏煜指出OpenClaw的两个关键创新:(1)可在WhatsApp等即时通讯中交互,24小时always-on的独立环境;(2)YOLO模式——不管permission和safety,所有东西都打开。"大家给它各种各样的permission之后,发现原来这个Agent已经这么厉害了。"如果是闭源产品这样做"会出大问题",但开源让问题相对可控。
中国vs美国的火爆差异
不同的舆论辐射模式
- 美国:火爆主要限于开发者群体和tech从业者,研究如何做得更深
- 中国:更加出圈和全民化——街头巷尾到地方政府都在聊。叙事从"开源项目"变成"时代性的产业机会"甚至"不学就被时代淘汰"
- 苏煜听说国内有老人拿着电脑去找人帮忙装OpenClaw
- 中国的应用层基因:Eric Schmidt也指出,中国在前端技术应用上动作很快。在AI时代这是很大优势——通用智能已超过临界点,缺的是有洞察和执行力的人去发现和抓住价值
后续反应
- Anthropic的Claude Code"去各种抄OpenClaw的feature"(苏煜认为没有OpenClaw也会自然加上,更像催化剂)
- OpenAI全面转向Agent、productivity、coding,砍掉实验性项目
- NVIDIA老黄:"每一个企业都要有一个Cloud Strategy"
- 国内各大厂动作非常快
- 裁员新闻与Agent能力perception高度相关
八、Agent的核心瓶颈:Specialization
这是整个对话的核心论点。苏煜认为当下Agent面临的所有问题——不可靠、不高效、太贵——都指向同一个根本性缺失:Specialization。
核心论点
从General Intelligence到Specialized Intelligence
当通用智能变得廉价和标配时,差异化来自于专化。世界不是一个世界,而是由几百万个小世界组成。每个职业、每个domain、每个公司、甚至每个软件都是自己的小世界。这些小世界加起来的entropy几乎无限——不可能有一个单一Agent能capture到所有entropy。
当前Agent的困境
人不是这样的——如果我们成为某件事的专家,基本上百分之百能做对。因为我们经历了specialization的过程,学会了这个工作的所有ins and outs。在成为专家的过程中,我们变得更reliable、更快、更cost effective——而这恰恰是现在Agent面临的最大挑战。
当前的两种Agent学习范式及其不足
范式一:RL Post-Training
- 模型厂主导
- 包括Synthetic Environment、RL Gyms
- 学习速度、准确性、范畴与人类差距巨大
范式二:Non-Parametric Learning
- 以MD文件为主(SOUL.md、SKILL.md等)
- 正在演变到Harness层面(Meta-Harness、Auto-Harness)
- 有很大空间但上限有限
五个概念是同一件事
苏煜在总结中揭示了一个统一结构:Self-learning(学习方法)= Continued Learning(学习过程)= World Model(学习内容)= Specialization(学习目的)= Expert Agent(学习结果)。达成后带来的好处:reliability(可靠性)、speed(速度)、cost effectiveness(成本效率)。
九、World Model:远超视觉的广义定义
苏煜对World Model的定义远比主流(偏视觉、偏物理世界)宽广得多。
苏煜
大家提到World Model就倾向于说是一个vision-based model,关于physical world的model,做next frame prediction或3D reconstruction。但World Model不仅仅是那个样子。World Model一定程度上是整个Human Intelligence最重要的概念。
"实习生到专家"的世界模型
苏煜用一个生动的例子阐释广义World Model:
大学毕业生进入公司的学习过程
- 公司的组织架构 — 表面的org chart + 实际的org chart(到底谁说了算)
- 做什么事情要去找谁批准
- 各种工作软件的使用方法和因果关系
- 各种工作流(workflows)
- 人与人之间的心智模型(Theory of Mind)
- 所有这些 = 一个microworld的World Model
从intern变成expert的过程,就是构建这个microworld的World Model的过程。这个model显然不是一个video model,vision只是其中一部分。
Neo Cognition的技术路线
Learning to Specialize by Learning the World Model of Work
- 目标不是产生特定的Expert Agent,而是研究一套学习方法
- 给定任何domain、任何职业、任何环境,可以快速specialize出Expert Agent
- 核心信念:最大的learning signal来自Continued Learning from Deployment — 在真实环境中持续学习
- 这也是苏煜从学校出来创业的根本原因 — "你需要有deployment才有learning"
十、Neocortex与千脑智能
苏煜的公司名字Neo Cognition中的"Neo"来自Neocortex(新皮层),占据人脑约70%的区域。
Neocortex的进化特殊性
进化时间短、但功能极广
- 哺乳动物才出现(约2亿多年前),在进化上极其年轻
- 早期哺乳动物的neocortex非常小,到大猩猩才急剧增大,人类登峰造极
- 其他脑区(脑干、海马体、小脑)进化了很长时间,高度特异化
- Neocortex进化时间短但要做的事情特别多 — 视觉、语言、听觉、推理、planning
- 进化的最优策略:找到一个足够通用的learning machinery,然后重复很多遍
皮质柱:统一的学习单元
虽然功能上neocortex有很多分区(视觉区、听觉区等),但从解剖结构看都是高度相似的——基于一种叫做Cortical Column(皮质柱)的单元结构。人脑大概有15万个皮质柱。
理论参考
千脑智能理论(A Thousand Brains)
Jeff Hawkins提出:每个皮质柱的结构设计就是为学习World Model做准备。每个皮质柱可能有几百个小World Model,覆盖所有概念——不限于物理世界,包括语言、数学系统、抽象概念(民主、法治)。15万个皮质柱中,每个concept在不同皮质柱有多个World Model。
苏煜认为这是"在人脑怎么work方面走到最远的theory之一",虽然evidence还非常早期和粗浅。
十一、语言与思维:进化论视角的辩护
苏煜与Chris Manning观点高度一致,强调语言的不可替代性。
对"Language和Thought可以分开"的回应
MIT的fMRI研究
有研究发现,人在做复杂推理任务时,语言区域(Wernicke区和Broca区)并不会被显著激活,由此论证language和thought可以分开。苏煜承认这一点,但指出:
- Individual thought确实不需要language — 因为人的学习过程是内化(internalize)的过程
- 一开始需要language作为脚手架的知识,会被内化到神经直接连接中
- 这恰恰是睡眠时做梦、海马体进行short-term → long-term memory转换的过程
- 但这不代表在形成这些内化的过程中语言没有起至关重要的作用
苏煜(引述Chris Manning的认同)
Individual thought doesn't need language. But civilization needs language.
The Symbolic Species的论证
Terence Deacon在1990年代的著作论证了:从Homo属的祖先到Homo属的过程,是符号与人脑co-evolution的过程。先有符号化的abstract representation,反过来产生进化压力,让大脑随之变化以更好地服务符号化表达。
符号化开启了全新的进化赛道
苏煜认为这极其深刻:其他物种还在慢悠悠进化,Homo这边开启了一个自循环的symbolic赛道——产生了新的cultural进化压力。一个原始人跑到远处发现大老虎,可以回来告诉所有人;还可以口口相传跨越代际。不能适应语言环境的后代会被淘汰。"真的是在进化上新开了一个赛道。"
现代文明对语言的依赖
跳出个体层面看:任何尖端或非尖端的行业、domain,都是符号化的——language、diagram、programming language。这些是现代文明存在的根基。"你要在现代文明里产生价值的东西,都很难离开符号化的表达。"
十二、创业:Neo Cognition与Agent Research Lab
创业的内在逻辑
苏煜
Agent的research和production是分不开的。我相信最大的Agent learning signal来自于continued learning from deployment。你需要去真实环境里持续学习——前提是你得有deployment。在学校是很难做到的。所以我一直知道我早晚会去做startup,只是时间点和技术方向的选择。
为什么是这个时间点
- 底层技术(LLM各方面能力、tool use、coding、multimodal)开始变得ready
- 对Agent整体现状和bottleneck有了"很深刻的认知"
- 2025年起,有意思的Agent研究需要的资源(GPU、API、强团队)与学校基因不匹配
- 大部分有代表性的Agent idea都度过了proof of concept阶段
融资环境的两极分化
美国AI融资的马太效应
- 头部融资规模和估值越来越大:很多Neo Labs一上来融几千万到几亿美金,甚至十亿
- OpenAI + Anthropic融资额可能占整个市场的30-50%
- 中间的VC firms struggle — 要么变成Megafund(如a16z),要么变成Boutique Firm
- On average融资越来越难,但头部越来越容易
为什么大厂不能做
苏煜的回答:如果要做的事情(1)非常非常难,(2)解决后经济价值非常高,那它就是无限上限的space,容纳多个player。没有人能打包票说哪个技术路线对——就像Robotics一样,不确定性高 + 想象空间大 = 大量startup出现。
个人性格的底色
苏煜
我可能属于那种"魂不灵"的性格。不觉得这些东西有那么"所谓"。但另一方面我又知道,如果我真的想要一个事情,I put my mind to it, I put my effort to it,大概率是能够做到的。
苏煜来自湖南省一个小县城,高考湖南省前十进入清华(自主招生全省前几名),之后来美国读PhD。从小凌晨三点偷溜出去网吧玩游戏,但学习也没耽误。他认为对自己影响最大的习惯是从小读书——"读任何东西,只要是纸质的"。
十三、Agent的社会辐射:技术民主化与就业冲击
各大公司的Agent赌注
| 公司 | Agent方向 | 苏煜评价 |
| Anthropic | 全面productivity(Claude Code + Computer Use + Browser) | "一家独大,给大家打了个样" |
| OpenAI | 全面转向Agent、productivity、coding | "在往Anthropic方向收束" |
| Google | 模型能力强 + 最好的生态位 | "总觉得缺了一些东西。缺应用" |
| xAI | 成立Macro(微软反义词),Computer Use Agent | 可能用Tesla FSD路线(小模型+video+E2E),"a different bet,good luck" |
| Jeff Bezos | Project Prometheus,融资60-70亿美金 | 偏manufacturing、物流、基建方向,有大量Computer Use Agent部分 |
| 字节 | UI-TARS系列 → 豆包手机 | 很好的工作 |
| 智谱 | AutoGLM系列,做Agent开始很早 | 与OSU有合作渊源(AgentBench) |
Agent安全与可靠性
苏煜
很多safety的问题,对于Agent来说归根结底是一个能力问题。就像人——intern更容易犯安全方面的错误,但老师傅就不会。因为他已经学会了做哪些事情容易有安全风险。但security稍微不一样,security是更加worst-case scenario,需要更专门的方法。
技术民主化的责任
Agent Researcher的社会责任
苏煜认为最大的现实concern不是存在性风险(existential risk)——"在可预见的未来我看不到可能性",因为AI缺乏innate goals和intention——而是job displacement。如果失业速度远超新工作产生的速度,社会会出现大问题。Agent研究者的责任是让Agent变得"真正好用、容易用",让每个有独特想法的人都能把想法转化成可产生价值的Agent——技术的民主化,而非让核心技术被少数巨头垄断。
苏煜的Agent发展预测
2026年及未来
- 技术主旋律:Continued Learning / Self Learning
- 不同bet会出现:基于World Model的continued learning是其中一种路线
- 关键挑战:Agent技术多快辐射到社会更多角落(reliability、speed、cost)
- 当前门槛依然很高——Anthropic等公司采用Patient Tier模式,大量forward deploy engineers驻扎客户处build agent
- Continued Learning会被解决,时间是"未来几年"
- 解决后Agent会广泛渗透社会各角落,根本性改变很多行业的生产关系
启示与延伸思考
1. Language Agent不是一个临时标签,而是一个进化论命题
苏煜用生物演化(真核细胞→哺乳动物→人类→语言→文明)类比AI演化(逻辑Agent→神经Agent→Language Agent),论证语言在智能发展中的加速剂作用。最深刻的一点是:即使未来底层模型不再是LLM,"以language为根本去理解世界、做推理、跟世界交互的能力"不可能消失。Language Agent这个词可能变得redundant——不是因为语言不重要了,而是因为它变成了Agent的标配。
2. Adaptive Computing是Language Agent最被低估的属性
苏煜反复强调的一个对比:Deep RL Agent不管问题多复杂,计算量都是一个forward pass;而Chain of Thought让Language Agent实现了自适应计算——任务越复杂产生越多token,每个token都是额外的compute。这不是一个小的工程改进,而是一个质变——它让Agent第一次像人一样可以"花更多时间想更难的问题"。
3. OpenClaw Moment = ChatGPT Moment的同构重演
两者的共同模式:底层技术已ready → 交互形式的变革(而非技术突破)→ 大众突然发现"原来已经这么厉害了" → 整个产业格局重塑。苏煜预判OpenClaw的影响力规模会与ChatGPT comparable。对创业者的启示:在技术已ready但公众认知未到位的窗口期,交互形式创新是巨大的杠杆。
4. Specialization是Agent领域真正的"最后一公里"
从60-70%到接近100%的差距不是量变而是质变——这意味着Agent从"有时有用"变成"可以信赖"。苏煜将Self Learning、Continued Learning、World Model、Specialization、Expert Agent统一为同一件事的不同侧面,这个框架简洁有力。其中最关键的判断是:learning signal来自deployment,不来自lab——这解释了为什么他选择离开学校创业。
5. GUI vs CLI之争可能是一个伪问题
苏煜用Semantic Web的20年教训(Tim Berners-Lee推了20多年也没让全互联网采用语义标准)来论证:指望所有行业几年内转向CLI/API是不现实的。GUI已经encode了几十年积累的knowledge和constraints,Agent piggyback这些现有资产比重建一套新的接口更高效。关键判断:Coding会来主导打破GUI/CLI/API之间的boundary,而不是任何一方取代另一方。
6. 广义World Model是AI下一个十年的元问题
苏煜对World Model的定义远超视觉:组织架构、工作流、人际心智模型都是World Model的一部分。如果把Neocortex的皮质柱理论和千脑智能理论放在一起看,一个激进但有趣的假说浮现:人脑的15万个皮质柱,每个都在学习World Model的不同切面。当前AI的所有学习方法——无论RL还是非参数化——都远未触及这种持续、多面、自适应的学习能力。
7. Semantic Parsing到Agent的隐藏谱系
一个被忽视的学术社会学现象:Agent领域多位关键人物(Percy Liang、Luke Zettlemoyer、于涛、苏煜等)都出身Semantic Parsing——一个当年在NLP中被认为是niche area、甚至有老师告诫学生"不要去做"的方向。这条谱系暗示:解决"机器如何理解人类意图并在环境中执行"的核心能力,可能比当时更热门的方向(如计算机视觉)更直接地通向Agent。对年轻研究者的启示:选问题的重要性远大于选热度。
延伸阅读
- A Brief History of Intelligence — 苏煜首推书目,AI+进化+神经科学的最佳通俗结合
- A Thousand Brains (Jeff Hawkins) — 千脑智能理论,皮质柱与World Model
- The Symbolic Species (Terence Deacon, ~1997) — 符号与人脑co-evolution的论证
- Artificial Intelligence: A Modern Approach (Russell & Norvig, 1995) — "本质上是一本关于Agent的书"
- 苏煜博客:Language Agents: A Critical Evolutionary Step for AI (2023)
- 苏煜等人Tutorial:Language Agent (2024, 与杨迪、姚顺宇、于涛合作)
- EP.127 与谢赛宁聊World Model — 另一种偏视觉的观点
关键论文时间线(苏煜提及)
| 年份 | 论文/工作 | 意义 |
| 1943 | Neuron计算模型 | 用computational model capture单个神经元,奠定所有神经网络基础 |
| 1985 | Backpropagation (Hinton等) | 不一定是最早formulation,但Hinton将其大众化 |
| 2012 | AlexNet | 神经网络的文艺复兴 |
| 2013 | Word2Vec | 同时把神经网络引入Language Processing |
| 2014 | Attention机制 | Selective Attention,两篇论文(Seq2Seq + NYU机器翻译) |
| 2017 | Transformer | Full Self-Attention + Shortcut Connection (from ResNet) |
| 2018 | BERT | 第一个真正大规模work的Language Foundation Model |
| GPT系列 | GPT-1/2/3 → ChatGPT | 超越AI领域的影响,产业格局重塑 |
| 2022 | Chain of Thought | Adaptive Computing/Reasoning |