深度研究 — #128 Manus决定出售前最后的访谈

← 返回张小珺主页

🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

少年创业者：App Store与第一桶金
NLP苦旅：从Word2Vec到知识图谱
GPT-3的天塌时刻与路线抉择
寻找画布：为什么选择萧红与Monica
AI浏览器：一个被理性杀死的项目
Manus的诞生：从Cursor的启示到云端Agent
Context Engineering vs 训练模型
通用Agent的产品哲学
纯血Agent vs Workflow：技术路线之争
模型厂商关系：外包研发的艺术
邀请码争议与商业化逻辑
Agent生态与竞争格局
组织哲学：身心健康的创始人
启示与延伸思考

一、少年创业者：App Store与第一桶金

季超（PK），Manus联合创始人兼首席科学家。父亲是北大物理系教授，母亲是中关村老一辈连续创业者。他自称在这"两种不同的风格中取了一个中间点"——科技创业者。

App Store：改变人生的平台

2009年，还在读高中的季超抓住了iPhone App Store这一全新分发渠道，开发了第三方iOS浏览器猛犸浏览器（Mammoth Web Browser），采用最朴素的Buy Copy模式——每卖一份赚一份。

$30万+

猛犸浏览器总收入

高二

开始创业的年级

2009

进入App Store生态

季超

App Store给了我一个契机——我可以向我的父母、同学乃至于老师证明说，我瞎搞的这个东西是能产生经济价值的。

蛮荒期的窗口

季超认为从桌面互联网到移动互联网是一次平台变化，巨头和开发者"众生平等"，存在一个蛮荒期。但反观AI时代——虽然是技术突破，但没有全新平台出现，因此不存在蛮荒期，"无论是巨头还是创业公司还是个人开发者，大家反应都一样快"。这一判断深刻影响了他后来对Manus的战略选择。

辍学创业与真格基金

通过中关村的创业活动认识了真格基金的徐小平，在"你想不想创业"的邀请下，拿了Term Sheet，决定不上大学。真格承诺"不会管他干什么"——这个承诺兑现至今。他拉上几个北大保送的同学，正式开始创业。

对App Store时代商业模式的反思

Buy Copy模式在巨头回过味来后不可持续
国内缺乏支付渠道——只能支持国际信用卡，中国用户基本无法付费
解决办法：破解自己的软件在国内论坛免费发布——"没钱给我捧个人场"
这是"中国第一代软件出海创业者"的缩影

二、NLP苦旅：从Word2Vec到知识图谱

从浏览器的"预测用户下一次点击"需求出发，季超进入了NLP领域。2013年Google的Word2Vec论文对他而言是"心中最石破天惊的转折点"——第一次能将自然语言文本变成稠密向量。

Maggie项目：人生智力巅峰

团队构建了一个名为Maggie的系统，能让AI自动在互联网上阅读文章、持续构建和更新知识图谱。技术路线从传统依存句法分析到Word2Vec向量化，再到LSTM+Attention，最终走向Transformer。

2011年

因浏览器需求进入NLP领域，当时中文处理还在做分词（Tokenization）和依存句法分析（Dependency Parsing）

2013年

Word2Vec论文发布，"新世界大门打开"。团队开始研究Open Information Extraction（开放式信息提取），不预设Schema

2014-2018年

从零训练模型——两个0.3B参数的模型（"当年这叫大模型"）。解决了从512 token到16K的Long Context问题

2018年

Transformer和BERT出现，解决了上下文相关编码问题，但也意味着"过去几年积累基本都算了"

2019年

拿到GPT-3 Early Access，"觉得天要塌了"

季超

我把我这辈子想试的技术都以合理的方式花投资人的钱给搞定了。所以在那个项目做完的那一刻，我的人生已经圆满了。再后来做Manus这些事，我心里已经没有什么"我要证明自己"。我早就无憾了。

技术洞察

垂直整合的痛苦

季超在Maggie项目中亲历了"从爬虫到索引引擎到模型到产品全部自己做"的垂直整合之苦。每天醒来都感觉"海水在上涨，不知道会涨到什么程度"。外部技术迭代极快——每一次范式更新（Word2Vec到LSTM到Transformer），过去几年的积累都被推翻。这个教训直接决定了他在Manus时代坚决不自己训模型的立场。

三、GPT-3的天塌时刻与路线抉择

2019年拿到GPT-3 Early Access后，季超用同样的任务测试——"随便写了个prompt"，发现GPT-3跟自己端到端训练的专用模型"五五开"。

季超

虽然它现在很贵，但它是一个通解。以前做NLP大家泾渭分明——我做信息抽取，你做机器翻译，大家握握手"互相学习"。但GPT-3出来之后，就彻底把我们那条心给摁死了。我的第一反应就是赶紧卖掉。

季超从这次经历中总结出三条核心判断，成为他后续所有决策的基石：

Bitter Lesson（苦涩的教训）：人类AI的进步基本全靠通用方法+更大算力，而非注入人为专家知识
不做垂直整合：模型训练的迭代速度追不上产品经理的思维活跃度，应该先做产品PMF再考虑模型
不做CEO：明确认识到自己"既不喜欢商业化，也很讨厌管人"，应该找比自己更适合做CEO的人

在真格的一年半：观察与积蓄

卖掉公司后，季超在一家独角兽公司工作一年半（从ChatGPT出现前到出现后），以"打榜"方式做LLM——一个人霸榜第一名，囤了几十张GPU。之后加入真格基金做EIR，几乎跟所有国内外大模型公司聊过。

对大模型公司的判断（2023年初）

比较喜欢三家：千问、DeepSeek、Kimi
千问——第一个上非常宽松开源协议的模型，"对大厂里年轻人能干出来的事非常难得"
DeepSeek——因为做知识图谱时有大量预训练数据集，很早就有接触
Kimi——"这个公司是比较有品位的"，evaluation和benchmark体现taste
核心判断：不去大模型公司，做应用——"我提前吃了很多大家后来才吃的亏"

四、寻找画布：为什么选择萧红与Monica

季超在选择下一站时有极为清晰的框架：不当CEO、不当一号位；找一个空的画布而非成型的产品；有数据思维地观察用户。

为什么是萧红

季超

你会发现小红有个非常稀缺的特质——他很正常。身心健全，没有任何不良嗜好，没有任何极端的思想。这不是一个正常的指标，这已经很难得了。我觉得现在整个这个行业有很多人比较偏执，但讲真其实就是你没有乔布斯的命。

"艺术家型"创始人（季超Pass的）

多少有点抑郁
深夜发癫
偏执、极端
移动互联网时代的优势——边际成本低，可以赌一把
AI时代的劣势——经营成本线性增长，需要稳健运营

萧红的特质（季超认同的）

身心健康、"打不死"
相信常识、相信团队
数据驱动与直觉驱动兼具
擅长季超所有不擅长的东西
能把公司从一个阶段持续带到下一个阶段

Monica：不可替代的画布

萧红用一句话说服了季超："你想不想在一个产品里把浏览器、搜索引擎和大语言模型重新做一遍？"但季超加入的真正原因更深层：

Monica作为观察窗口的价值

无偏观测：Chrome插件不改变用户习惯，用户的原始行为轨迹不被强行改变
Context天然传递：插件主动观测用户浏览的上下文，解决了ChatGPT需要复制粘贴的问题
功能分发基于Context：视频相关功能只在看YouTube时出现，消解了"每增加一个功能都稀释所有价值"的问题
正向现金流：约1200万美金ARR且盈利——"有正向现金流的产品让你做第二曲线时变得既大胆也理智"

五、AI浏览器：一个被理性杀死的项目

2024年4月至9月，团队投入十几人做AI原生浏览器——形态类似ChatGPT的Artifacts和Dia。这是季超第二次做浏览器，最终"得到了相同的结论"。

三个致命问题

问题	具体表现
共用电脑的尴尬	AI填表时用户一滚屏幕就打破了Agent的观测，"两个人抢一个系统"，体验极怪
长任务与设备占用的矛盾	真正有价值的是Long Horizon Task，但AI在电脑上持续运行时用户不能合上电脑、不能干别的
无法回答核心拷问	"做了AI浏览器之后，有什么是Chrome+Monica做不到的？"答案是：好像没有

季超

如果一个产品做完你觉得不太酷，就别发。你都觉得不酷，没人会觉得酷。

The Browser Company的共鸣

Arc浏览器创始人Josh Miller宣布停止Arc——"我做Arc这么久，我甚至无法说服我的亲戚朋友从Chrome换成Arc"。这句话"黑纸白字写出了我们心里的担忧"。季超总结了浏览器迁移的历史规律：

浏览器迁移的本质是分发能力而非技术

人类历史上浏览器迁移只有两次——Netscape到IE（预装），IE到Chrome（Google首页+IE安全问题）。根本原因都是分发渠道（Distribution），而非功能创新。在Chrome运行良好、有Monica这样优秀插件的生态里，"用户有多大动力因为AI而换浏览器？"

关键细节：萧红其实比团队更早感觉到浏览器"不对"，但不敢跟团队说——因为"你们都是被他用浏览器忽悠进团队的"。最终团队在一个"自然而然形成共识"的过程中放下了这件事。

六、Manus的诞生：从Cursor的启示到云端Agent

放弃浏览器后，团队有约两周半的"无所事事"时间。正是在这段时间里，Manus的idea浮现。

Cursor的意外发现

团队发现公司里的非工程师也在大量使用Cursor——运营同事用它写博客，数据分析师用它做可视化。他们"根本不看左边的代码，就在右边不断跟AI交流"。

关键洞察

编程不是垂直能力，是通用能力

AI通过编程/代码为媒介完成非编码任务，这意味着编程是解决通用任务的媒介。但Cursor的形态对非工程师不是最优的——代码造成天然紧张感，权限请求让人恐慌（"一个朋友用Cursor把网卡驱动卸了"），IDE界面专业门槛高。

三个改造方向

云端

不跑在用户电脑上
解放注意力+支持并发

隐藏代码

代码作为工具而非呈现
包装技术复杂度

Prosumer

面向脑力工作者
不与工程师市场直接竞争

内部项目代号AIRBNB——Browser in Browser in the Air（浏览器里运行的浏览器，跑在云上）。从2024年9月底开始，到2025年1月中旬基本做完。但季超决定推迟发布——等Claude 3.7发布，"让产品发布与下一次模型迭代对齐，享受最大的代际提升"。

季超

当我们跑完了几个例子之后——涛哥跑了一个找办公室的例子，Manus自己去找资料、查地图、写程序、做出交互式网站——我觉得这个太酷了，一定能成。

七、Context Engineering vs 训练模型

Manus最核心、最反直觉的技术决策：不自己训模型。在2024年底，这个选择曾遭到广泛质疑。

不训模型的逻辑链

三层推理

技术快速上升期：Claude 3.5 V1到V2之间的进步已经非常大，不该赌在模型训练上
上一次创业的教训：垂直整合时模型迭代决定产品速度，但"只要有产品经理存在，你一定追不上产品经理思维的活跃度"
应该赌另一件事：充分相信做Agent的框架（Context Engineering）能带来很大提升——"当时没有这个词，但就是这个意思"

壳与壳的高低

Monica式的壳——生鱼片

好坏完全取决于原材料（模型质量）
几乎是零加工状态
价值增加很浅

Manus式的壳——水煮鱼

Agent系统有第三个元素：环境/Runtime
"地壳一样厚的壳"
虚拟机、沙盒、工具链、调度系统

对模型的四大诉求

季超认为当前大部分模型仍为ChatBot场景做后训练，与Agent需求存在根本性错配：

Compression Awareness：模型应意识到上下文可能被压缩，能主动将信息Offload到文件系统——"200K以上的Context不重要，更重要的是压缩意识"
Interleaved Thinking：不要一次性长链思考，而是每获得一个Observation后进行短暂推理——交错式而非缸中之脑式
异步交互：Agent持续工作时用户可随时"插嘴"——改变目标、补充信息或终结任务
Error Resilience：错误是Agent场景的常态，模型应"永远能找到另一条路去尝试"

八、通用Agent的产品哲学

Manus选择做"通用Agent"而非垂直Agent，背后有一套完整的技术-产品-商业逻辑。

技术层面

底层天然通用

每个Manus会话背后是一个独立隔离的虚拟机（沙盒）——理论上图灵完备
通用模型+图灵机=两个技术供给都是通用的，走垂直是在上面加约束
维护了专门为Agent设计的Linux发行版，内部有"只有Manus才知道怎么用的工具"
选择了Firecracker全虚拟化方案（而非Docker），因此能同时支持Linux和Windows

产品层面

三个产品论据

达尔文式观察：提供通用架构让用户按想象力使用，团队通过观察集体行为捕获头部场景再做最后一公里优化。PPT生成、网站构建、批量文件处理都是这样长出来的。

长尾的Google逻辑：用户用Google而非Bing，是因为Google在长尾查询中给惊喜。Manus的通用能力让分子生物学家上传小众数据格式时，Agent自动去GitHub下载解析工具——"这种长尾不等于低频，这是这个人每天的工作"。

原子能力的网络效应：每新增一个基础能力都能与所有已有能力产生组合。加入"看图"能力后，Manus不仅能检查生成图表的字体问题，还学会了自主测试网页交互。"Everything added dilutes everything else"的GitHub法则被网络效应消解。

"做人"而非"做工具"

季超

如果你做了一款通用的Agent，你其实在做一个人。垂直Agent做的是工具——汽车公司做的是司机，Lovart做的是设计师。但Manus甚至可以去用Lovart。我们永远能做所有垂直场景做的一样甚至更好，且能多做一步。

九、纯血Agent vs Workflow：技术路线之争

季超自称"纯血派Agent"的坚定信仰者，这是他在Manus中每天都要捍卫的立场。

Agentic Workflow（季超反对的）

大量人为约束和规则
用专门Prompt指导每个子任务
每增加一条约束都在减小模型多样性
可复现性好，但天花板低
"打地鼠"——堵哪个漏洞就修哪个

纯血Agent（季超坚持的）

完成任务的过程和方式由智能本身决定
加入基础能力而非具体指令
天花板极高
符合Bitter Lesson——通用方法+更大算力
让智能的泛化性帮你解决未发现的问题

数据可视化的例子

产品驱动的做法是写大量Prompt："数据可视化时注意字体、注意中文渲染、注意坐标轴..."——每一条都在减小模型diversity。纯血派的做法是加入"查看图片"的原子能力，让Agent自己发现"中文字体选错了"或"两个图表元素重叠了"，用泛化性覆盖未知问题。

季超

把Agent的人格化是一种人的自恋。不要把人因为生而为人的限制颁给Agent。模型比人更全能，你应该充分利用模型的优势，而不是生搬硬套人的那套约束。

做Agent = 同时做两个产品

季超提出一个重要框架：如果你真的在做一个Agent，你同时在做两个产品——一个给人用的，一个给模型用的。两者的思维模式完全不同。给人的产品关注易用性和直觉；给模型的产品关注Action Space设计、可约束解码、环境反馈的结构化。

十、模型厂商关系：外包研发的艺术

Manus的Token消耗量巨大——在各模型厂商基本是Top 2到Top 5的消耗量（全球范围）。Agent的Input/Output比达到100:1到1000:1（ChatBot约3:1），这带来了巨大的议价能力和影响力。

Agent vs ChatBot Token消耗结构对比

影响模型厂商的方式

一个反直觉的分工

不仅提需求，还帮构建Evaluation——直接告诉模型厂商什么指标重要
设计API Schema——Gemini的"可控Parallel Function Calling"的定义和Schema由季超编写
天天洗脑——"Context Pressure很重要，Interleaved Thinking很重要"
头部旗舰模型的改进会传导到开源生态——"好像全世界都在帮我们训模型"

各厂商的差异化定位

厂商	强项	适合场景
Anthropic	Agentic Coding，工程化多轮编程	Agent编程相关任务
Google/Gemini	多模态理解（断层级领先），Google索引，YouTube视频理解	信息密集型任务
OpenAI	Reasoning/纯推理投入大	刷榜、纯推理任务
开源模型	各有特色	特定场景灵活选择

季超

他们成分化的，我们成综合的。这个很反直觉——应用公司做综合，模型公司反而变成了垂直整合。如果都直觉的事，我觉得也轮不到我们做。

十一、邀请码争议与商业化逻辑

邀请码的真相

季超

如果我们在3月份发布的时候有任何付费的宣传，我死全家。

季超"郑重回应"了外界的两大质疑：

为什么用邀请码

发布前与所有云厂商和推理供应商沟通后发现：世界上能第二天立即到位的算力比想象中少太多。Cloud直接说"你们千万别放开，放开我们会挂"。唯一的选择就是控量。上线当天打电话要求临时加TPM，对方问"下个月还是下下个月？"——"今天下午要。"最终GCP、Anthropic、AWS"雪中送炭"，物理层面拔卡插到机柜上供应算力。

商业化数据

>$1亿

当前ARR

$40

默认月订阅价

即将

打平盈亏

$1200万

Monica ARR（发布前）

用户要的不是便宜，是更好

季超透露Manus用户最常问的问题不是"能不能便宜"，而是："你收我40美金一个月，能不能让我看看如果我愿意付200美金，效果能变好多少？"所以定价优化基本不在路线图里。单个用户最高消费可达数千美金/月。公司关注指标是营收而非DAU——"这跟互联网时代完全不一样。"

AI更像制造业

季超反复强调AI的边际成本结构更像制造业而非互联网：用户量增加时成本线性提升，没有传统互联网的"边际成本趋零"效应。这对经营操作能力的要求"比上一代移动互联网创业要高很多"。

十二、Agent生态与竞争格局

与ChatGPT Agent的竞争

ChatGPT Agent发布后效果"很明显不如Manus"——因为Manus可以用世界上所有最好的模型，而OpenAI只能用自家模型。更深层的是用户心智差异：

市场分层

ChatBot用户 ≠ Agent用户

ChatGPT打透了ChatBot市场，所有人都在用。但有Agent需求的人少一个量级。Manus服务的是"最高质量需求的用户"——他们装了ChatGPT也装了Manus，安装异常值互为最高。季超自己也说"低价任务我也用ChatGPT"。A16Z数据显示：装了ChatGPT/Claude/Desk的用户，安装Manus的概率是最大异常值。

Manus生态定位：星型网络中的调度中心

与所有人的关系

季超

Manus跟所有人都不是竞争的关系。我们是网络中的一个节点，但很多时候价值不在节点，而在网络的边上。

Manus与Notion、Microsoft、Slack等做联合发布。季超自己的使用场景是让Manus串联Notion、Granola和Ashby三个服务。前任微软Agent 365大会上，Manus出现在Windows右键菜单中。

"弱到强"的衡量方法论

Agent Team的核心方法

锁定当前Agent框架版本，选同源模型家族（如Gemini或Claude），用弱版本和强版本跑同样Benchmark，不断调整Agent框架使两者之间的Delta最大化。这样当下一代模型变强时，获得的增幅最大。——"做Agent跟训模型很像，更重要的是做对1000件小事，而不是做对三个大事。"

十三、组织哲学：身心健康的创始人

六位合伙人

姓名	角色	职责
萧红（Red）	CEO	产品决策、最终拍板人
张涛	CPO	产品、对外合作、全球出差——"出差圣品"
季超（PK）	首席科学家	技术决策、Agent架构、模型厂商沟通
潘潘	CTO	工程实现
慧杰	CMO	原Monica创始团队
CZ	COO	公司运营、财务

GPA决策模型

三阶段不同模式

G（Goal）：目标设定——专制模式，CEO拍板
P（Priority）：优先级排序——一人拍板但充分讨论，涉及不同专业Expertise
A（Alternatives）：方案提供——开放模式，"可选方案的数量比质量更重要"，避免Action Space本身有问题

AI时代创业的"身心健康论"

季超

身心健康的人是打不死的。你能够一次一次很谦卑地重新站起来，很冷静地看待外界的变化。移动互联网时代喜欢艺术家，但AI时代的经营操作要求高得多。我们六个人都是身心健康、无不良嗜好、观念不极端的人。

与其悬而未决，不如赶紧试试

这是团队的核心行动原则。理由：做新领域时过往经验不一定有用；没有额外信息输入你再想也是基于模型内部的参数化知识；你没有Reward就没法做RLHF。所以先干、先拿到反馈、再调整。Manus大量A/B Test同时在跑，"不同用户用的Manus可能完全不一样"。

十四、启示与延伸思考

季超的最大隐忧

对外：失去特色

各模型公司都在做Agent
Deep Research等能力正在趋同
差异化的长尾能力是护城河
"我们没有活着的权利，活着的权利是持续跑才能争取来的"

对内：变得复杂

增长带来增加功能的诱惑
"Every added feature dilutes everything else"
每月都在想"我能删掉什么"
克制是需要对抗强大引力的事

对AI行业的宏观判断

当前处于"2018年"：Transformer出来后的那阵疯狂，BERT带来了第一批应用落地，但暴露了当前范式的局限性。大家在期待下一个"GPT-3时刻"
Scaling Law没有停止：狭义上Loss曲线还能降；广义上不一定能解锁全新场景，但现有场景的质量远远不够——"每个场景都还差一口气"
AI Bubble客观存在：但"不是说因为是Bubble所以这波AI就没用，人类历史上干的比这疯狂的事多得多"
模型公司和应用公司的边界正在消融：六个月内头部应用公司都将具备做模型的能力——Cursor的Composer One已经跳出来了
AI产品没有产生网络效应：AI是附加值，不是连接人类的关键点。但Agent之间的"原子能力网络效应"和"人-Agent协作网络效应"正在涌现

对未来的关键Bet

季超

AI接下来的进步需要用户的参与。

Manus接下来最重要的方向是Proactiveness（主动性）——Agent不等用户输入Prompt，而是主动完成任务。例如每天早上在用户醒来前，Manus自动查看Notion面试记录，填写到HR系统Ashby中，只问用户"接受与否"。这才是Agent这个词的本意——来自Agency（能动性）。

从CBA到NBA

季超

我们内部经常开玩笑说，有一种从CBA打到了NBA的感觉。虽然我们100个Million ARR了，但横向看同行业头部选手，我们好像又不算什么——这可能就是NBA的平均水平。

最后的问题：如果Manus下个月死了，你会干嘛？

"歇一会。太累了。"——这个回答背后是一个已经"人生无憾"的创业者，以一种"很轻松的状态"在做一件他觉得能成的事。不焦虑于竞争，不恐惧于失败，只专注于为最挑剔的用户提供此刻最好的AI体验。这或许就是"身心健康的创始人"的最佳诠释。

Manus的奇幻漂流：从浏览器少年到通用Agent

目录