← 返回张小珺主页
深度研究 Deep Dive

Manus的奇幻漂流:从浏览器少年到通用Agent

#128 Manus联合创始人季超的创业全纪录
2025.12.30 · 03:31:17 · 张小珺Jun|商业访谈录
🎙 小宇宙 📺 B站 🎧 Apple Podcasts 🎵 Spotify

目录

  1. 少年创业者:App Store与第一桶金
  2. NLP苦旅:从Word2Vec到知识图谱
  3. GPT-3的天塌时刻与路线抉择
  4. 寻找画布:为什么选择萧红与Monica
  5. AI浏览器:一个被理性杀死的项目
  6. Manus的诞生:从Cursor的启示到云端Agent
  7. Context Engineering vs 训练模型
  8. 通用Agent的产品哲学
  9. 纯血Agent vs Workflow:技术路线之争
  10. 模型厂商关系:外包研发的艺术
  11. 邀请码争议与商业化逻辑
  12. Agent生态与竞争格局
  13. 组织哲学:身心健康的创始人
  14. 启示与延伸思考

一、少年创业者:App Store与第一桶金

季超(PK),Manus联合创始人兼首席科学家。父亲是北大物理系教授,母亲是中关村老一辈连续创业者。他自称在这"两种不同的风格中取了一个中间点"——科技创业者。

App Store:改变人生的平台

2009年,还在读高中的季超抓住了iPhone App Store这一全新分发渠道,开发了第三方iOS浏览器猛犸浏览器(Mammoth Web Browser),采用最朴素的Buy Copy模式——每卖一份赚一份。

$30万+
猛犸浏览器总收入
高二
开始创业的年级
2009
进入App Store生态
季超
App Store给了我一个契机——我可以向我的父母、同学乃至于老师证明说,我瞎搞的这个东西是能产生经济价值的。

蛮荒期的窗口

季超认为从桌面互联网到移动互联网是一次平台变化,巨头和开发者"众生平等",存在一个蛮荒期。但反观AI时代——虽然是技术突破,但没有全新平台出现,因此不存在蛮荒期,"无论是巨头还是创业公司还是个人开发者,大家反应都一样快"。这一判断深刻影响了他后来对Manus的战略选择。

辍学创业与真格基金

通过中关村的创业活动认识了真格基金的徐小平,在"你想不想创业"的邀请下,拿了Term Sheet,决定不上大学。真格承诺"不会管他干什么"——这个承诺兑现至今。他拉上几个北大保送的同学,正式开始创业。

对App Store时代商业模式的反思

  • Buy Copy模式在巨头回过味来后不可持续
  • 国内缺乏支付渠道——只能支持国际信用卡,中国用户基本无法付费
  • 解决办法:破解自己的软件在国内论坛免费发布——"没钱给我捧个人场"
  • 这是"中国第一代软件出海创业者"的缩影

二、NLP苦旅:从Word2Vec到知识图谱

从浏览器的"预测用户下一次点击"需求出发,季超进入了NLP领域。2013年Google的Word2Vec论文对他而言是"心中最石破天惊的转折点"——第一次能将自然语言文本变成稠密向量。

Maggie项目:人生智力巅峰

团队构建了一个名为Maggie的系统,能让AI自动在互联网上阅读文章、持续构建和更新知识图谱。技术路线从传统依存句法分析到Word2Vec向量化,再到LSTM+Attention,最终走向Transformer

2011年

因浏览器需求进入NLP领域,当时中文处理还在做分词(Tokenization)和依存句法分析(Dependency Parsing)

2013年

Word2Vec论文发布,"新世界大门打开"。团队开始研究Open Information Extraction(开放式信息提取),不预设Schema

2014-2018年

从零训练模型——两个0.3B参数的模型("当年这叫大模型")。解决了从512 token到16K的Long Context问题

2018年

Transformer和BERT出现,解决了上下文相关编码问题,但也意味着"过去几年积累基本都算了"

2019年

拿到GPT-3 Early Access,"觉得天要塌了"

季超
我把我这辈子想试的技术都以合理的方式花投资人的钱给搞定了。所以在那个项目做完的那一刻,我的人生已经圆满了。再后来做Manus这些事,我心里已经没有什么"我要证明自己"。我早就无憾了。
技术洞察

垂直整合的痛苦

季超在Maggie项目中亲历了"从爬虫到索引引擎到模型到产品全部自己做"的垂直整合之苦。每天醒来都感觉"海水在上涨,不知道会涨到什么程度"。外部技术迭代极快——每一次范式更新(Word2Vec到LSTM到Transformer),过去几年的积累都被推翻。这个教训直接决定了他在Manus时代坚决不自己训模型的立场。

三、GPT-3的天塌时刻与路线抉择

2019年拿到GPT-3 Early Access后,季超用同样的任务测试——"随便写了个prompt",发现GPT-3跟自己端到端训练的专用模型"五五开"

季超
虽然它现在很贵,但它是一个通解。以前做NLP大家泾渭分明——我做信息抽取,你做机器翻译,大家握握手"互相学习"。但GPT-3出来之后,就彻底把我们那条心给摁死了。我的第一反应就是赶紧卖掉。

季超从这次经历中总结出三条核心判断,成为他后续所有决策的基石:

  • Bitter Lesson(苦涩的教训):人类AI的进步基本全靠通用方法+更大算力,而非注入人为专家知识
  • 不做垂直整合:模型训练的迭代速度追不上产品经理的思维活跃度,应该先做产品PMF再考虑模型
  • 不做CEO:明确认识到自己"既不喜欢商业化,也很讨厌管人",应该找比自己更适合做CEO的人

在真格的一年半:观察与积蓄

卖掉公司后,季超在一家独角兽公司工作一年半(从ChatGPT出现前到出现后),以"打榜"方式做LLM——一个人霸榜第一名,囤了几十张GPU。之后加入真格基金做EIR,几乎跟所有国内外大模型公司聊过。

对大模型公司的判断(2023年初)

  • 比较喜欢三家:千问、DeepSeekKimi
  • 千问——第一个上非常宽松开源协议的模型,"对大厂里年轻人能干出来的事非常难得"
  • DeepSeek——因为做知识图谱时有大量预训练数据集,很早就有接触
  • Kimi——"这个公司是比较有品位的",evaluation和benchmark体现taste
  • 核心判断:不去大模型公司,做应用——"我提前吃了很多大家后来才吃的亏"

四、寻找画布:为什么选择萧红与Monica

季超在选择下一站时有极为清晰的框架:不当CEO、不当一号位;找一个空的画布而非成型的产品;有数据思维地观察用户。

为什么是萧红

季超
你会发现小红有个非常稀缺的特质——他很正常。身心健全,没有任何不良嗜好,没有任何极端的思想。这不是一个正常的指标,这已经很难得了。我觉得现在整个这个行业有很多人比较偏执,但讲真其实就是你没有乔布斯的命。

"艺术家型"创始人(季超Pass的)

  • 多少有点抑郁
  • 深夜发癫
  • 偏执、极端
  • 移动互联网时代的优势——边际成本低,可以赌一把
  • AI时代的劣势——经营成本线性增长,需要稳健运营

萧红的特质(季超认同的)

  • 身心健康、"打不死"
  • 相信常识、相信团队
  • 数据驱动与直觉驱动兼具
  • 擅长季超所有不擅长的东西
  • 能把公司从一个阶段持续带到下一个阶段

Monica:不可替代的画布

萧红用一句话说服了季超:"你想不想在一个产品里把浏览器、搜索引擎和大语言模型重新做一遍?"但季超加入的真正原因更深层:

Monica作为观察窗口的价值

  • 无偏观测:Chrome插件不改变用户习惯,用户的原始行为轨迹不被强行改变
  • Context天然传递:插件主动观测用户浏览的上下文,解决了ChatGPT需要复制粘贴的问题
  • 功能分发基于Context:视频相关功能只在看YouTube时出现,消解了"每增加一个功能都稀释所有价值"的问题
  • 正向现金流:约1200万美金ARR且盈利——"有正向现金流的产品让你做第二曲线时变得既大胆也理智"

五、AI浏览器:一个被理性杀死的项目

2024年4月至9月,团队投入十几人做AI原生浏览器——形态类似ChatGPT的Artifacts和Dia。这是季超第二次做浏览器,最终"得到了相同的结论"。

三个致命问题

问题具体表现
共用电脑的尴尬AI填表时用户一滚屏幕就打破了Agent的观测,"两个人抢一个系统",体验极怪
长任务与设备占用的矛盾真正有价值的是Long Horizon Task,但AI在电脑上持续运行时用户不能合上电脑、不能干别的
无法回答核心拷问"做了AI浏览器之后,有什么是Chrome+Monica做不到的?"答案是:好像没有
季超
如果一个产品做完你觉得不太酷,就别发。你都觉得不酷,没人会觉得酷。

The Browser Company的共鸣

Arc浏览器创始人Josh Miller宣布停止Arc——"我做Arc这么久,我甚至无法说服我的亲戚朋友从Chrome换成Arc"。这句话"黑纸白字写出了我们心里的担忧"。季超总结了浏览器迁移的历史规律:

浏览器迁移的本质是分发能力而非技术

人类历史上浏览器迁移只有两次——Netscape到IE(预装),IE到Chrome(Google首页+IE安全问题)。根本原因都是分发渠道(Distribution),而非功能创新。在Chrome运行良好、有Monica这样优秀插件的生态里,"用户有多大动力因为AI而换浏览器?"

关键细节:萧红其实比团队更早感觉到浏览器"不对",但不敢跟团队说——因为"你们都是被他用浏览器忽悠进团队的"。最终团队在一个"自然而然形成共识"的过程中放下了这件事。

六、Manus的诞生:从Cursor的启示到云端Agent

放弃浏览器后,团队有约两周半的"无所事事"时间。正是在这段时间里,Manus的idea浮现。

Cursor的意外发现

团队发现公司里的非工程师也在大量使用Cursor——运营同事用它写博客,数据分析师用它做可视化。他们"根本不看左边的代码,就在右边不断跟AI交流"。

关键洞察

编程不是垂直能力,是通用能力

AI通过编程/代码为媒介完成非编码任务,这意味着编程是解决通用任务的媒介。但Cursor的形态对非工程师不是最优的——代码造成天然紧张感,权限请求让人恐慌("一个朋友用Cursor把网卡驱动卸了"),IDE界面专业门槛高。

三个改造方向

云端
不跑在用户电脑上
解放注意力+支持并发
隐藏代码
代码作为工具而非呈现
包装技术复杂度
Prosumer
面向脑力工作者
不与工程师市场直接竞争

内部项目代号AIRBNB——Browser in Browser in the Air(浏览器里运行的浏览器,跑在云上)。从2024年9月底开始,到2025年1月中旬基本做完。但季超决定推迟发布——等Claude 3.7发布,"让产品发布与下一次模型迭代对齐,享受最大的代际提升"。

季超
当我们跑完了几个例子之后——涛哥跑了一个找办公室的例子,Manus自己去找资料、查地图、写程序、做出交互式网站——我觉得这个太酷了,一定能成。

七、Context Engineering vs 训练模型

Manus最核心、最反直觉的技术决策:不自己训模型。在2024年底,这个选择曾遭到广泛质疑。

不训模型的逻辑链

三层推理

  • 技术快速上升期:Claude 3.5 V1到V2之间的进步已经非常大,不该赌在模型训练上
  • 上一次创业的教训:垂直整合时模型迭代决定产品速度,但"只要有产品经理存在,你一定追不上产品经理思维的活跃度"
  • 应该赌另一件事:充分相信做Agent的框架(Context Engineering)能带来很大提升——"当时没有这个词,但就是这个意思"

壳与壳的高低

Monica式的壳——生鱼片

  • 好坏完全取决于原材料(模型质量)
  • 几乎是零加工状态
  • 价值增加很浅

Manus式的壳——水煮鱼

  • Agent系统有第三个元素:环境/Runtime
  • "地壳一样厚的壳"
  • 虚拟机、沙盒、工具链、调度系统

对模型的四大诉求

季超认为当前大部分模型仍为ChatBot场景做后训练,与Agent需求存在根本性错配:

八、通用Agent的产品哲学

Manus选择做"通用Agent"而非垂直Agent,背后有一套完整的技术-产品-商业逻辑。

技术层面

底层天然通用

  • 每个Manus会话背后是一个独立隔离的虚拟机(沙盒)——理论上图灵完备
  • 通用模型+图灵机=两个技术供给都是通用的,走垂直是在上面加约束
  • 维护了专门为Agent设计的Linux发行版,内部有"只有Manus才知道怎么用的工具"
  • 选择了Firecracker全虚拟化方案(而非Docker),因此能同时支持Linux和Windows

产品层面

三个产品论据

达尔文式观察:提供通用架构让用户按想象力使用,团队通过观察集体行为捕获头部场景再做最后一公里优化。PPT生成、网站构建、批量文件处理都是这样长出来的。

长尾的Google逻辑:用户用Google而非Bing,是因为Google在长尾查询中给惊喜。Manus的通用能力让分子生物学家上传小众数据格式时,Agent自动去GitHub下载解析工具——"这种长尾不等于低频,这是这个人每天的工作"。

原子能力的网络效应:每新增一个基础能力都能与所有已有能力产生组合。加入"看图"能力后,Manus不仅能检查生成图表的字体问题,还学会了自主测试网页交互。"Everything added dilutes everything else"的GitHub法则被网络效应消解。

"做人"而非"做工具"

季超
如果你做了一款通用的Agent,你其实在做一个人。垂直Agent做的是工具——汽车公司做的是司机,Lovart做的是设计师。但Manus甚至可以去用Lovart。我们永远能做所有垂直场景做的一样甚至更好,且能多做一步。

九、纯血Agent vs Workflow:技术路线之争

季超自称"纯血派Agent"的坚定信仰者,这是他在Manus中每天都要捍卫的立场。

Agentic Workflow(季超反对的)

  • 大量人为约束和规则
  • 用专门Prompt指导每个子任务
  • 每增加一条约束都在减小模型多样性
  • 可复现性好,但天花板低
  • "打地鼠"——堵哪个漏洞就修哪个

纯血Agent(季超坚持的)

  • 完成任务的过程和方式由智能本身决定
  • 加入基础能力而非具体指令
  • 天花板极高
  • 符合Bitter Lesson——通用方法+更大算力
  • 让智能的泛化性帮你解决未发现的问题

数据可视化的例子

产品驱动的做法是写大量Prompt:"数据可视化时注意字体、注意中文渲染、注意坐标轴..."——每一条都在减小模型diversity。纯血派的做法是加入"查看图片"的原子能力,让Agent自己发现"中文字体选错了"或"两个图表元素重叠了",用泛化性覆盖未知问题。

季超
把Agent的人格化是一种人的自恋。不要把人因为生而为人的限制颁给Agent。模型比人更全能,你应该充分利用模型的优势,而不是生搬硬套人的那套约束。

做Agent = 同时做两个产品

季超提出一个重要框架:如果你真的在做一个Agent,你同时在做两个产品——一个给人用的,一个给模型用的。两者的思维模式完全不同。给人的产品关注易用性和直觉;给模型的产品关注Action Space设计、可约束解码、环境反馈的结构化。

十、模型厂商关系:外包研发的艺术

Manus的Token消耗量巨大——在各模型厂商基本是Top 2到Top 5的消耗量(全球范围)。Agent的Input/Output比达到100:1到1000:1(ChatBot约3:1),这带来了巨大的议价能力和影响力。

Agent vs ChatBot Token消耗结构对比

影响模型厂商的方式

一个反直觉的分工

  • 不仅提需求,还帮构建Evaluation——直接告诉模型厂商什么指标重要
  • 设计API Schema——Gemini的"可控Parallel Function Calling"的定义和Schema由季超编写
  • 天天洗脑——"Context Pressure很重要,Interleaved Thinking很重要"
  • 头部旗舰模型的改进会传导到开源生态——"好像全世界都在帮我们训模型"

各厂商的差异化定位

厂商强项适合场景
AnthropicAgentic Coding,工程化多轮编程Agent编程相关任务
Google/Gemini多模态理解(断层级领先),Google索引,YouTube视频理解信息密集型任务
OpenAIReasoning/纯推理投入大刷榜、纯推理任务
开源模型各有特色特定场景灵活选择
季超
他们成分化的,我们成综合的。这个很反直觉——应用公司做综合,模型公司反而变成了垂直整合。如果都直觉的事,我觉得也轮不到我们做。

十一、邀请码争议与商业化逻辑

邀请码的真相

季超
如果我们在3月份发布的时候有任何付费的宣传,我死全家。

季超"郑重回应"了外界的两大质疑:

为什么用邀请码

发布前与所有云厂商和推理供应商沟通后发现:世界上能第二天立即到位的算力比想象中少太多。Cloud直接说"你们千万别放开,放开我们会挂"。唯一的选择就是控量。上线当天打电话要求临时加TPM,对方问"下个月还是下下个月?"——"今天下午要。"最终GCP、Anthropic、AWS"雪中送炭",物理层面拔卡插到机柜上供应算力。

商业化数据

>$1亿
当前ARR
$40
默认月订阅价
即将
打平盈亏
$1200万
Monica ARR(发布前)
用户要的不是便宜,是更好

季超透露Manus用户最常问的问题不是"能不能便宜",而是:"你收我40美金一个月,能不能让我看看如果我愿意付200美金,效果能变好多少?"所以定价优化基本不在路线图里。单个用户最高消费可达数千美金/月。公司关注指标是营收而非DAU——"这跟互联网时代完全不一样。"

AI更像制造业

季超反复强调AI的边际成本结构更像制造业而非互联网:用户量增加时成本线性提升,没有传统互联网的"边际成本趋零"效应。这对经营操作能力的要求"比上一代移动互联网创业要高很多"。

十二、Agent生态与竞争格局

与ChatGPT Agent的竞争

ChatGPT Agent发布后效果"很明显不如Manus"——因为Manus可以用世界上所有最好的模型,而OpenAI只能用自家模型。更深层的是用户心智差异:

市场分层

ChatBot用户 ≠ Agent用户

ChatGPT打透了ChatBot市场,所有人都在用。但有Agent需求的人少一个量级。Manus服务的是"最高质量需求的用户"——他们装了ChatGPT也装了Manus,安装异常值互为最高。季超自己也说"低价任务我也用ChatGPT"。A16Z数据显示:装了ChatGPT/Claude/Desk的用户,安装Manus的概率是最大异常值。

Manus生态定位:星型网络中的调度中心

与所有人的关系

季超
Manus跟所有人都不是竞争的关系。我们是网络中的一个节点,但很多时候价值不在节点,而在网络的边上。

Manus与Notion、Microsoft、Slack等做联合发布。季超自己的使用场景是让Manus串联Notion、Granola和Ashby三个服务。前任微软Agent 365大会上,Manus出现在Windows右键菜单中。

"弱到强"的衡量方法论

Agent Team的核心方法

锁定当前Agent框架版本,选同源模型家族(如Gemini或Claude),用弱版本和强版本跑同样Benchmark,不断调整Agent框架使两者之间的Delta最大化。这样当下一代模型变强时,获得的增幅最大。——"做Agent跟训模型很像,更重要的是做对1000件小事,而不是做对三个大事。"

十三、组织哲学:身心健康的创始人

六位合伙人

姓名角色职责
萧红(Red)CEO产品决策、最终拍板人
张涛CPO产品、对外合作、全球出差——"出差圣品"
季超(PK)首席科学家技术决策、Agent架构、模型厂商沟通
潘潘CTO工程实现
慧杰CMO原Monica创始团队
CZCOO公司运营、财务

GPA决策模型

三阶段不同模式

  • G(Goal):目标设定——专制模式,CEO拍板
  • P(Priority):优先级排序——一人拍板但充分讨论,涉及不同专业Expertise
  • A(Alternatives):方案提供——开放模式,"可选方案的数量比质量更重要",避免Action Space本身有问题

AI时代创业的"身心健康论"

季超
身心健康的人是打不死的。你能够一次一次很谦卑地重新站起来,很冷静地看待外界的变化。移动互联网时代喜欢艺术家,但AI时代的经营操作要求高得多。我们六个人都是身心健康、无不良嗜好、观念不极端的人。

与其悬而未决,不如赶紧试试

这是团队的核心行动原则。理由:做新领域时过往经验不一定有用;没有额外信息输入你再想也是基于模型内部的参数化知识;你没有Reward就没法做RLHF。所以先干、先拿到反馈、再调整。Manus大量A/B Test同时在跑,"不同用户用的Manus可能完全不一样"。

十四、启示与延伸思考

季超的最大隐忧

对外:失去特色

  • 各模型公司都在做Agent
  • Deep Research等能力正在趋同
  • 差异化的长尾能力是护城河
  • "我们没有活着的权利,活着的权利是持续跑才能争取来的"

对内:变得复杂

  • 增长带来增加功能的诱惑
  • "Every added feature dilutes everything else"
  • 每月都在想"我能删掉什么"
  • 克制是需要对抗强大引力的事

对AI行业的宏观判断

对未来的关键Bet

季超
AI接下来的进步需要用户的参与。

Manus接下来最重要的方向是Proactiveness(主动性)——Agent不等用户输入Prompt,而是主动完成任务。例如每天早上在用户醒来前,Manus自动查看Notion面试记录,填写到HR系统Ashby中,只问用户"接受与否"。这才是Agent这个词的本意——来自Agency(能动性)。

从CBA到NBA

季超
我们内部经常开玩笑说,有一种从CBA打到了NBA的感觉。虽然我们100个Million ARR了,但横向看同行业头部选手,我们好像又不算什么——这可能就是NBA的平均水平。

最后的问题:如果Manus下个月死了,你会干嘛?

"歇一会。太累了。"——这个回答背后是一个已经"人生无憾"的创业者,以一种"很轻松的状态"在做一件他觉得能成的事。不焦虑于竞争,不恐惧于失败,只专注于为最挑剔的用户提供此刻最好的AI体验。这或许就是"身心健康的创始人"的最佳诠释。