季超(PK),Manus联合创始人兼首席科学家。父亲是北大物理系教授,母亲是中关村老一辈连续创业者。他自称在这"两种不同的风格中取了一个中间点"——科技创业者。
2009年,还在读高中的季超抓住了iPhone App Store这一全新分发渠道,开发了第三方iOS浏览器猛犸浏览器(Mammoth Web Browser),采用最朴素的Buy Copy模式——每卖一份赚一份。
季超认为从桌面互联网到移动互联网是一次平台变化,巨头和开发者"众生平等",存在一个蛮荒期。但反观AI时代——虽然是技术突破,但没有全新平台出现,因此不存在蛮荒期,"无论是巨头还是创业公司还是个人开发者,大家反应都一样快"。这一判断深刻影响了他后来对Manus的战略选择。
通过中关村的创业活动认识了真格基金的徐小平,在"你想不想创业"的邀请下,拿了Term Sheet,决定不上大学。真格承诺"不会管他干什么"——这个承诺兑现至今。他拉上几个北大保送的同学,正式开始创业。
从浏览器的"预测用户下一次点击"需求出发,季超进入了NLP领域。2013年Google的Word2Vec论文对他而言是"心中最石破天惊的转折点"——第一次能将自然语言文本变成稠密向量。
团队构建了一个名为Maggie的系统,能让AI自动在互联网上阅读文章、持续构建和更新知识图谱。技术路线从传统依存句法分析到Word2Vec向量化,再到LSTM+Attention,最终走向Transformer。
因浏览器需求进入NLP领域,当时中文处理还在做分词(Tokenization)和依存句法分析(Dependency Parsing)
Word2Vec论文发布,"新世界大门打开"。团队开始研究Open Information Extraction(开放式信息提取),不预设Schema
从零训练模型——两个0.3B参数的模型("当年这叫大模型")。解决了从512 token到16K的Long Context问题
Transformer和BERT出现,解决了上下文相关编码问题,但也意味着"过去几年积累基本都算了"
拿到GPT-3 Early Access,"觉得天要塌了"
季超在Maggie项目中亲历了"从爬虫到索引引擎到模型到产品全部自己做"的垂直整合之苦。每天醒来都感觉"海水在上涨,不知道会涨到什么程度"。外部技术迭代极快——每一次范式更新(Word2Vec到LSTM到Transformer),过去几年的积累都被推翻。这个教训直接决定了他在Manus时代坚决不自己训模型的立场。
2019年拿到GPT-3 Early Access后,季超用同样的任务测试——"随便写了个prompt",发现GPT-3跟自己端到端训练的专用模型"五五开"。
季超从这次经历中总结出三条核心判断,成为他后续所有决策的基石:
卖掉公司后,季超在一家独角兽公司工作一年半(从ChatGPT出现前到出现后),以"打榜"方式做LLM——一个人霸榜第一名,囤了几十张GPU。之后加入真格基金做EIR,几乎跟所有国内外大模型公司聊过。
季超在选择下一站时有极为清晰的框架:不当CEO、不当一号位;找一个空的画布而非成型的产品;有数据思维地观察用户。
萧红用一句话说服了季超:"你想不想在一个产品里把浏览器、搜索引擎和大语言模型重新做一遍?"但季超加入的真正原因更深层:
2024年4月至9月,团队投入十几人做AI原生浏览器——形态类似ChatGPT的Artifacts和Dia。这是季超第二次做浏览器,最终"得到了相同的结论"。
| 问题 | 具体表现 |
|---|---|
| 共用电脑的尴尬 | AI填表时用户一滚屏幕就打破了Agent的观测,"两个人抢一个系统",体验极怪 |
| 长任务与设备占用的矛盾 | 真正有价值的是Long Horizon Task,但AI在电脑上持续运行时用户不能合上电脑、不能干别的 |
| 无法回答核心拷问 | "做了AI浏览器之后,有什么是Chrome+Monica做不到的?"答案是:好像没有 |
Arc浏览器创始人Josh Miller宣布停止Arc——"我做Arc这么久,我甚至无法说服我的亲戚朋友从Chrome换成Arc"。这句话"黑纸白字写出了我们心里的担忧"。季超总结了浏览器迁移的历史规律:
人类历史上浏览器迁移只有两次——Netscape到IE(预装),IE到Chrome(Google首页+IE安全问题)。根本原因都是分发渠道(Distribution),而非功能创新。在Chrome运行良好、有Monica这样优秀插件的生态里,"用户有多大动力因为AI而换浏览器?"
关键细节:萧红其实比团队更早感觉到浏览器"不对",但不敢跟团队说——因为"你们都是被他用浏览器忽悠进团队的"。最终团队在一个"自然而然形成共识"的过程中放下了这件事。
放弃浏览器后,团队有约两周半的"无所事事"时间。正是在这段时间里,Manus的idea浮现。
团队发现公司里的非工程师也在大量使用Cursor——运营同事用它写博客,数据分析师用它做可视化。他们"根本不看左边的代码,就在右边不断跟AI交流"。
AI通过编程/代码为媒介完成非编码任务,这意味着编程是解决通用任务的媒介。但Cursor的形态对非工程师不是最优的——代码造成天然紧张感,权限请求让人恐慌("一个朋友用Cursor把网卡驱动卸了"),IDE界面专业门槛高。
内部项目代号AIRBNB——Browser in Browser in the Air(浏览器里运行的浏览器,跑在云上)。从2024年9月底开始,到2025年1月中旬基本做完。但季超决定推迟发布——等Claude 3.7发布,"让产品发布与下一次模型迭代对齐,享受最大的代际提升"。
Manus最核心、最反直觉的技术决策:不自己训模型。在2024年底,这个选择曾遭到广泛质疑。
季超认为当前大部分模型仍为ChatBot场景做后训练,与Agent需求存在根本性错配:
Manus选择做"通用Agent"而非垂直Agent,背后有一套完整的技术-产品-商业逻辑。
达尔文式观察:提供通用架构让用户按想象力使用,团队通过观察集体行为捕获头部场景再做最后一公里优化。PPT生成、网站构建、批量文件处理都是这样长出来的。
长尾的Google逻辑:用户用Google而非Bing,是因为Google在长尾查询中给惊喜。Manus的通用能力让分子生物学家上传小众数据格式时,Agent自动去GitHub下载解析工具——"这种长尾不等于低频,这是这个人每天的工作"。
原子能力的网络效应:每新增一个基础能力都能与所有已有能力产生组合。加入"看图"能力后,Manus不仅能检查生成图表的字体问题,还学会了自主测试网页交互。"Everything added dilutes everything else"的GitHub法则被网络效应消解。
季超自称"纯血派Agent"的坚定信仰者,这是他在Manus中每天都要捍卫的立场。
产品驱动的做法是写大量Prompt:"数据可视化时注意字体、注意中文渲染、注意坐标轴..."——每一条都在减小模型diversity。纯血派的做法是加入"查看图片"的原子能力,让Agent自己发现"中文字体选错了"或"两个图表元素重叠了",用泛化性覆盖未知问题。
季超提出一个重要框架:如果你真的在做一个Agent,你同时在做两个产品——一个给人用的,一个给模型用的。两者的思维模式完全不同。给人的产品关注易用性和直觉;给模型的产品关注Action Space设计、可约束解码、环境反馈的结构化。
Manus的Token消耗量巨大——在各模型厂商基本是Top 2到Top 5的消耗量(全球范围)。Agent的Input/Output比达到100:1到1000:1(ChatBot约3:1),这带来了巨大的议价能力和影响力。
| 厂商 | 强项 | 适合场景 |
|---|---|---|
| Anthropic | Agentic Coding,工程化多轮编程 | Agent编程相关任务 |
| Google/Gemini | 多模态理解(断层级领先),Google索引,YouTube视频理解 | 信息密集型任务 |
| OpenAI | Reasoning/纯推理投入大 | 刷榜、纯推理任务 |
| 开源模型 | 各有特色 | 特定场景灵活选择 |
季超"郑重回应"了外界的两大质疑:
发布前与所有云厂商和推理供应商沟通后发现:世界上能第二天立即到位的算力比想象中少太多。Cloud直接说"你们千万别放开,放开我们会挂"。唯一的选择就是控量。上线当天打电话要求临时加TPM,对方问"下个月还是下下个月?"——"今天下午要。"最终GCP、Anthropic、AWS"雪中送炭",物理层面拔卡插到机柜上供应算力。
季超透露Manus用户最常问的问题不是"能不能便宜",而是:"你收我40美金一个月,能不能让我看看如果我愿意付200美金,效果能变好多少?"所以定价优化基本不在路线图里。单个用户最高消费可达数千美金/月。公司关注指标是营收而非DAU——"这跟互联网时代完全不一样。"
季超反复强调AI的边际成本结构更像制造业而非互联网:用户量增加时成本线性提升,没有传统互联网的"边际成本趋零"效应。这对经营操作能力的要求"比上一代移动互联网创业要高很多"。
ChatGPT Agent发布后效果"很明显不如Manus"——因为Manus可以用世界上所有最好的模型,而OpenAI只能用自家模型。更深层的是用户心智差异:
ChatGPT打透了ChatBot市场,所有人都在用。但有Agent需求的人少一个量级。Manus服务的是"最高质量需求的用户"——他们装了ChatGPT也装了Manus,安装异常值互为最高。季超自己也说"低价任务我也用ChatGPT"。A16Z数据显示:装了ChatGPT/Claude/Desk的用户,安装Manus的概率是最大异常值。
Manus与Notion、Microsoft、Slack等做联合发布。季超自己的使用场景是让Manus串联Notion、Granola和Ashby三个服务。前任微软Agent 365大会上,Manus出现在Windows右键菜单中。
锁定当前Agent框架版本,选同源模型家族(如Gemini或Claude),用弱版本和强版本跑同样Benchmark,不断调整Agent框架使两者之间的Delta最大化。这样当下一代模型变强时,获得的增幅最大。——"做Agent跟训模型很像,更重要的是做对1000件小事,而不是做对三个大事。"
| 姓名 | 角色 | 职责 |
|---|---|---|
| 萧红(Red) | CEO | 产品决策、最终拍板人 |
| 张涛 | CPO | 产品、对外合作、全球出差——"出差圣品" |
| 季超(PK) | 首席科学家 | 技术决策、Agent架构、模型厂商沟通 |
| 潘潘 | CTO | 工程实现 |
| 慧杰 | CMO | 原Monica创始团队 |
| CZ | COO | 公司运营、财务 |
这是团队的核心行动原则。理由:做新领域时过往经验不一定有用;没有额外信息输入你再想也是基于模型内部的参数化知识;你没有Reward就没法做RLHF。所以先干、先拿到反馈、再调整。Manus大量A/B Test同时在跑,"不同用户用的Manus可能完全不一样"。
Manus接下来最重要的方向是Proactiveness(主动性)——Agent不等用户输入Prompt,而是主动完成任务。例如每天早上在用户醒来前,Manus自动查看Notion面试记录,填写到HR系统Ashby中,只问用户"接受与否"。这才是Agent这个词的本意——来自Agency(能动性)。
"歇一会。太累了。"——这个回答背后是一个已经"人生无憾"的创业者,以一种"很轻松的状态"在做一件他觉得能成的事。不焦虑于竞争,不恐惧于失败,只专注于为最挑剔的用户提供此刻最好的AI体验。这或许就是"身心健康的创始人"的最佳诠释。