王冠是ONE2X(1toX)的联合创始人兼CEO,此前是Moonshot(月之暗面)的模型产品负责人,也是该公司第一个离职创业的人——"公司的离职流程就是从我那个时候开始有的"。他自称是一个"比较草根的创业者",从大数据时代开始做AI产品经理,整整十年。
在百度做用户画像(User Profile)、差异化定价与补贴。经典案例是"沃尔玛超市啤酒和尿不湿"的关联分析。核心特征:拟合结构化数据。
做算法开放平台(API化输出模型能力),后参与百度开源深度学习框架PaddlePaddle(飞桨)。再到旷视做AI算法生产力工具。依然是结构化数据:矩形坐标、物体分类标签。
2020年5-6月GPT-3发布带来巨大冲击。加入兰舟科技(MSRA副院长周明创业)做中文预训练模型复现与轻量化。2023年初加入Moonshot。核心特征:拟合非结构化数据。
王冠不以"1.0/2.0/3.0"划分AI时代,而是以模型能否拟合非结构化数据为分界。非结构化数据代表对世界更丰富、更连续的表达——"我们的世界不是一个一个离散的点,它是非常连续的"。语言、图像、视频都是连续的,结构化方式无法表达这样的世界。
王冠指出,大部分AI历史中产品经理的工作是"相当无趣的"——做中后台数据支持、算法能力提供、数据标注策略。直到大模型时代,产品经理才有了"站到前台"的机会,以AI能力为主体独立做产品。"大家赶上了一个好时代,或者说终于等到了一个好时代。"
王冠进入大模型领域的思想入口来自Moonshot联合创始人周昕宇——一次在五道口龙仁居吃饭的三个多小时讲解,"全都是公式,完全没有听懂,但大受震撼"。后来沿着"压缩"概念追溯到Ilya Sutskever在OpenAI讲解压缩与智能关系的视频。
压缩使原本离散的数据点形成连续性。这种连续性对外展现为"智能"——也就是涌现、泛化或幻觉。例如:一个模型只训练了"中文→英文翻译"和"中文摘要"两个任务,但压缩带来的连续性让它学会了从未见过的"英文摘要"任务。
GPT-2将NLP中大量单点任务(翻译、摘要、补全等)的数据统一为自然语言输入/输出格式,再进行训练。不同任务之间出现了"连续"——模型在未见过的组合任务上表现出泛化能力。王冠认为这个案例最直观地说明了压缩如何产生智能。
王冠在Moonshot(月之暗面)待了大约一年(2023年初至2024年初),"没有经历它后来最辉煌的那段时间",但将其评价为"之前工作经验里体验最好的地方"。
王冠将模型产品经理的工作定义为两个层面:
System 1对应"模型的本能"——通过设计数据分布来决定模型具备什么效果和能力。System 2对应"模型之外的有效Token"——通过Agent框架、Workflow、领域知识库等方式提供context,让模型发挥更好效果。从Prompt Engineering到Context Engineering,底层技术并不复杂,更多是对业务和行业know-how的理解。
王冠在创业前的探索中,精准踩中了OpenAI的迭代路径——三次。每一次都是刚做出demo,就被OpenAI新发布的能力覆盖。
用GPT-3做中文写作辅助(类似Jasper/Copy.ai),刚跑通,ChatGPT出来了。Jasper模式宣告失效。
用Codex做"输入Excel数据+描述→自动生成图表",刚能画出图表,GPT-4出来了——它能写代码、能画图。
做了一个可视化的模型能力编排工具(类似今天的Coze/Dify),刚完成demo准备融资,OpenAI的Plugin发布了。Plugin本身是一个简单的workflow,但代表OpenAI在想同样的问题。
王冠将三次失败归结为一个核心问题:对模型能力的"地基"一无所知——模型能力到底是怎么出来的?未来会朝什么方向发展?自己做的事情和模型能力的距离与方向是否match?"对一个产品来说,在一个非常虚无的地基上面构建各种想法,是非常危险的事。"这直接导致他放弃创业,加入Moonshot去"近距离观察模型能力"。
王冠在Moonshot想清楚了三个关键问题——模型能力来自何处、未来怎么发展、自己做的事情和基座模型的关系。答案归结为一个点:"有多少人工就有多少智能"依然是最底层的逻辑。
想象智能是一个二维空间中的圆。数据决定了那个圆的边界——即智能的上限。算力是逼近边界的速度——算力越充分,越早触达上限。算法是圆内的小圆——它在逼近边界时会突出去,画出新的边界,突出的部分就是"涌现"。三者之中,数据最为本质、最第一性。
王冠认为,使用相同的互联网公域数据时,模型能力的边界是固定的。竞争比的是谁更先到达终点——有利于人才密度高、算力充足、决策速度快的组织。中美模型能力的差距会慢慢抹平,因为底层数据和算法的差异并不本质。
FSD今天能用于训练的数据可能已经不足千分之一。不经筛选地把所有用户数据训回模型,会导致模型能力趋同于"所有用户的平均智能水平"——这可能就是ChatGPT曾经"降质"的原因之一。关键工作是从数据中找到代表更高智慧的那部分。不同行业、不同产品形态有不同的筛选逻辑,但原则一致:有效数据必须是高于模型当前水平的数据。
从"数据是第一性"出发,王冠推演出行业发展的三个阶段,每个阶段对应不同类型的数据,也利好不同的玩家。
| 阶段 | 数据类型 | 特征 | 利好谁 |
|---|---|---|---|
| 第一阶段 | 公域数据(互联网数据) | 你有我也有,边界固定,比速度 | 基座模型公司 |
| 第二阶段 | 领域数据(Domain数据) | 我有你没有,来自行业信息化积累 | 大厂 + 信息化好的传统行业 |
| 第三阶段 | 产品内生数据(之前不存在的数据) | 因产品形态而生,不可复制 | 应用创业公司 |
ChatGPT通过创造一份"之前不存在的数据"建立了产品价值和壁垒。应用公司要参考这条路径:从第一天开始就设计出一份新数据——它因你的产品形态才产生,未来可以训回自己的模型。这是与基座模型保持"安全距离"的解法。王冠在ONE2X的实践:从设计一门描述视频制作过程的DSL(领域特定语言)出发,而非直接做视频编辑器。
王冠明确表示不担心大厂和OpenAI做同样的事:"如果它们压根都不思考这个问题,大概率说明你想的方向可能是错的。"差异在于出发点、前进速度和目标设定。
ONE2X选择视频方向有三个层面的考虑:商业层面、技术层面和对未来的判断。
美国市场有20-30家做视频处理的SaaS产品,ARR做到数千万美金。CapCut一枝独秀,但视频是典型的蚂蚁市场——任何单点能力做到足够好用,就能产生不错的收入。这对"起于微末"的团队至关重要。
视频处理的"原子能力"数量有限(特效、花字、转场等),制作过程本质是这些原子能力按时间关系的排列组合。这意味着视频可以被设计为像围棋一样的封闭域——下一步行动可被计算,适合用DSL表达。
互联网时代内容按"文字→图片→声音→视频"顺序发展,核心原因是生产门槛逐级升高。AI生成技术会拉平不同模态的生产门槛——做出好文章和做出好视频的难度趋同。此时,价值更高的模态会占据统治地位。视频是上一个时代的终点,也是AI时代的起点——未来只会出现比视频更高维的模态(软件、游戏)。
ONE2X的一个客户用测试版产品做潮玩视频,把某个潮玩品牌在小红书上的AI视频内容全部包圆——因为生产效率足够高、成本足够低。这类视频之前需要以周为单位、数千甚至上万的制作成本,现在可以规模化产出。这证明了"理念世界视频"在AI时代成为新内容品类的可能性。
王冠提出了ONE2X最核心的产品方法论——生成系统。这不是一个功能,而是一种"做产品的方法",类似推荐系统是一种技术方法。推荐系统可以推荐文章(今日头条)、视频(抖音)、段子(皮皮虾);生成系统可以生产各种东西。
整个生成系统都是System 2的部分:
这个产品"很像一个标注平台"。人和AI在环境中活动会产生数据,但不是所有用户数据都直接用于训练——"有效数据"由内部专家标注产生。有视频审美和制作能力的人(类似Midjourney的"艺术家"角色)和PM共同决定审美标准。标注工作通过产品本身完成,不需要软件层面的迭代——通过标注产生数据、内化到系统中,用户就能感知质量提升。
创作者未来生产的不是具体内容,而是Recipe(菜谱)——一种可复用的制作方法。我的菜谱交给你,你严格执行做出来的菜味道会有差异,但宫保鸡丁还是宫保鸡丁。Recipe是不同创作者之间形成差异化的核心,也是创作者在生成系统中的新价值。
这是王冠对整个内容产业链最具颠覆性的判断:权力的转移是不可逆的,方向始终从生产端→分配端→消费端。
像"供销社"——你只能买我生产出来的东西。软件做出来,好不好用你可以说,但不好意思我也改不了。
电商平台、推荐引擎、搜索引擎掌控了分配权力。所有互联网平台本质上都是"中间商"。
信息商品是什么样,权力应该在于消费商品的消费者本身。系统根据用户的profile、所处环境、精神和生理状态来generate内容——一种"更极致的更智能的个性化"。
假设牛顿和莱布尼茨同时独立发明了微积分,在同一时间发到平台上——牛顿的流量一定更大,因为他的身份更高,在系统中权重更高。甚至两个完全相同user profile的创作者在同一时间发同一个内容,量也会不同。这说明这套经济的分配机制是不那么有效的——同样的商品,价格不一样。
生成系统中不存在"分配"环节——用户的需求直接交给生产端,生产端产生内容直接给到用户。不是"更精准的推荐",而是"只有generate"。看过的内容都是此时此刻为你生成的。分配被内化到生产系统内部。
王冠将"创作平权"进一步延伸为一个更具象的命题:让创作变成表达。
| 模态 | 门槛 | 从"创作"变为"表达"的标志性产品 |
|---|---|---|
| 语言 | 最低——不失语就能用 | 对话本身 |
| 文字 | 较低——全球约70%人口能读写 | 微信——文字成为随时随地的低成本表达 |
| 图片 | 中等——理念世界图片仍难 | AI图片生成社区 |
| 声音/音乐 | 较高 | 尚未出现 |
| 视频 | 最高——目前最难的表达形式 | ONE2X的目标——让视频从创作变成表达 |
生产过程本身就有消费价值——写文章进入心流状态对你有价值,退休老干部买笔墨纸砚写毛笔字也是消费。在chatbot中做深度研究、在图片社区画二次元图包——都是产销行为。关键条件:自产自销的消费价值 > 生产成本。文字和图片已实现这一条件,视频还需要工具进一步降低成本。
王冠对内容经济体系做了一套完整的推演:生产方式变化 → 内容形态变化 → 经济货币变化。
之前每个人生产的是一份单点内容,在公域池子中接受算法匹配,内容之间缺乏连续性。未来生产者生产的是Recipe——一种方法而非具体内容。Recipe对应的不再是单个视频,而是有共同属性的连续内容——即IP。
当前的货币是注意力——这解释了为什么会出现"两三秒钟让你看不清然后循环播放"这种内容形式。但当内容供给越来越丰裕,注意力的价值会发生转移。它会转移到信任——就像Substack的订阅模式、OnlyFans的付费模式。你信任这个作者/频道的内容质量,愿意为信任付费。
生产能力提升 → 同质量内容不再稀缺 → 稀缺从内容转移到IP → IP的载体是信任 → 每个人通过Recipe + 生产系统都能形成自己的IP → 不需要在公域流量池争抢注意力 → "没有中间商赚差价"。这也解释了为什么今天的创作者都在经营私域——公众号作者引导到知识星球买付费内容,抖音主播引导加群——信任的价值已经高于注意力。
ONE2X全员30人,全Remote办公,每周只有一天线下(且由员工主动要求)。约一半成员有过Founder或Co-Founder经历。
ONE2X将公司视为一种环境,每个员工是环境中的智能体。每个人有自己的Reward Function(目标),不由公司指令,而是入职时自带或工作中产生。环境的任务是找到个人reward function与组织目标的契合点——这是提高"转化率"的关键。
Remote天然带来孤独感和信任问题——你是不是在敷衍我?你是不是没做?ONE2X内部有"温暖可信计划"来应对:包括内部朋友圈(飞书话题组,大家反而比微信朋友圈更爱发)、无管理层(三个Co-Founder都在一线干活)、十一假期员工自发提交代码等。
回到"生产系统scale最强的人"——组织也一样。AI时代需要"全栈工程师"而非单一方向专家。技术更全的人能利用AI工具产出远超他人的代码量。这类人天然主动性和自驱性强,传统管理方式对他们无效。"把管理问题在招聘时解决掉"——找到对的人,提供对的环境。
ONE2X定位为"AI时代的产品工作室"。工作室像实验室——探索性更强,以兴趣和产品质量为目标而非简单商业。每个人都是"AI全栈工程师",在组织中有独一无二的位置。
2024年初离开Moonshot开始创业,赶上资本市场最差的窗口期——大模型投完,应用共识未形成。做好了bootstrap准备。直到2024年下半年回暖,DeepSeek重新激发热情,Manus对应用创业至关重要——"大家都应该给Manus磕一个"。王冠强调DeepSeek证明了开源模型效果可以很好,但Manus才是证明应用这件事可以赚到钱的关键。
王冠坦言ONE2X当前的解法是把国内基座模型厂商当作"自己的模型部门"——将场景变成evaluation和种子数据,让他们为自己的场景训模型。这些数据训进去后别人也能用,"但我们应该是更知道怎么用这个能力的人"。
王冠的指标偏好是:3个用户产生100万营收 > 10万用户产生100万营收。因为生产系统的价值是scale最强的人,更强的人会让系统变得更强。衡量智慧程度的两个维度:(1)同样输入能做出更高质量内容(60分→70分);(2)做到同样质量消耗更少Token——"看一遍题直接说答案 vs 演算一遍还做错了重来"。
当模型真正知道自己不知道什么时——不是被训练出来的pattern,不是因为数据缺失的随机表现,而是能准确识别自己的能力边界——它就可以有目标地学习、补全未知。那一刻可以认为是AGI,即使它还没学会所有东西。但王冠坦言"在今天没有任何技术手段去判断它"。
在某个有价值的商业问题中,模型自己赚到钱→用钱买数据和算力→优化自己→赚更多钱→形成闭环。目前这个loop中人还在大量介入,未来人的参与会越来越少。语言领域先发生了,coding领域在发生,一个一个领域会被"点亮"。
王冠认为当前多模态AI处于"诺基亚时代"——诺基亚也有小游戏、计算器等app,但它们和iPhone时代的app是完全不同的东西。今天在生产端做好积累和沉淀,才有机会在"iPhone出现"的时间点做出真正好的app。iPhone时刻的标志可能是:端到端多模态模型接受任意模态输入、不需要语言作为中间转换介质、推理速度和成本有几个数量级的下降。
王冠对AI行业三个阶段的划分(公域数据→领域数据→产品内生数据)不仅解释了为什么前两个阶段分别属于基座模型公司和大厂,更关键的是指出了应用公司的生存逻辑:从第一天开始设计一份"之前不存在的数据"。ChatGPT是最好的范本——用对话方式解决各种问题的数据集在它出现之前并不存在。值得追问的是:有多少当前的AI应用公司真正在创造新数据,而不只是在已有数据之上做效率优化?
王冠的核心判断——生成系统替代推荐系统,分配环节被内化到生产系统中——如果成立,意味着过去20年互联网最成功的商业模式(平台作为中间商收取注意力税)将被重构。"权力转移是不可逆的"这个论断值得深思:拼多多已经在消费端给了消费者更多权力,AI会把这个趋势推到极致。
王冠的推理链是:AI拉平不同模态的生产门槛 → 价值更高的模态占据统治地位 → 视频是上一时代的终点 → 因此是AI时代的起点。但这个推理有一个隐含假设:消费者偏好不变——人们确实更愿意消费视频。抖音/TikTok的数据支持这一点。但反例是:ChatGPT的文字界面依然是最成功的AI产品。或许信息密度和消费效率才是决定因素,而非模态维度。
"Context is everything, everything is context"——在基座模型趋同的前提下,应用层拼的只有一个东西:你的context质量和使用效率。相同token实现更好效果的公司就赢了。这与红杉的"壳论"形成呼应:壳可以很厚,System 2的构建本身就是核心竞争力。王冠自己也承认"我们做的也是个壳"。
将产品视为标注平台、将用户和AI的活动视为数据标注过程——这个视角与通常的"工具/SaaS"理解完全不同。它解释了为什么ONE2X从设计DSL开始而非设计UI开始:你必须先定义"什么是可被学习的数据",才能设计出能产生这种数据的环境。这与强化学习中先定义reward function再构建环境的逻辑完全一致。
信任经济不是新概念(Substack、OnlyFans已存在),但王冠给出了它为何会在AI时代成为主流的逻辑:生产力拉平 → 同质量内容不再稀缺 → 稀缺从内容转移到IP → IP的载体是信任。如果这个推演成立,当前所有基于注意力经济的平台(抖音、YouTube等)都面临根本性挑战。值得观察的信号:头部创作者私域收入与公域收入的比例变化。
王冠将三次失败归因为"对模型能力的地基一无所知"。他的解法是去Moonshot近距离观察一年,然后才出来创业。这暗示了一个标准:如果你无法回答"模型能力来自何处、未来怎么发展、你做的事情和模型的关系"这三个问题,你可能正在虚无的地基上构建产品。王冠的反例也说明:即使答对了这三个问题,执行路径也需要与模型公司保持"安全距离"而非在它们的延长线上。
| 概念 | 王冠的定义 |
|---|---|
| 生成系统 | 类比推荐系统的一种技术方法,由DSL + Context层 + Environment三模块组成 |
| System 1 | 模型的本能能力,由数据分布决定 |
| System 2 | 模型之外提供的有效context/token,包括agent、workflow、知识库等 |
| DSL | 视频制作过程的领域特定语言,介于自然语言和代码之间 |
| Environment | 不叫软件界面——是人和智能体共同活动的环境,产生可被学习的数据 |
| Recipe | 创作方法的可复用抽象,创作者的新价值形式 |
| 产销者 | Prosumer——生产的同时就是消费,生产过程本身有消费价值 |
| 第三份数据 | 产品内生数据——因产品形态而生的、之前不存在的数据 |
| 智能的时空观 | 数据=边界,算力=逼近速度,算法=涌现范围 |
| 理念世界视频 | 不是摄像头拍出来的视频,来自想象和理解,对应图书馆/歌剧院/大教堂 |
| 千江有水千江月 | 垂直应用各有自己的智慧、数据和商业价值 |
| 万里无云万里天 | 通用agent竞争最终只有一片天 |
| 大鹏与蝶 | 庄子如大鹏(超脱远见),老子如蝴蝶穿花(入世游刃有余) |