李志飞是出门问问创始人兼CEO,前Google科学家。他的学术背景高度集中在自然语言处理领域,是中国大模型创业者中少有的"科班出身"。
最初研究计算机网络,后转入CLSP(Center for Language and Speech Processing)实验室。该实验室由语音识别之父创建,是全世界做语言语音最综合的实验室之一。PhD期间主要研究机器翻译中的语言模型和翻译模型。
毕业后进入谷歌翻译团队,继续做机器翻译算法。在Google待了不到3年。
创立出门问问,最初定位为语音搜索和虚拟个人助理。
李志飞从计算机网络转到NLP,核心动因是对"不确定性问题"的着迷。网络系统是确定性的,很少用概率;而AI需要处理噪音、口音、语速等不确定因素,通过数据学习来解决问题。这种对"不确定性"的偏好,解释了他后来对大模型的高度敏感。
机器翻译系统包含两个核心模型:
语言模型的作用类比语音识别:即使声音信号不清晰,AI也能基于语言模型"猜出"正确的文字——因为它知道一个符合语法、符合常态的句子应该是什么样的。
李志飞梳理了从2005年到2023年NLP技术经历的三个关键阶段,每个阶段的方法论、瓶颈和突破完全不同。
Google将翻译和语音识别从军方/学术项目变成消费者产品。用大规模训练数据+分布式计算+统计方法。到2012年触及天花板——"随便怎么加数据,准确率都不会有提升"。
模型容量的天花板大幅提高,从"表面pattern"到"深层抽象"。数据从几亿token扩展到10万亿token级别。分布式训练能力提升数十到数百倍。
ChatGPT的核心突破是通用性——一个模型做所有任务。以前每个任务(翻译、语音、图像)需要专门的团队、专门的数据、专门的系统。
李志飞指出,以前做机器翻译的在计算机系,做语音识别的在电子工程系,在Google也是完全不同的团队。这波AI最大的不同就是一个大一统的系统就可以做到以前每个需要单独训练一个系统的能力。
李志飞亲历了2012年Google Translate的瓶颈期——"就觉得很痛苦"。十年后ChatGPT的出现,对他这种内行人来说冲击同样巨大。理解这段历史,才能理解为什么他在2023年初如此兴奋又如此清醒。
李志飞认为ChatGPT最核心的突破不是生成能力,而是通用性——这是一个"认知模型",而非单纯的AIGC工具。
李志飞用一个直观的例子解释:互联网文本是序列的,当AI看到"我们正在聊"这几个字,预测下一个是"天"。如果预测对了就给奖励,错了就给惩罚。所谓自监督,就是互联网文本本身就提供了监督信号——不需要人工标注。
李志飞强调ChatGPT不仅仅是"生成式AI",它具备全方位的认知能力:
李志飞明确反对将大模型简单归类为"生成式AI"。他认为这个认知模型的应用"远超语言"——从机器人规划到日常生活,"不会有一件事情会逃脱掉这个东西的影响"。把它仅仅看作文本/图片/视频的生成工具,是对其能力边界的严重低估。
李志飞坦承,作为行业内行人,他也经历了一次深刻的信仰转变——从"AGI不可能"到"AGI的火花已经出现"。
李志飞反复强调一点:以前所有的AI系统,他作为内行人都能"预测到它不能干啥"——知道它笨在哪里,知道怎么去骗它。但ChatGPT打破了这个预期。"你就有一种强烈的感觉,你就在跟一个人对话。"对一个在AI领域浸泡了近二十年的科学家而言,这种"预测失败"才是真正的冲击。
2023年春节后,李志飞立即奔赴硅谷,与来自OpenAI、DeepMind、Google、Meta、Amazon等公司的工程师深入交流。他带着三个明确的问题去:
| 问题 | 调研结果 |
|---|---|
| 技术原理是什么? | 没人知道。包括OpenAI的人自己也没有清晰答案。深度学习的不可解释性——你不可解释,你也不可操控。 |
| 为什么是OpenAI而不是Google? | 信仰差异、产品驱动迭代、三位一体人才(详见下章) |
| 壁垒有多高? | 极高。至少6-8个月的lead time,即使对Google这样的竞争对手。 |
李志飞描述了一个生动的场景:在Palo Alto的University Avenue上,走进Blue Bottle咖啡厅,"你就耳边听到都是Chat, ChatGPT, Chat"。这种全民讨论的热度,比移动互联网时代更加强烈。
李志飞用一个精妙的类比阐释大模型的壁垒:以前的AI模型像软件,人熬夜一两个月就能搞定;但大模型像硬件制造——你得设计产品、第一次试产、第二次试产、然后量产。iPhone出来了,你再牛也不可能两个月造出同样的iPhone。这个认知直接影响了他后续对"中国OpenAI"的判断。
李志飞在硅谷调研后总结了OpenAI胜出的三大核心因素。值得注意的是,他认为Google的资源碾压OpenAI——人数是十倍、算力和数据也可以碾压——但组织形态决定了胜负。
李志飞认为DeepMind选择下棋等限定场景作为突破口是"非常好的选择"——规则清晰、边界清晰、数据干净,同时又足够难。但这种"项目制"研究不是产品驱动的迭代。
李志飞对微软与OpenAI的合作给出了一个精炼的分析框架:
李志飞的分析逻辑很清晰:微软自己做AI没建树 + 有巨大的场景需求 = 当看到一个第三方比内部更有灵活性和战斗力时,大力支持就是最明智的选择。这与后来微软在AI领域的巨大收获完全吻合。
本期播客的核心张力就在于此:李志飞在一个月内完成了从"要做中国OpenAI"到"劝大家冷静"的认知翻转。
判断:大模型壁垒极高、早期投入巨大、最终能做的没几家。计划融资5000万美金,独立做大模型。
与基金讨论融资方案:2000万美金买算力、2000万美金招人、1000万美金标数据。与王慧文等人吃饭交流,互相给过offer。
两个关键判断发生了变化:(1) 做这个事情的人会非常多,共识达成太快;(2) 难度分化——不探索天花板的话,难度在大幅降低。
李志飞的最终判断极为清醒:完全复制OpenAI非常难,"甚至他们自己都不一定能重复"。哪怕在全世界,OpenAI也不一定笑到最后。与其追求做"中国OpenAI",不如找到自己的定位——基于应用场景做大模型,让AGI变得可用。这个判断在2023年极为超前。
出门问问的大模型探索远早于ChatGPT的发布,但经历了一条曲折的路径。
看到GPT-3的通用能力,启动大模型研究。做了约8个月,但模型不够大,缺乏in-context learning能力。团队负责人一度要离职。
李志飞劝住了要离职的负责人,转做数字人、视频生成、直播等AIGC应用。同步做配音工具"魔音工坊"和Grammarly类文案工具。
在ChatGPT发布之前,李志飞就判断GPT-3最适合的应用是写文案(类似Jasper),重新启动大模型训练。
底层做大模型 + 上层有AIGC应用(配音、数字人、文案),通过应用场景和用户数据迭代模型。模型规模"几百亿"参数。
李志飞最终选择的不是"从头开始、与世隔绝、憋12个月"的OpenAI式路线,而是基于已有业务的渐进式路线:底层做大模型能力 → 上层有AIGC应用场景 → 应用场景产生用户数据 → 数据回流迭代模型。这种模式的优势是不需要大规模新融资,但需要解决"大模型能力不够强"与"应用场景需要强大模型"之间的鸡生蛋蛋生鸡问题。
李志飞对大模型时代的影响做了一个极为宏大的判断:影响一切,没有任何领域可以逃脱。
当认知问题都能解决,那些感知层面的问题就是"小菜一碟"。ChatGPT的成功让AI从业者对整个领域产生了强烈信心——"很多以前觉得搞不定的事情,接下来都能搞定"。
李志飞认为影响将从虚拟世界扩展到物理世界。当前大家看到的是文本、图片、视频、音频等虚拟内容的影响,但接下来通用大模型的方法论将用于制造机器人、管理日常生活等实体世界。
2023年初,大部分人还在用"AIGC"来定义大模型。李志飞的判断远比主流认知激进:他认为这是一个认知模型,具有理解、分析、生产、规划等全方位能力。不仅做文案和图片,还可以做机器人规划、蛋白质预测。这个判断在后来被GPT-4的多模态能力所验证。
关于"ChatGPT是iPhone时刻还是浏览器时刻"的争论,李志飞给出了独特的判断:后iPhone时刻。
过去十年移动互联网已经完成了人类生活的高度数字化:每个人都有手机、手机都联网、触摸屏/内存/通讯/GPS能力都很强。"我们等的就是一个智能的时代的爆发"。现在智能有了巨大突破,加上现有数字基础设施的完善,两者叠加的威力将超越iPhone本身。
李志飞提到了一个群聊中的观点:如果对话式交互成为主流,手机可能退化成手表——你需要的是一个耳机,随时说话就给你搞定,而不是打开APP、点很多、填很多表单。
出门问问做了十年语音搜索的经验告诉李志飞:AI能力不够时,最好的用户体验还不如触摸屏填表。而ChatGPT式的大模型第一次让对话式交互达到了实用水平。
李志飞回顾了2012年至今的创业历程,从"无处不在的虚拟个人助理"到各种智能硬件,核心经验是知道什么不该做。
| 阶段 | 做了什么 | 核心问题 |
|---|---|---|
| 2012-2014 | 语音助手、算法 | 找不到落地路径,没流量、没商业化 |
| 2014-2018 | 大量智能硬件(手表、音箱、耳机等) | "造了一堆身体,但大脑太弱了" |
| 2018-2020 | 2B、2C、出海、SaaS多模式尝试 | 头部很高、产出很低的AI商业化困境 |
| 2020至今 | AIGC应用(配音、数字人、文案)+ 大模型 | 大模型做到一半动摇停掉 |
当被问到"十年创业最大的三点总结"时,李志飞的回答出人意料地朴素:知道以前的AI为啥不行,知道哪些东西能做、哪些不应该去做。如果今天重新做虚拟个人助理,他会选择只做AI/软件部分,与硬件伙伴合作——而不是像当年一样什么都自己做。
李志飞说创业最难的不是供应链、硬件研发这些具体问题——这些都可以学、可以招人。最难的是"不知道下一步该把commitment放在什么地方"的迷茫期。2013-2014年,语音助手做出来了,但没流量、没商业化,不知道下一步该干什么。
李志飞提出了一个精确的量化判断:中国创业的竞争激烈程度是美国的10倍。
中国创业供给是美国的2倍(太多创业者),但美国客单价是中国的5倍(美国面向全世界,中国主要面向国内市场)。2 x 5 = 10倍竞争差距。"很多公司的营收跟美元和人民币的汇率是有点强挂钩的。"
李志飞作为"上一代AI公司"的亲历者(2012年创业),总结了一个痛苦的真相:投入很高、产出很低,所有公司都陷在商业化困境中。大模型时代需求虽然大了十倍,但供给也增长了十倍——这可能让新一代AI公司重蹈覆辙。"惨烈"二字不是空穴来风。
李志飞对OpenAI两位核心人物给出了截然不同的评价:对Ilya Sutskever高度推崇,对Sam Altman则认为被高估。
李志飞推崇Ilya的核心原因是一种罕见的"反科学家"特质:多数科学家/PhD要么只关注细节(钻在具体算法中),要么只关注抽象(脱离现实)。Ilya同时做到了两者——既有对"人类大脑怎么工作"这种宏大问题的思考,又有把这种思考与"互联网数据"这种具象资源结合并交付产品的能力。在论文中写不出来的东西,他通过产品实现了。
李志飞认为教授创业的好处是技术认知强、人才好、学生多,但关键瓶颈是能否从"有专业能力的科学家"进化为"有技术执行能力和商业思维的企业家"。如果不能完成这个转化,"不一定能走得很远"。
李志飞在2023年春对中国大模型的竞争格局做出了一系列判断,部分在后来被验证。
| 玩家 | 李志飞的判断 |
|---|---|
| 字节跳动 | "全场最有希望"。执行力极强,中国最厉害的"大力出奇迹"选手。张一鸣自己读论文、天天跟别人聊。 |
| 百度 | 内容平台,必须做大模型 |
| 腾讯 | 内容平台,必须做大模型 |
| 阿里 | 必须做的是云服务——"半年以后你的云服务如果没有大模型in power的能力,就没有竞争力" |
| OpenAI | "商业模式还是挺悲观的",相对其投入,能否从商业上笑到最后"真不好说" |
李志飞解释了为什么大模型领域出现大量联合创业/组局现象:事情太大 + 每个人单独都没有很强信心 = 组局。"你又没有信心搞得定,那有什么选择?那不就组局吗。"这个分析精准描述了2023年春中国大模型创业的群体心理。
作为本期播客的标题观点,李志飞明确表示"希望劝一些人不要去做大模型"——包括大佬们。
李志飞坦承"两个月以前我的大模型就是为了做大模型,就是要复制ChatGPT"。他把自己一个月前的想法作为反面教材——那种做法"可能会很痛苦到最后"。这种自我纠正的坦诚,在2023年初创业者普遍狂热的氛围中非常罕见。
李志飞在采访中坦承自己"性格大变"。从2012年回国时的狂妄到现在的务实,这个转变本身就是十年创业的缩影。
"我希望这个世界还是被我喜欢的人掌控的,包括我自己,能够对这个世界产生影响力。这是不会变的。只不过到底用什么样的方式去调整自己的行为,使得你可以产生最大的影响力。"
李志飞描述了从狂热到冷静的心理调适过程:硅谷回来后每天五点就醒,"感觉睡觉都在浪费时间"。但他后来做了心理建设——"这就是一个长期的过程。如果你每天这么搞,可能搞一段时间自己会搞挂的。"焦虑没用,抓不住这个小机会就抓另一个。这种从狂躁到从容的转变,发生在短短一两个月内。
| 判断 | 具体内容 |
|---|---|
| 大模型入门门槛 | 至少5000万美金(2000万算力+2000万人才+1000万数据) |
| 出门问问模型规模 | 几百亿参数 |
| 成本优势 | 自称可以用别人十分之一的成本做出同样效果 |
| ChatGPT后壁垒 | 至少6-8个月lead time,即使对Google |
| 中国竞争强度 | 美国的10倍(供给2x * 客单价1/5x) |
| 两年后大模型公司数量 | 50+家 |
| 中国OpenAI | "伪命题",大概率不存在 |
| 全场最有希望 | 字节跳动(执行力+张一鸣亲自下场) |
| OpenAI商业前景 | "挺悲观的",不确定能否笑到最后 |
| 大模型对巨头 | 半年后将成为标配,没有就被资本市场抛弃 |
| 出门问问大模型历史 | 2020年6月开始→2021年10月暂停→2022年10月重启 |
| PhD语言模型同年全美人数 | "就几个人"——极冷门 |
| 在Google时间 | 不到3年(2010-2012) |
| Killing app | "看不到"——大模型能力已ready,但应用还需要时间 |
| 时代定性 | "后iPhone时刻"——智能叠加已有数字基础设施 |
| 最终胜出公司形态 | 垂直整合(应用场景+用户数据+自有模型+持续迭代) |
李志飞从"要做中国OpenAI"到"劝大家冷静"只用了一个月。这不是"怂了",而是密集调研后的理性修正。他带着三个问题去硅谷,得到的答案推翻了自己的预判。与2023年大多数创业者的线性思维相比("OpenAI做到了,我们也能做到"),李志飞展示了一种更真诚的思考方式:先明确问题、调研、然后不怕打自己的脸。
出门问问从2014年就在做"无处不在的虚拟个人助理",vision完全正确,但AI能力(大脑)不够。造了大量硬件(身体),用户拿到手上觉得没啥用。2023年大模型终于提供了足够强的"大脑"。这个案例生动说明了一个创业悖论:你可以比时代早十年看到正确的方向,但如果底层技术不ready,你的十年可能是在为别人铺路。
李志飞对OpenAI vs Google的分析,核心结论是:Google的资源碾压OpenAI(人数10倍、算力数据均碾压),但组织形态决定了胜负。信仰统一、产品驱动迭代、三位一体人才——这三个因素都是组织层面的,不是技术层面的。这对中国大模型竞争有直接启示:大厂的组织困境(跨部门协调、内部方法论分裂)可能是创业公司的真正机会窗口。
供给2倍 x 客单价1/5 = 10倍竞争差距。这个公式简洁有力地解释了为什么中国AI公司普遍商业化困难。大模型时代需求可能增长了十倍,但供给也增长了十倍——竞争强度不变。这意味着"大模型让一切都变好了"的乐观叙事可能过于天真。
李志飞在所有玩家中最看好字节跳动,理由是执行力和张一鸣亲自参与。这个判断在后来被部分验证:字节的豆包系列模型确实成为中国大模型领域的重要力量。而他对OpenAI商业模式的悲观判断也值得持续关注。
李志飞反复强调出门问问"其实不太需要新融资",并将此视为能够"长期主义"的前提。他指出"很多动作变形都是你压力太大"——融资目的性太强就会让公司变形。在2023年大模型融资狂潮中,这种清醒极为稀缺。那些拿了大笔融资、高举高打的团队,后来确实有不少遭遇了他预言的痛苦。
李志飞分享了一个朴素但有力的个人方法论:每周总结,检查自己的认知相比上周有什么变化。他要求自己每天70%以上的思考、交流、阅读都与大模型相关。这不是狂热,而是一种结构化的学习纪律——在快速变化的领域中,认知迭代的速度就是核心竞争力。