张鹏的履历"非常简单":1998年进入清华大学,此后再未离开。他在清华计算机系的知识工程实验室工作,该实验室走出了旷视科技的联合创始人唐文斌、杨木等人——上一代"AI四小龙"的核心人物。
在观察了上一代AI企业的成功与局限后,张鹏和团队在2015-2016年左右开始内部讨论一个核心问题:下一代人工智能到底是什么?
上一代AI(如计算机视觉、语音识别)解决的是感知问题——"不知道它不知道"。张鹏引用张钹院士的象限图:当时的AI只能处理极小范围的已知问题。认知智能是迈向通用人工智能(AGI)的下一个台阶,核心在于让机器具备"知道自己不知道"的能力。
张鹏坦承,到今天认知的本质仍未被完全揭示。但这个方向性的判断,让智谱从创立之初就与纯商业化公司有了根本区别。
智谱的诞生过程本身就是一段制度创新史。2018年,教育部等部委联合发文,允许科研院所在职人员用已有研究成果做科技成果转化。智谱成为清华计算机系第一家通过该通道成立的公司。
实验室内部开始讨论"下一代人工智能"方向,确认认知智能是核心。
团队以相对独立的方式开始运转,尝试在学校体制下走通商业化转化路径。当时在职人员开公司严格来说"不允许"。
国家出台科技成果转化意见,"开了一扇窗户"。智谱董事长刘德斌开始与清华谈判转化细节。
公司正式注册成立。整个谈判过程耗时一年半——包括成果评估、股权分配比例、合规流程等前所未有的细节。
张鹏强调"前面没有人走过这个路"。学校也不清楚如何操作,双方在互相理解中摸索。分配比例、成果货币化评估、国资合规要求——这些细节全部是"第一次"。但这种正式路径也让智谱避免了后续的法律隐患,同时获得了清华作为股东的背书。
清华知识工程实验室有一个延续至今的传统——P2P(Paper to Product),即研究成果必须转换成实际可用的产品或系统。张鹏在实验室中的角色正是负责"工程转化"。
智谱的起点产品AMiner是一个科技情报分析平台,在国际上有相当影响力。客户包括Google、IBM等顶级科技企业,为他们提供技术趋势预测服务。
张鹏解释了为什么选择情报学作为起点:情报学要求理解已有文献中的知识,综合不同知识进行推演,最终得到新的知识——这本质上就是认知能力的密集应用。传统情报学归属于图书馆学,智谱从计算机科学的角度切入,用算法替代人工专家,是一次方法论的革命。
2020年6月GPT-3发布时,恰逢智谱公司成立一周年。张鹏邀请张钹院士来公司座谈,专门讨论GPT-3的意义。
2020年中到2021年,智谱团队用约一年时间研发出GLM算法——一种综合了BERT和GPT两种范式优势的创新架构。
GLM将BERT的双向预测通过词序调整,统一成单向后向预测——"把这两个模型就这样统一起来了"。这带来三个意外的工程优势:
2021年底到2022年8月,智谱决策训练对标GPT-3的千亿参数模型。这是一个重大赌注——训练成本约1000万人民币(含人工),而GPT-3的训练成本约2000万美元。
2022年8月开源后,斯坦福AI报告(李飞飞团队)将GLM-130B列为唯一参与评估且排名靠前的中国模型,"基本上跟GPT-3互有胜负"。
2022年11月30日ChatGPT上线时,智谱刚完成GLM-130B的训练和开源不到三个月。张鹏用两个词概括团队当时的状态:兴奋和焦虑。
在ChatGPT火爆之前,智谱正处于融资困难期。投资人"完全听不懂"大模型是什么,甚至要求"把估值降一半"。ChatGPT的爆火让一切反转——"大家再也不用质疑说你这东西到底是啥。我们就告诉他说ChatGPT你懂吗?我们做的这个事情就是往这儿去的。"此后变成投资人主动找智谱。
2023年,中国AI行业经历了"百模大战"。王慧文、王小川等知名企业家入局,Kimi、MiniMax等新锐崛起。张鹏描述了一个逐年变化的行业叙事:
| 竞争者 | 张鹏的评价 |
|---|---|
| 王小川(百川) | "师兄",经常在楼下碰面。小川倾向于做L0/L1/L2的分层模型,走垂直化路线。张鹏认为垂直化"没那么简单",必须基于足够好的L0。 |
| 杨植麟(Kimi) | "非常聪明的一个人",在学术上积累和研究非常深。张鹏认为"她应该能成"。 |
| 闫俊杰(MiniMax) | 在WAIC上相邻而坐深聊。"非常聪明",方向明确——直接奔着商业化,做消费、娱乐、情绪价值。 |
| 梁文峰(DeepSeek) | 推测他"不想去做2B做服务","也不缺钱",有执着的技术理想。猜测他想集中精力做技术探索。 |
张鹏坚持认为:专用模型可以存在,但必须基于足够好的通用基座。"哪怕一个最好的医生,他也有基础教育。"
智谱在2021-2022年就提出了MaaS(Model as a Service)概念,定义了比当前市场理解更丰富的服务形态。
张鹏批评云厂商把MaaS概念收窄到只剩云端API——"他们想往这个方向引,因为这是他们的战场"。
智谱也做了2C产品"智谱清言",定位为效率工具。但张鹏描述了一个残酷的现实:
转折点在DeepSeek发布之后:"基本上我们就不再花很多精力资源去做推广。"在此之前还有克制地推过,之后明确收缩。
张鹏提出了一个通用人工智能实现的L1到L5五级阶梯模型,每一级对应不同的Scaling Law核心变量:
| 阶段 | 名称 | 核心方法 | Scaling Law的核心变量 |
|---|---|---|---|
| L1 | 预训练 | 从数据中学习世界知识、常识 | 参数量、数据量、算力 |
| L2 | 对齐与推理 | SFT——正确使用知识,组合解答问题 | 推理计算量 |
| L3 | 自学习 | 强化学习——在试错经验中学习 | RL的Scaling |
| L4 | 自我认知 | 知道自己不知道什么 | 待定 |
| L5 | 意识 | 类似人类的conscious | 定义尚不清晰 |
当2023年市场都在追求"暴力美学"时,智谱始终保持参数规模的克制:
最新的GLM-4.7模型参数量仅300多亿,但表现"非常好"。秘诀在于:(1)训练效率更高、数据利用率更高;(2)模型结构设计时就考虑推理成本——单机8卡即可推理;(3)采用MOE架构并探索出"别人没探索过的空间"。
2025年初DeepSeek的发布对智谱产生了多维度的冲击。张鹏用"影响比较大"来形容,春节一回来就密集讨论。
张鹏描述了一个典型场景:客户预算已批下来,本来要采购智谱的服务,但看到DeepSeek开源后就犹豫了。部分客户自己去尝试"DeepSeek一体机",但过一段时间后大部分都"掉头回来"——因为DeepSeek不提供商业化服务,无法做系统整合。张鹏的结论是:DeepSeek"delay了一些客户",但最终证明了商业化服务的不可替代性。
智谱是中国最早系统性开源大模型的公司之一。从2022年GLM-130B开始,至今已有六七十个开源项目,总下载量超过6000万次。
第一次开源。动机:"捏手里也没办法短时间变成钱,让更多人知道这件事情更重要。"目标是打出国际影响力。
60亿参数版本,一张家用GPU即可运行。成为第一款爆火的开源项目,下载量极大。
明确将开源版本和商业化版本分开——开源放出核心技术,商业化提供产品、工具和服务。
低调发布但海外评价极高。Windsurf等美国公司直接将ChatGPT替换为GLM模型。
一位外部观察者评价智谱"像水泥一样——有视野有技术,但boring"。张鹏对此坦然接受:"就像大家评价清华理工男一样,很聪明也很能干,正经用途他能干得很漂亮,但是就是没有太多的情绪价值。"他承认在抓眼球和大众传播方面不如Kimi等竞品,"也跟我们的定位有关系",但在开发者和程序员群体中口碑不错。
张鹏对AGI的时间表给出了相对谨慎的判断:可能2027年开始具备关键能力,之后还需要5-8年调整效率和安全。
但张鹏认为即便在Transformer框架下,"还有很多空间可以挖"——从Attention机制的各种魔改,到MOE架构的新探索,"果实已经被人摘遍了,但并不代表没有果实了"。
张鹏个人预测下一个范式是训练和推理的统一——不再截然分割为两个阶段,而是形成完整闭环:推理产生反馈,反馈直接成为强化学习的输入,整个过程自动化且连续。
张鹏确信不同模态(文本、图像、代码、Agent规划、VLA机器人控制)的原生融合是终极方向,而非系统化的外部组合。如果这一点加上在线学习同时实现,"AGI就看到曙光了"。
张鹏坦承自己"没有很好的准备就做了CEO,被推进了大浪之中"。但他认为"任何时候都是没有准备好的",清华教会他的是学习的方法和能力。
张鹏的亲身体验:从科建楼搬到两层办公室后,"有一批人我叫不出来名字了"——需要从个人掌控转向依赖机制和体制运转。
每年翻一倍,每年搬一次家(搬了三栋楼),直到2025年才稳定下来。
张鹏在深圳独自出差半年,带着几千万合同回到北京——"一个人去,真的待了半年,不停在想办法促成这件事情"。他认为学院派创业被诟病最多的是"对商业化比较忽视",但智谱因为实验室阶段就有商业化基因,"大方向不会犯什么特别大的错误"。
2026年1月8日,智谱登陆港交所,成为中国首家、全球首家IPO的大模型公司。张鹏透露,上市计划早在公司成立第一天就已纳入规划。
有AI 1.0创始人评价大模型公司上市是"大逃生"——赶在泡沫破裂前上市。张鹏用一系列反问拆解这个逻辑:
访谈发生在上市前夕。张鹏在出差途中摔断了跟腱,拄着拐杖来到访谈现场。他引用西方俚语"break a leg"(摔断一条腿=祝好运),几天后智谱确定于1月8日登陆港交所。张鹏评价自己是"天秤座的人,天生很平衡"——既期待又清醒。
智谱在2016年就提出"认知智能"作为下一代AI方向——比ChatGPT早了整整6年。这个判断的核心洞察是正确的:AI不应只是感知工具(识别图片、翻译语音),而应具备理解、推演、泛化的"脑子"。但张鹏也坦承,"认知的本质是什么"至今未有定论,大模型是否真正模拟了人的认知"肯定不是"。这意味着当前的大模型热潮可能只是认知智能漫长征途的一个阶段,而非终点。
智谱从清华实验室继承的"Paper to Product"基因,使其在创业初期就有商业化能力和客户基础。但这种"水泥般"的工程师文化也使其在2C市场上缺乏"情绪价值"。值得注意的是,张鹏对此有清醒认知但并不试图改变——他选择在开发者和企业客户中建立口碑,而非追逐大众流量。这种策略在短期可能显得保守,但在长期可能更具持续性。
GLM的BERT+GPT统一方法带来了三个实用优势:训练稳定性、参数分布集中(量化友好)、既能填空也能续写。在当前推理成本居高不下的背景下,"量化精度损失小"这一点的商业价值可能被严重低估。智谱以GPT-3约1/14的成本训练出互有胜负的模型,这种成本效率优势可能是其最核心的竞争护城河。
张鹏用"美国的二十分之一"来形容中国的AI投资规模,并用逻辑推演证明中国不存在AI泡沫——因为投入根本不够。这与市场上"大模型烧钱太猛"的主流叙事形成鲜明对比。如果这个判断成立,中国大模型行业面临的不是泡沫破裂风险,而是投资不足导致的竞争力衰减风险。
张鹏提出的L1-L5框架不是学术分类,而是资源分配指南:当前处于L3(自学习/强化学习)阶段,Scaling Law的核心变量已从"堆参数"变为"RL的Scaling"。这解释了为什么智谱在参数规模上始终克制(300多亿参数的4.7效果优于许多更大的模型),而将资源集中在数据工程和强化学习上。DeepSeek的冲击本质上是证明了L3阶段的突破路径。
智谱的开源策略提供了一个有趣的案例:开源核心技术建立影响力,但商业化服务(产品、工具、集成、交付)才是真正的价值创造。DeepSeek的彻底开源短期内给智谱带来了客户延迟,但最终反而证明了这一点——大部分客户在自行尝试后回流。这暗示了一个更普遍的规律:在中国市场,技术的可用性(能不能下载运行)和技术的可用性(能不能真正用于生产)之间存在巨大鸿沟。
张鹏明确拒绝"曲线救国"——不因为商业化困难就偏离AGI目标。他的论据有两层:(1)信仰一旦绕路就容易遗忘;(2)单项能力突破(如上一代AI的视觉突破)证明了"so what"——不解决根本问题。但与纯技术理想主义者不同,他又强调"做一家实现了AGI的公司"和"做一家利润很高的公司"并不对立。这种"天秤座式的平衡"——既不放弃理想也不脱离商业——可能是智谱能够走到IPO的核心原因。