宋亚宸(Simon),1997年生,是本期播客中一位极具反差感的嘉宾。他初中出国,在美国度过了8年,大学主修法国国家经济与中东政治,辅修希伯来语和阿拉伯语,深入研究伊斯兰教、犹太教、基督教——"可以理解为半个神学的专业"。然而这位"神学生"后来成了AI 3D领域最年轻的创业者之一。
宋亚宸的神学与人文背景看似与AI无关,实际上塑造了他对"信仰"和"组织凝聚力"的独特理解。他后来将公司文化描述为"信仰驱动",甚至一度想过"为公司写一本圣经"来做PR。这种人文底色是95后/00后创业者中相对罕见的特质,也影响了他对团队建设和产品方向的判断。
2018年,还在读书的宋亚宸进入商汤实习。他自称最初的工作是"端茶倒水、打杂、打印东西"。但他从这些dirty works中找到了学习的方法——通过一遍遍带客户、合作伙伴讲展厅,"中文的有英文的",他逐渐建立了对整个AI技术架构的理解。
宋亚宸2018年加入商汤CEO办公室,负责战略方面的工作,包括AR/VR、文旅、超算、端边云等领域的研究和落地。这段经历为他后来的创业提供了对AI行业的全景式理解。
CEO办公室,从"端茶倒水"做起,通过反复讲解展厅深入理解AI技术架构。
看到动画行业管线缺乏自动化,劳动密集,认为AI可以颠覆。开始在商汤内部探索3D生成。
发现游戏有巨大机会,开始做游戏买量视频素材生成、游戏美术资产生成。
大量拓展游戏客户,并成立C端游戏团队。
以001号员工身份参与创建新一代大模型公司。
在Minimax"如日中天"时选择离开,因为对3D有"非常深的情感"。
做3D大模型公司,核心产品Tripo——输入文字或图片生成带贴图材质的3D模型。
宋亚宸的路径是一个典型的"浸泡式学习"案例。他不是通过读论文或写代码来理解AI,而是通过反复向外部人士讲解来内化知识。这种方法论的核心是:教是最好的学。他至今"连代码都不会写"、"reference是零",但这并未阻止他在SIGGRAPH做keynote,也未阻止他建立一支以三清博士为主力的技术团队。
宋亚宸亲历了从商汤(AI 1.0)到Minimax(AI 2.0)的时代转换,这让他对两代AI公司的本质差异有了切身体会。
AI 1.0的本质是专家系统思维:聪明的算法科学家用人工方式针对每个具体问题设计解法。AI 2.0的本质是数据驱动的暴力美学:通过海量数据和通用架构(如Transformer)训练一个足够大的模型,让模型自己学会解决问题。这一范式转换意味着,数据的质量和规模取代了算法的精巧设计,成为竞争的核心壁垒。
商汤科技成立于2014年,以计算机视觉起家,2021年底在港交所上市,是AI 1.0时代的代表企业。Minimax成立于2021年,由前商汤副总裁闫俊杰创立,主攻通用大模型和C端产品(海螺AI),2022年初获得云启资本、高瓴创投、IDG资本和米哈游天使投资,截至2025年已完成多轮融资。两家公司的兴衰折射出AI行业范式转换的残酷性。
2021年6月,宋亚宸从商汤离开,以001号员工身份加入Minimax。在Minimax,他最早负责业务相关的事情,包括数据、算力、对外生态合作。
在Minimax已经"如日中天"、估值快速上涨的时候,宋亚宸选择了离开。他的解释非常私人化:
宋亚宸用"拧巴"和"蔫"来描述自己做不喜欢的事情时的状态。这种对内在热情的敏锐感知和低容忍度,是95后/00后创业者的一个突出特征。他们不会为了经济回报或社会期待勉强自己——做喜欢的事时"两眼发激光",做不喜欢的事时立刻"蔫了"。这与上一代创业者"为了目标忍受痛苦"的叙事截然不同。
Minimax后来聚焦于大语言模型方向,而宋亚宸对3D有"非常深的情感"。这种方向分歧最终驱动了他的离开。值得注意的是,他在Minimax和商汤都经历了公司价值快速上涨的阶段,两次都选择了离开——这种连续性说明他的决策确实是价值观驱动而非机会主义。
宋亚宸2022年底开始创业,恰好是中国创投市场最冷的时候。
宋亚宸去美国待了一个月,试图找美国投资人融资,结果"不停地碰壁"。那时没有BP(商业计划书),只能靠口头表达,"还得用英语"。
VAST公司是到2023年6月才正式开始发工资的。之前有半年时间,30多人的团队没有工资。宋亚宸自己也投了一些钱进去支撑公司运转。过年时"嫖了一个办公室",一个人写代码——他自己也承认那些代码"说实话,shit",但正是基于这些"屎山",团队获得了早期验证。
宋亚宸用"投铁"来形容自掏腰包支撑公司的行为。这在95后/00后创业者中并非个案——他们中不少人的家庭经济条件允许"带资入场"。正如宋亚宸所说:"经济基础决定上层建筑。这一代不是都缺钱的一代。"这种经济安全感改变了创业的动机结构:不再是"改变命运",而是"做自己相信的事"。
VAST成立于2023年,核心产品是Tripo——一个3D生成大模型。用户输入文字或图片,模型生成带贴图材质的3D mesh,可以进入专业管线做二次编辑。
VAST的旗舰产品Tripo系列已经历多次迭代。2023年12月上线通用3D大模型Tripo;2024年3月与Stability AI联合开源TripoSR,将单图3D生成速度压缩至0.5秒级别。截至2026年,Tripo已积累超过650万创作者、近1亿个3D生成模型,完成了近2亿美元的A轮系列融资。
2023年3月,VAST确定了技术路线——不走2D优化路线,而是做2D与3D的融合路线。这个决定意味着必须拥有大量高质量的3D原生数据,而非仅靠2D图像间接优化。
2023年8月,VAST在SIGGRAPH(计算机图形学最顶级的学术会议,当年恰逢50周年)做了主题演讲(Keynote)。这是有史以来第一位中国人在SIGGRAPH上做Keynote。同期做Keynote的包括英伟达黄仁勋、IBM、Unity、索尼的高管。
在获得这个机会的过程中,SIGGRAPH组委会一度怀疑VAST是"皮包公司",要求提供合法经营证明。VAST请来了Blender CEO等合作伙伴写推荐信,经过两三轮"面试"才最终获得资格。
SIGGRAPH Keynote的故事完美诠释了宋亚宸所说的"马斯克值"。一家刚成立几个月、没有BP、没有正式融资的创业公司,其创始人不会写代码、没发过论文,却要在全球最顶级的图形学会议上做Keynote——而且还有一个实际目的:吸引顶尖人才加入。这种"先做了再说"的行事风格,是这一代创业者最突出的特征。
宋亚宸提出了一个令张小珺印象深刻的概念——马斯克值拉满。这个词描述了95后/00后创业者的一种共同行为模式。
"马斯克值"指的是创业者将某件事做到极致的程度和意愿。具体表现为:极度聚焦本质(不注意表面的东西)、不择手段达成目标(不是道德意义上的不择手段,而是穷尽一切方法)、不接受"差不多"(要么最好、要么不做)。这种风格与传统创业者"你好我好大家好"的渐进式路径形成鲜明对比。
| 场景 | 传统做法 | 马斯克值做法 |
|---|---|---|
| 招人 | 去清华北大找相关人才,用有竞争力的薪资吸引 | 锁定最核心论文的一二三作,请候选人吃十几次饭,跟OpenAI、Adobe、英伟达抢人 |
| PR/品牌 | 开公众号、发PR稿、参加论坛 | 写一本"公司圣经",埋在地里,半年后挖出来当新闻 |
| 行业影响力 | 先发论文、做demo、参加行业会议 | 直接申请SIGGRAPH 50周年Keynote,跟黄仁勋同台演讲 |
宋亚宸在创业初期把80%-90%的时间花在招人上。他的策略是"只招最好的人",形成"人才黑洞"——让所有最好论文的核心作者都在团队里,"他没有其他的选择,要么就是最好,要么就不做"。为此,他甚至把SIGGRAPH Keynote的机会让给候选人:"我可以不去做SIGGRAPH演讲,你去做。"
宋亚宸观察到,年轻创业者的"大厂调性"越来越少——"那一套一套的东西会越来越少"。这里的"大厂调性"指的是:关注非本质指标(刷榜)、花时间在不重要的事上、注重表面的体面和流程。马斯克值的反面不是懒惰,而是精力分散和目标模糊。
宋亚宸观察到一个有趣的现象:95后/00后创业者的偶像已经从乔布斯悄然过渡到了马斯克。
有趣的是,宋亚宸自己的偶像既不是马斯克也不是乔布斯,而是毛泽东。他认为自己在这一点上"不太一样",可能跟他之前学神学的经历有关——他特别看重"信仰"在组织管理中的作用。
这一代际变化的背后是成长环境的差异。80后创业者经历了从功能机到智能机的跨越,乔布斯的iPhone代表了"从无到有"的产品革命。而95后/00后从小就生活在智能设备包围中,"好用"已经是基线,他们追求的是"超越想象"——不是更好的体验,而是全新的体验。这解释了为什么他们更倾向于做"科幻级"的产品,而非"体验级"的产品。
宋亚宸区分了三种对成功人物的态度:偶像(精神性的、无条件的崇敬)、偷师对象(学习其具体方法论)、参考坐标(用来对标自己的位置)。在他看来,毛泽东是偶像(信仰层面),张一鸣是偷师对象("做的很多方式是很值得我学习的"),马斯克介于两者之间。
宋亚宸认为AI 2.0时代有三个核心要素:算法(训马师)、算力(跑马场)、数据(草料)。其中数据是VAST面临的最大挑战——3D是一个极度数据匮乏的领域。
确定技术路线后,宋亚宸花了三个月时间专门搞数据。他的方法是"求爷爷告奶奶"——与游戏、动画、影视公司合作,从模型社区、数据库获取,甚至从"3D建模培训班"这样的犄角旮旯搞数据。
单个高质量3D模型的价格在几十到上百美金,购买1100万个模型的成本在数亿美金级别,对创业公司而言不可能实现。唯一的路径是通过合作、软磨硬泡、刷脸来获得数据授权。宋亚宸将最终的1100万高质量3D原生数据集描述为"前无古人、后无来者"——这些数据全部来自游戏、动画、影视行业的专业创作者。
与算法(可以论文公开)、算力(可以购买)不同,高质量3D数据集的构建依赖人脉关系、行业信任和时间积累,这是一种真正不可复制的壁垒。宋亚宸在商汤和Minimax积累的行业关系,在这个环节发挥了关键作用。截至2026年,VAST的1100万数据集仍然是全球最大的私有化3D数据集,超过OpenAI的200万和英伟达的100万。
VAST当前约70多人,其中约30人是实习生(博士)。技术团队约30多人,占80%。宋亚宸有一套独特的团队搭配方法论。
每个团队都由两类角色组成:老炮(有成功的从0到1经验的资深人士,能闻到"绿洲的味道",知道水怎么喝、干粮怎么带)和天才(非常有天分、不消停、到处探索的年轻人,"原来坐马车,他开自行车进沙漠")。老炮提供方向感和风险控制,天才提供创造力和执行力。
| 角色 | 人物 | 背景 |
|---|---|---|
| CTO | 梁鼎 | 商汤通用模型负责人、前十号员工,清华本硕博,图形学与CV交叉人才,商汤9年 |
| 首席科学家 | 曹延培 | 3D领域创业被快手收购,后在快手做3D研究,再到腾讯负责3D生成 |
| 3D Studio创始人 | 郭渊成 | 97年生,CVDFusion/3D Studio核心作者 |
宋亚宸的团队构建方式打破了传统创业的"合理配置"思维。传统观念认为创业团队要人员精简、分工明确、每个人都是"过来人"。而VAST的模式是:大量使用学生、创始人自己不懂技术、核心团队一半是实习生。这种看似"不合理"的配置,实际上是用极高的人才密度和极强的内驱力来弥补经验和资源的不足。
宋亚宸观察到AIGC公司内部普遍面临一个文化冲突:技术团队和产品/创意团队有着截然不同的文化需求。
宋亚宸揭示了一个被广泛忽视的组织管理问题:AI原生公司的团队天然由两类截然不同的人组成——极度理性的技术人员和极度感性的创意人员。他们的社交语言、价值评价体系、工作节奏、激励方式全部不同。这不是简单的"工程vs产品"矛盾,而是两种完全不同的人格类型和生活方式的碰撞。能否熔炼这两种文化,可能是AIGC公司能否做出好产品的关键变量。
2023年下半年,资本市场进一步走冷。宋亚宸描述了VAST在融资策略上的适应性调整。
这种"短平快"的融资方式是对传统"A轮-B轮-C轮"模式的颠覆。不再等待大轮融资close,而是持续性地、灵活地接受投资。
VAST在融资上的"幸运"值得关注:见的第一个投资人就投了他们。尽管宋亚宸自己承认当时"讲不清楚故事",投资人一开始"完全不知道你在说啥",但最终因为"非常看好年轻人"而决定投资。
宋亚宸估计,100个投资人中只有二三十个能真正理解他们在做什么。他提出了一个有趣的判断标准:"玩"的sense。不是所有投资人都知道怎么"玩"——对内容、游戏、3D体验的直觉理解力,成为了评估95后/00后创业项目的隐性门槛。传统的市场分析、财务模型在这类项目面前可能失效。
宋亚宸分享了他对AIGC经过2023年快跑后积累下来的判断。
| 产品 | 范式 | 核心逻辑 |
|---|---|---|
| 妙鸭 | 模板化翻拍 | 只拍你、只拍证件照,模板生成+社交分享 |
| HeyGen | 数字人翻译 | 让郭德纲说英文、让马斯克说中文 |
| Pika | 视频生成 | 文字/图片生成视频,硅谷精英小团队 |
这些内容模板大多"昙花一现"——它们是现象而非平台,因为没有内容平台来承接流量和创作者。如果有足够好的内容平台来承接这些模板,就可能诞生一个全新的AI Generated内容品类。
宋亚宸的逻辑清晰而有说服力:视频有TikTok、图像有Instagram,但3D内容目前没有一个面向大众的消费级平台。VAST的野心不仅是做一个3D生成工具,而是要成为3D内容生态的基础设施——从生成模型到创作工具到内容平台。这是一个比做工具大得多的叙事,也是一个比做工具难得多的挑战。
张小珺指出,由于95后/00后创业者很少出现在媒体上,这个群体"有一些面目模糊"。宋亚宸试图勾勒出他们的具体面貌。
宋亚宸认为这一代人的特质与成长环境直接相关:
宋亚宸提出了一个深刻的观察:创业者应该做的方向,就是他之前"把时间花在了什么地方的地方"。打游戏的时间和工作时间一样长——这些累积的体验、直觉和sense是不可复制的。"这个认知是没办法填的,不是说你去做了一些游戏行业研报,然后天天去读这些,去找那些游戏行业的人去谈,它能够get的。它是get不了的。"
宋亚宸对"创业环境不好"有一个反直觉的判断:这其实是一件好事。
当资本环境特别好、很容易融到很多钱的时候,创业公司不会有紧迫感去出产品、去赚钱。它有大量资源可以浪费、可以投资、可以各个方向尝试。最终的结果往往是:三到五年没有一个产品,没有赚到实质的钱,公司就没了。"伟大的公司都来自于资本市场的低谷。"
| # | 好处 | 具体表现 |
|---|---|---|
| 1 | 目标天然清晰 | 所有优化都围绕用户体验,不是老板的期待。"大家manage的都是用户的期待。" |
| 2 | 零浪费前行 | "你没有浪费你任何一点资源再往前走。"方向对的话,走路速度反而最快。 |
| 3 | 从Day 1建立精瘦文化 | "一个非常肌肉发达的肌肉男,但是他没有什么肥肉,而且他只打一拳。" |
宋亚宸坦承,如果不是2022年底的困境,他可能会陷入"创业就要融资"的路径依赖——先all in大模型、不计算力成本、大量招人、产品商业化慢慢想。资本寒冬逼迫他从Day 1就思考产品化和商业化,反而成了VAST的核心竞争力之一。他们一个月上线三个产品的速度,就是这种"被逼出来"的执行力。
在节目最后,宋亚宸给投资人提出了三条与95后/00后创业者打交道的建议。
很多落地场景是"拍脑袋"的,需要通过不断试错和尝试来验证。年轻创业者能很快改正、很快调整方向——"不是大方向的改变,而是说在验证中发现行业和用户跟想象中的不一样"。给他们空间去做这些迭代,而不是要求每一步都精确预判。
这三条建议看似随性,实际上揭示了一个深层矛盾:当前的VC评估体系(市场分析、财务模型、团队履历评估)很大程度上是为上一代创业者设计的。面对95后/00后创业者,这套体系可能系统性地低估了"信仰驱动力"、"玩的sense"和"极致执行力"的价值,而高估了"行业经验"和"标准化流程"的重要性。
宋亚宸提到Pika的创业团队是95-00后群体中"大家公认比较成功的"——很年轻的创业者、很小的团队、硅谷精英,做到了行业一流水平。但他也指出,国内媒体的焦点仍然在上一代成功过的创业者(如王小川、王慧文)和高校大牛身上,95后/00后创业者的群体被系统性地忽视了。
宋亚宸反复强调的"先做了再说"、"先上线再说",容易被误读为缺乏规划。但从VAST的发展路径看,这种风格的真正含义是:用最小成本验证假设,而非在书桌前完善计划。他们从"屎山代码"起步,快速迭代到能融资的demo;从没有BP到SIGGRAPH Keynote;从嫖办公室到70人团队。每一步都是"先做"然后"在做中学"。这与精益创业(Lean Startup)的理念高度一致,只是执行得更极端。
宋亚宸坦率地说:"经济基础决定上层建筑。这一代不是都缺钱的一代。"当创业者不再为生存焦虑时,驱动力从"改变命运"变成了"做自己相信的事"。这带来了几个结构性变化:(1)对不喜欢的方向容忍度极低;(2)更愿意做长期主义的、回报不确定的事;(3)对公司的期待不止于上市套现。这可能是这一代创业者最底层的特征变化。
一个连代码都不会写、reference为零的神学生,正在领导全球最大的3D生成AI公司之一。这不是偶然——3D内容的爆发需要的不只是技术突破,还需要对内容消费的深刻理解、对用户心理的直觉把握、以及搭建平台的商业vision。宋亚宸的"从小玩到大"的内容消费经验,可能恰恰是3D领域最稀缺的能力。