发布时间:2025-12-22 已有: 位 网友关注
这个团队仍然什么都没做出来,而且非常混乱,有很多公开新闻描述其内部如何混乱。
读完这些,大家会有两个很好的理解:
第二,大家可能会更理解,在一个大厂组织里,如果存在很多摩擦,如果一号位并非真正懂大模型技术,中间会发生什么样的组织损耗。
你说他们没有资源吗?它的集群比任何一家中国公司,包括中国大厂的都要大、要多;它花的钱、招的人都是全球最好的。但即便如此,也并不一定能保证它在这个行业做出领先的模型。
还有很多其他例子,比如另一个投资了OpenAI的海外大厂,但自己也有一个内部的AI团队在做自研模型,但到现在为止,还没有任何人知道他们做出了什么,即始终没有发布过领先的模型。包括另一个投资了 Anthropic的大厂,同时自己也有一个自研模型团队,花了非常多的资源和资金,也始终没有做出来。
这么多数据点让大家看到的是,这个行业真正的壁垒并非简单地拥有大量人才或庞大的算力集群。
因为这个行业的模型智能水平提升非常快,每三到六个月就会跃升一大截。因为这个行业每年的增量都比历史的存量要大,所以你必须不断向前创新、拓展行业边界,才可能在这个行业留有一席之地。比如,Meta即使把OpenAI的人全挖来,过半年做出了 OpenAI 半年前的东西,其实也已经没用了,因为这个行业已经往前走了很多。
所以,这是我们看到的这个行业真正的壁垒:
我举个例子,就是如果你发布一次模型失败了,可能没关系。但如果你在一年到一年半的时间里,每次发布的模型甚至还不如开源模型,那会发生什么?这个团队里最顶尖的人才会立刻流向其他公司,因为在这个行业,顶尖人才非常抢手。顶尖人才走后,次顶尖的人才也会走。然后,整个团队的研发凝聚力、信心和士气就散掉了。士气散掉后,其实很难再回到原来的状态。这是前面想跟大家介绍的,与大家传统认知中各个行业都不同的两点:市场在飞速地、跳跃式地变大;同时,真正在模型层持续发布过全球领先模型的公司反而在变少;并且,大厂有资源并不一定就能留在牌桌上。
关于我们公司:从第一天的构想到四年来的实践
接下来回到我们公司。这张图非常有意思,是我们公司成立第一天,创始人在白板上写下的,相当于我们的商业计划书。我先介绍其中的几点内容。
这个时间点是四年以前,那时还没有 OpenAI 发布 ChatGPT,是 ChatGPT 诞生一年以前。当时我们的创始人闫俊杰,他当时看到的一个核心点就是图中的第一点:
。这里说的“下一代 AI”,其“上一代 AI”是指什么呢?
我们的创始人 IO 之前一直从事图像、
第二点,我们把通用人工智能定义为可以接近通过图灵测试的智能体。Agent 这个概念后来被全球行业广泛使用,其实我们是非常早提出的。这背后隐含的含义是,我们认为通用人工智能应该实现的方向,一定是全模态交互的——不仅仅是语言交互,还包括
所以,我们从第一天就在做三个模态的大模型:大家最熟悉的大语言模型、
这是我们当时在第一天就坚持的第二个理念和目标:我们不是只做语言模型,而是要做三个模态都实现通用智能的模型。
后面还有一些我们对于行业的理解。例如,图中打了三个星号的“系统工程”这个词刚才也介绍了,它不是单点的创新。因为在二一年底之前的上一代 AI,所有研发范式是我需要非常多的算法专家,研发组织按算法分组。但这一代完全反过来了:我们只有几个算法模型,比如公司只有三个模态的模型,也就是三个通用模型;同时,也不需要通用的技术中台,这里的基础设施变成了专门服务于这几个模型的专用基础设施。
这个过程更像是造火箭和造芯片,需要一位总工程师或一号位,对每一个模块、端到端的技术细节都有深入理解。
此外,当时我们也设想了一些模型,比如不同智能程度从 L1 到 L4 的变化,以及产品形态从闲聊到目标导向的演进。闲聊就是我们推出的第一款娱乐性产品“Talkie /星野”,而目标导向就是我们现在的智能体产品。
所以,整体来看,这个行业的一些关键时间点判断、技术路线和产品形态,我们在第一天就写在了白板上,后来验证都是正确的。我们也是整个亚洲最早成立的专注做大模型的公司。
后面发生的事情是,过了一年后,OpenAI 发布了 ChatGPT,这个行业变得人尽皆知、非常火热。行业的关注度和增速确实比我们四年前想的要快很多。我也非常幸运,当时也在场,但是在桌子的另一边——我之前一直是做投资的,来自高瓴。高瓴是我们的天使投资人,也是前几轮的持续投资人,后来我选择加入了公司。
现在介绍我们公司的产品和业务,其实非常好理解。三个模态的大模型就是我们核心的产品,即底层的模型层:大家熟悉的语言模型、生成与图像生成模型,以及声音相关的语音和音乐模型,还有支持这些模型训练和推理的平台。在模型和基础设施层,我们投入了超过百分之八十的公司资源。模型层之上是我们的产品层。
产品层,我们开发了一系列面向全球 C 端、B 端和开发者的全球化产品,有几个方向,后面会仔细介绍。正如我在开头讲的,这个行业很大的不同是,我们发现无论你做任何大模型驱动的产品,主要的用户体验其实都来自于模型本身。所以对我们来说,这些产品具体长什么样并没有那么重要。
在我们公司有一句话:我们的核心产品其实是这些模型,而大家传统意义上理解的产品,比如海螺、星野、我们的智能体 Agent、To B 的开放平台,都只是将我们的模型打包集成、面向不同用户群体的渠道或窗口。真正为客户、用户提供价值的,是我们的底层模型本身。
下面从模型层快速回顾一下我们过去四年的进展。
两年前,2023 年,我们的语音模型实现了从文字生成语音的突破。其技术表现先做到了国内第一,后面做到了全球第一。我相信大家日常生活中肯定接触过由我们语音模型驱动的声音。举个例子,大家用的各种智能硬件,包括智能音箱、各种 AR/VR 眼镜、AI玩具,大概率都由我们模型驱动。
再比如,电商直播里的虚拟主播,很多声音也是我们提供的。当然,抖音会用字节的模型。基本上在声音这个赛道,我们在国内和字节加起来几乎等于全市场。例如,有声书方面,字节的番茄小说会用其自有模型,但除此之外的大部分有声书产品,都接入了我们的语音模型。现在,以前专门做读书的创
去年八月,实际上可能更早,去年二月过年时,大家一定对 OpenAI 发布的 Sora 演示有印象——一位穿红裙子的女士在东京街头行走。
那时是 2024 年 2 月,它只发布了演示,模型并未开放使用。我们则在去年八月底发布了海螺模型,公开可用,所有人通过简单提示词即可生成。发布后,我们没有任何投放推广,但很快通过口碑在全球各大平台传播开来,迅速成为该赛道最大的生成平台之一。我们的产品“海螺”第一个月甚至没有英文界面,是一个中文网站,但海外用户通过浏览器翻译使用,因为当时模型效果排在第一位。到现在,我们的模型与谷歌的 Veo 3、OpenAI的Sora2一起,被公认为模型性能最好的几个第一梯队模型。这是我们去年实现的第二个模态的突破。
虽然它名字叫 M2,听起来是第二代,但若从 2022 年第一版语言模型算起,它是我们内部迭代的第八或第九代模型。
今年十月发布后,我们收到了非常好的国际反响。回过头看,我们每一年在一个模态上都实现了一个新的突破,在技术和模型用量上都做到了全球第一梯队。我们也希望未来每一年都能持续上一个台阶。有一些量化的数据可以介绍:例如生成,我们每天生成接近两百万条。这是什么概念?谷歌的 Veo 在上次财报时发布过数据,其模型每天生成一百多万条。所以至少在上个季度,我们每天生成的量是超过谷歌 Veo 的。
另一个视角是,国内大家常用的小红书,日活跃用户超过一亿,它每天的和图像新增投稿量是千万级别。而我们一个平台的生成量已达两百万级别,可见渗透率在快速增长。
关于语言模型,我多说两句,这个突破我们也非常开心。在大众用户最熟悉的场景,如海外的 ChatGPT、国内的豆包或 DeepSeek 这类闲聊对话机器人,我们是不做这个产品的。因为这个产品在国内以免费为主,我们作为创业公司,认为这个产品更适合大厂来做。
我们的语言模型主攻的是语言市场中商业化收入最大的下游——AI 辅助编程和支持自主决策的智能体。这个下游在两个月前几乎 100% 由美国公司垄断,其中份额最大的是一家叫 Anthropic 的公司。
如果大家关注投资,可以它每年的收入和估值增速,它是全球历史上收入增长最快的软件公司之一。它今年一月的年化收入是十亿美金,到十月时已达七十亿美金,十个月翻了七倍。在语言模型市场,目前超过一半的下游是编程相关场景,而该场景又由 Anthropic 垄断。
历史上,从来没有一个国产模型或开源模型真正切入 AI 编程场景。大家可能最熟悉的国产语言模型是 DeepSeek,它今年的突破主要是在对话问答场景。而编程这个最能商业化的场景,之前没有国产模型能切入。
我们的 M2 模型在十月底发布后,迅速成为全球编程 AI 领域用量最多的国产模型,目前用量份额排到第三名。这不是榜单打榜的分数,而是真实的 token 用量。我们现在是国产模型中用量最大的,基本相当于其他国产模型用量的总和。
当然,排在前面的还是两个美国模型。同时,看我们的下游应用,也都是编程软件场景。我们做个小小预告,未来很快也会发布 M2 模型的一个更新版。这是我们在语言模型上最新的突破。
模型从去年开始一直非常领先,这里就不多说了,非常直观。和大家分享一个一分钟的短片,它完全是由我们今年六月发布的第二代模型生成的。生成时的提示词都是文字,我们也把提示词列在了底部供参考。
这个短片是我们内部两位 AI 艺术家花了一天半时间,通过文生生成两百个六到十二秒的小片段,从中挑选出好的片段拼接而成的作品。像刚才最后两个镜头——马戏团和小丑化为灰尘消失的特效镜头,如果使用上一代计算机
接下来是声音模型。刚才我也介绍了一些应用场景,现在听起来已经非常自然。我们的模型是统一的底层模型,无论什么语言、音色或场景,你只需要输入不同的语音提示词,它就可以进行克隆或模仿。
类似的,能说话就能唱歌,所以我们的音乐模型可以输入歌词生成完整歌曲。当然,歌词也可以通过我们的语言模型来创作。比如,你想把今天下午在上海中欧商学院的感想变成一首歌,它可以先帮你写成歌词,再生成歌曲。
我相信有些人可能注意到了,我们这些推广模型的演示本身,也是由我们的海螺模型生成的。
最后,我想再补充两点。我们刚才介绍了一些模型在全球的进展和突破。我们是一家独立的创业公司,每年消耗的资源,主要是训练算力,与美国这个行业最大的公司,如 OpenAI,相差两个数量级;与国内同样在每个模态都有模型的字节相比,我们的资源消耗也小于一个数量级。
最近也有很多讨论,为什么感觉模型差距在不断接近,但估值还差两个数量级?我相信大部分人稍加研究,都能得出结论:包括我们在内的国内模型公司,其价值是被严重低估的。最后介绍一下商业化。我们从第一天就是一家全球化运营的公司,每一个产品,包括海螺生成、面向企业和开发者的开放平台、陪伴类产品Talkie/星野,都服务于全球用户。目前,大部分商业化收入也来自全球。
这些产品我就不一一展开了,如果大家感兴趣,欢迎到我们的官网体验,每个产品都有独立链接。
这里我最推荐的是我们的新产品 Agent,因为我个人是日活用户。我用它做调研、写报告,现在的完成度、思考深度和速度,肯定比一个普通实习生要好很多。这是我们新的智能体产品。
未来,我们相信它能成为我们的数字同事。我们内部,HR、财务和商务分析已经非常多使用我们的Agent同事,它能自主规划任务,在虚拟环境中操作电脑,例如帮助 HR 查找简历、跟踪联系等。到明年,甚至可能自主进行面试。
最后,再跟大家回顾一下前面的观点:首先,竞争留在牌桌上的玩家确实越来越少;其次,我们越来越看到,真正全模态的价值正被越来越多的人所欣赏。未来一定不是单模态的,一定是语言、、声音越来越融合。
我们相信,基于我们的研发效率、研发创新能力和每个模态模型的竞争力,我们可以在全球提供更好的“per dollar intelligence”,即每一块钱能买到的智能水平,真正将大模型从一个服务少数人、价格昂贵的东西,变成能服务普罗大众的产品。这符合我们的愿景——“与所有人共创智能”的行业发展趋势。这些是我今天想跟大家分享的内容,谢谢。