Noiz AI 联合港科大、清华大学,推出一款名叫 Noiz Audio 的开源音频生成大模型,把业内普遍要几十秒到几分钟的“一句话变一段语音/音效”压到单张消费级显卡 0.24 秒完成,而且整个生成链路只要 4 步。港科大和清华两个学术团队在扩散模型加速上的多年积累、Noiz AI 在产品化和开源工程上的能力,以及当下音频生成从“能跑”到“能本地跑”的产业拐点。

cover

数字本身有多硬

先把这组数字摆出来:单卡 0.24 秒生成一段音频、整个流程 4 步完成、完全开源。 “0.24 秒”这个数字,是消费级显卡(单张 RTX 4090/5090 级别)上、输入一段文本后端到端生成一段可听音频的延迟。换句话说,你在键盘上敲完一句话,模型几乎在你手指抬起来之前就已经把音频吐出来了。对比之下,主流的闭源音频 API(像 ElevenLabs、OpenAI 的 TTS)在网络良好的情况下也要 1 到 3 秒,而本地部署的开源模型过去普遍要 30 秒到几分钟。“4 步”则是指模型内部的扩散采样步数,业内同行通常需要 50 到 200 步才能生成一段稳定音频。 数字之所以能压到这么狠,核心是两套加速技术的组合拳:一套是把扩散模型的“采样步数”通过一致性模型(Consistency Model)蒸馏技术压到个位数,另一套是把每一步内部的注意力计算用稀疏化 + 低比特量化(INT8/INT4)双重压榨。论文里也披露,这两套技术是“正交”的,可以叠加,所以才能从 200 步 × 几步的算力,直接压成 4 步 × 极短算力。

港科大、清华、Noiz AI 的三方分工

这次开源不是一家单独搞定。港科大和清华相关实验室贡献了“加速”这一层的算法,Noiz AI 则把整个链路打包成可用的开源代码、推理脚本和在线 demo。Noiz AI 本身就是港科大和清华背景的团队出来做的初创公司,做的是音频生成,这次开源的版本在他们自家产品线上跑了几个月,稳定性已经有保证。 这种“学术团队出算法、初创公司出工程”的模式,在 2025 到 2026 年的中文 AI 圈已经成了标配:港科大和清华一年里通过 TurboDiffusion、SageAttention 等开源项目,事实上把视频生成、图像生成、文生图的推理延迟打到了一个产业可以接受的水平;Noiz AI 在音频侧把同样的方法论平移过来,等于把这个范式从“看得见的模态”扩展到“听得见的模态”。

为什么“0.24 秒”在产业上重要

延迟从秒级压到亚秒级,这件事的影响远比数字本身大。 第一,实时交互产品终于可以做了。过去音频生成最大的应用瓶颈不是质量,而是延迟:主播配旁白可以等 3 秒,但游戏音效、虚拟人对话、客服机器人,任何一个需要“边说边响应”的场景,都承受不了 1 秒以上的等待。0.24 秒落到“亚秒级”区间,等于把音频生成从“离线工具”推到了“实时工具”的门槛上。 第二,推理成本被打到地板。同样一段音频,过去需要几十秒的高端显卡占用,现在 0.24 秒完成,意味着同一张卡在一天之内能服务的请求量提升了几十倍。对云厂商和做音频 SaaS 的公司来说,这是直接的成本结构变化。 第三,本地部署变得可行。0.24 秒在单张消费级显卡上跑出来,意味着独立游戏开发者、小型内容工作室、甚至个人创作者都可以在自己机器上跑这套模型,不必再依赖闭源 API。开源进一步把这道门槛打掉,GitHub 上 clone 下来就能用。

开源的意义不只是免费

把“开源”单独拿出来讲,是因为在音频生成这个赛道,闭源和开源的边界正在被重新画。ElevenLabs、OpenAI、Suno 这些闭源产品在 2023 到 2024 年立起了商业化护城河,但 2025 年下半年开始,中文 AI 圈连续出现了多个“开源可平替”——CosyVoice、Fish Speech、IndexTTS,以及这次的 Noiz Audio。 这些开源模型的共同点不是“模仿闭源”,而是用“加速 + 蒸馏”这条路线,绕开闭源公司堆算力堆数据的传统打法,直接让模型变轻、变快、变便宜。当开源模型在延迟和成本上都做到比闭源还激进的时候,商业化的护城河就从“模型能力”转移到了“产品体验”和“分发渠道”上。 这才是 Noiz AI 这条新闻值得写一篇深度解读的原因:它不只是“又一个开源音频模型”,而是“开源音频模型开始反向定义行业节奏”的信号。 值得加一句的是,这次开源把“消费级显卡可跑”作为明确目标写进了技术报告,意味着团队并不打算把这套模型藏起来做差异化收费,而是希望社区围绕它做应用层创新。开源音频模型在 2025 年下半年已经走过“能不能用”的问题,现在进入“用得有多爽”的下半场——0.24 秒这个数字,就是下半场开局的标杆。