Noiz AI 联合港科大清华,单卡 0.24 秒开源音频生成大模型

Noiz AI 联合港科大、清华大学，推出一款名叫 Noiz Audio 的开源音频生成大模型，把业内普遍要几十秒到几分钟的“一句话变一段语音/音效”压到单张消费级显卡 0.24 秒完成，而且整个生成链路只要 4 步。港科大和清华两个学术团队在扩散模型加速上的多年积累、Noiz AI 在产品化和开源工程上的能力，以及当下音频生成从“能跑”到“能本地跑”的产业拐点。

数字本身有多硬

先把这组数字摆出来:单卡 0.24 秒生成一段音频、整个流程 4 步完成、完全开源。 “0.24 秒”这个数字，是消费级显卡(单张 RTX 4090/5090 级别)上、输入一段文本后端到端生成一段可听音频的延迟。换句话说，你在键盘上敲完一句话，模型几乎在你手指抬起来之前就已经把音频吐出来了。对比之下，主流的闭源音频 API(像 ElevenLabs、OpenAI 的 TTS)在网络良好的情况下也要 1 到 3 秒，而本地部署的开源模型过去普遍要 30 秒到几分钟。“4 步”则是指模型内部的扩散采样步数，业内同行通常需要 50 到 200 步才能生成一段稳定音频。数字之所以能压到这么狠，核心是两套加速技术的组合拳:一套是把扩散模型的“采样步数”通过一致性模型(Consistency Model)蒸馏技术压到个位数，另一套是把每一步内部的注意力计算用稀疏化 + 低比特量化(INT8/INT4)双重压榨。论文里也披露，这两套技术是“正交”的，可以叠加，所以才能从 200 步 × 几步的算力，直接压成 4 步 × 极短算力。

港科大、清华、Noiz AI 的三方分工

这次开源不是一家单独搞定。港科大和清华相关实验室贡献了“加速”这一层的算法,Noiz AI 则把整个链路打包成可用的开源代码、推理脚本和在线 demo。Noiz AI 本身就是港科大和清华背景的团队出来做的初创公司，做的是音频生成，这次开源的版本在他们自家产品线上跑了几个月，稳定性已经有保证。这种“学术团队出算法、初创公司出工程”的模式，在 2025 到 2026 年的中文 AI 圈已经成了标配:港科大和清华一年里通过 TurboDiffusion、SageAttention 等开源项目，事实上把视频生成、图像生成、文生图的推理延迟打到了一个产业可以接受的水平;Noiz AI 在音频侧把同样的方法论平移过来，等于把这个范式从“看得见的模态”扩展到“听得见的模态”。

为什么“0.24 秒”在产业上重要

延迟从秒级压到亚秒级，这件事的影响远比数字本身大。第一，实时交互产品终于可以做了。过去音频生成最大的应用瓶颈不是质量，而是延迟:主播配旁白可以等 3 秒，但游戏音效、虚拟人对话、客服机器人，任何一个需要“边说边响应”的场景，都承受不了 1 秒以上的等待。0.24 秒落到“亚秒级”区间，等于把音频生成从“离线工具”推到了“实时工具”的门槛上。第二，推理成本被打到地板。同样一段音频，过去需要几十秒的高端显卡占用，现在 0.24 秒完成，意味着同一张卡在一天之内能服务的请求量提升了几十倍。对云厂商和做音频 SaaS 的公司来说，这是直接的成本结构变化。第三，本地部署变得可行。0.24 秒在单张消费级显卡上跑出来，意味着独立游戏开发者、小型内容工作室、甚至个人创作者都可以在自己机器上跑这套模型，不必再依赖闭源 API。开源进一步把这道门槛打掉,GitHub 上 clone 下来就能用。

开源的意义不只是免费

把“开源”单独拿出来讲，是因为在音频生成这个赛道，闭源和开源的边界正在被重新画。ElevenLabs、OpenAI、Suno 这些闭源产品在 2023 到 2024 年立起了商业化护城河，但 2025 年下半年开始，中文 AI 圈连续出现了多个“开源可平替”——CosyVoice、Fish Speech、IndexTTS,以及这次的 Noiz Audio。这些开源模型的共同点不是“模仿闭源”,而是用“加速 + 蒸馏”这条路线，绕开闭源公司堆算力堆数据的传统打法，直接让模型变轻、变快、变便宜。当开源模型在延迟和成本上都做到比闭源还激进的时候，商业化的护城河就从“模型能力”转移到了“产品体验”和“分发渠道”上。这才是 Noiz AI 这条新闻值得写一篇深度解读的原因:它不只是“又一个开源音频模型”,而是“开源音频模型开始反向定义行业节奏”的信号。值得加一句的是，这次开源把“消费级显卡可跑”作为明确目标写进了技术报告，意味着团队并不打算把这套模型藏起来做差异化收费，而是希望社区围绕它做应用层创新。开源音频模型在 2025 年下半年已经走过“能不能用”的问题，现在进入“用得有多爽”的下半场——0.24 秒这个数字，就是下半场开局的标杆。

Noiz AI 联合港科大清华,单卡 0.24 秒开源音频生成大模型

数字本身有多硬

港科大、清华、Noiz AI 的三方分工

为什么“0.24 秒”在产业上重要

开源的意义不只是免费

发表回复取消回复

标签云

最近文章

分类

<img width="200" height="58" class="logo" src="https://blog.dgqrs.cn/wp-content/themes/onenice-3.8.6/static/images/blog-witness-logo-v2.svg" alt="千榕观察 · Qianrong Witness" />

Noiz AI 联合港科大清华,单卡 0.24 秒开源音频生成大模型

数字本身有多硬

港科大、清华、Noiz AI 的三方分工

为什么“0.24 秒”在产业上重要

开源的意义不只是免费

相关文章

发表回复 取消回复

发表回复取消回复