Nari Labs开源TTS模型Dia-1.6B：生成自然对话与非语言表达，支持声音克隆

语音模型11个月前发布小马良

2,249 0

Nari Labs在今天开源了一个拥有16亿参数的文本转语音模型Dia-1.6B。这个模型的最大亮点在于它能够生成高度逼真的对话，并且加入了自然人声元素，比如笑声、咳嗽、清喉咙等，让语音合成更加生动自然。目前，这个模型还没有量化版本，运行时大概需要10G显存。不过，目前该模型仅支持英语生成。

GitHub：https://github.com/nari-labs/dia
模型：https://huggingface.co/nari-labs/Dia-1.6B
Demo：https://huggingface.co/spaces/nari-labs/Dia-1.6B

特性亮点

生成对话：通过[S1]和[S2]标签，Dia可以生成流畅的对话，模拟真实的人际交流场景。
非语言表达：模型能够生成如(laughs)、(coughs)等非语言表达，让语音合成更加贴近真实的人类交流。
声音克隆：用户可以上传想要克隆的音频，并将其文本稿放在脚本之前。模型会根据这些信息生成与原音频相似的语音，实现声音克隆的效果。详情请参考example/voice_clone.py。

硬件与性能

Dia-1.6B 目前仅支持 GPU 推理，建议使用 PyTorch 2.0+ 和 CUDA 12.6 环境。以下是关于硬件和性能的一些关键信息：

显存需求 ：完整版本的 Dia 需要大约 10GB 显存 。
推理速度 ：在高性能 GPU（如 A4000）上，模型可以实时生成音频，速度约为 40 tokens/秒 （86 tokens 约等于 1 秒音频）。对于较旧的 GPU，推理时间会相应变慢。
首次运行 ：首次运行时需要下载 Descript Audio Codec，因此耗时较长。
未来优化 ：开发团队计划添加量化版本以降低显存需求，并优化推理速度。

如果您没有合适的硬件，或者想体验更大版本的模型，可以通过官方提供的链接加入候补名单。

许可与责任

本项目基于Apache License 2.0许可，具体详情请参考LICENSE文件。

免责声明：本项目提供了一个高保真语音生成模型，旨在用于研究和教育目的。请严格遵守以下规定：

身份滥用：未经许可，不得生成模仿真实个人的音频。
欺骗性内容：不得使用此模型生成误导性内容（如假新闻）。
非法或恶意使用：不得将此模型用于非法或意图造成伤害的活动。

使用该模型即表示你同意遵守相关法律和道德责任。开发团队不承担任何滥用行为的责任，并坚决反对任何不道德地使用该技术的行为。

未来展望

Docker支持：正在开发中，将为用户提供更便捷的部署体验。
优化推理速度：持续改进中，以适应更多硬件环境。
量化版本：计划推出，以提高内存效率，降低硬件要求。

Nari Labs开源的Dia-1.6B模型为文本到语音技术带来了新的突破，让语音合成更加自然、生动。随着未来版本的不断优化，它有望在更多领域发挥更大的作用。

语音模型 # Dia-1.6B # Nari Labs # TTS模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

语音模型 # ElevenLabs # Scribe # 语音识别

1年前

03000

Sesame 团队推出新一代语音技术 CSM：让语音助手更像真人

Sesame 团队推出新一代语音技术 CSM：让语音助手更像真人

语音模型 # CSM # 语音技术

1年前

04120

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

语音模型 # Fish Audio # OpenAudio S1 # TTS模型

10个月前

04870

智谱AI语音识别模型GLM-ASR双版本登场：云端版精准识别多场景，Nano版开源免费，笔记本/手机均可部署

智谱AI语音识别模型GLM-ASR双版本登场：云端版精准识别多场景，Nano版开源免费，笔记本/手机均可部署

语音模型 # GLM-ASR-2512 # GLM-ASR-Nano-2512 # 智谱AI

4个月前

0430

暂无评论

none

暂无评论...