DiffRhythm(谛韵)

2天前发布 9 0 0

DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。

所在地:
中国
收录时间:
2025-03-09
DiffRhythm(谛韵)DiffRhythm(谛韵)
DiffRhythm(谛韵)

由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院共同开发的DiffRhythm(谛韵),是一款基于潜扩散技术(Latent Diffusion)的新型端到端全长度歌曲生成模型。它旨在克服现有音乐生成方法的局限,如只能生成人声或伴奏、依赖复杂的多阶段架构、生成速度慢以及无法生成完整长度歌曲等。

DiffRhythm(谛韵)

核心特点与功能

  • 全长度歌曲生成:DiffRhythm能够一次性生成包含人声和伴奏的完整歌曲,最长可达4分45秒。尽管当前仅发布了基础版模型,其最大生成时长为1分35秒。
  • 快速生成:在短短10秒内即可完成一首长达4分45秒的高质量歌曲生成,非常适合实时应用场景。
  • 高质量音乐性:生成的歌曲不仅具有高音乐性,还保证了歌词的清晰度和可理解性。
  • 简单易用:用户只需输入歌词和风格提示,无需进行复杂的数据预处理或多阶段架构配置。
  • 鲁棒性:即使是对MP3压缩等数据损坏也有很强的抵抗力,可以从压缩数据中恢复出高质量音频。

技术亮点

  • 端到端生成:作为首个基于扩散模型的端到端歌曲生成模型,DiffRhythm实现了同时生成人声和伴奏的功能。
  • 非自回归结构:采用非自回归生成方式显著提高了生成速度,使其适用于实时应用需求。
  • 句子级对齐机制:通过提出一种句子级歌词对齐机制解决了歌词与人声之间的稀疏对齐问题,提升了歌词的可理解性。
  • 高保真音频重建:利用优化的变分自编码器(VAE),DiffRhythm能够在压缩的潜空间中重建高质量音频。

模型下载

模型 HuggingFace
DiffRhythm-base (1m35s) https://huggingface.co/ASLP-lab/DiffRhythm-base
DiffRhythm-full (4m45s) Coming soon...
DiffRhythm-vae https://huggingface.co/ASLP-lab/DiffRhythm-vae

使用指南

为了使用DiffRhythm生成音乐,您需要遵循特定的格式要求:

  • 歌词格式:每一行歌词都必须以时间戳开始,格式为[mm:ss.xx]歌词内容
  • 生成时长限制:目前支持最长95秒的音乐生成,总时间戳不应超过01:35.00。
  • 音频提示要求:参考音频长度应≥ 1秒,但不超过10秒,以确保最佳生成效果。
  • 语言支持:现支持中文和英文,更多语言的支持正在开发中。

如何使用

1、生成歌词

官方提供了两种歌词生成方法:主题生成和自定义生成。选择歌词生成选项,可以按照主题进行生成,如下图提示,目前支持 中文英文

DiffRhythm(谛韵)

自定义生成,可以添加自己书写的歌词,然后生成时间戳;当前版本支持最长 95 秒的音乐生成,因此你的歌词总时间戳不应超过 01:35.00

DiffRhythm(谛韵)

2、歌曲生成

复制刚才生成的歌词到歌词框,上传或选择示例曲风,点击生成歌曲。

曲风提示要求
  • 参考音频长度应 ≥ 1 秒,超过 10 秒的音频将被随机截取为 10 秒。
  • 为了获得最佳效果,应仔细选择 10 秒的片段。
  • 较短的片段可能导致生成结果不连贯。
DiffRhythm(谛韵)

本地安装

推荐使用pinokio工具进行一键安装,本地运行DiffRhythm仅需8GB显存,便能在10至12秒内生成一首完整的歌曲。

DiffRhythm(谛韵)

数据统计

相关导航

暂无评论

none
暂无评论...