DMOSpeech 2:用强化学习优化语音合成的时长预测在零样本文本到语音(TTS)领域,基于扩散模型的系统近年来取得了显著进展。然而,大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件,长期依赖自监督训练,未能与语音生成...语音模型# DMOSpeech 2# TTS 框架5个月前02780