TTS

排序

发布更新浏览点赞

新LongCat-AudioDiT：美团开源的端到端语音合成模型，直接在波形潜空间生成高保真语音

美团 LongCat 团队推出了 LongCat-AudioDiT，这是一种基于扩散模型的最新文本转语音（TTS）系统。该模型的核心创新在于摒弃了传统的中间声学特征（如梅尔频谱图），直接在波形潜空间...

6小时前

040

Hume AI 开源 TTS 模型 TADA：文本 - 声学一对一同步，推理速度提升 5 倍且零幻觉

在基于大语言模型（LLM）的文本转语音（TTS）领域，开发者长期面临一个“不可能三角”：速度、质量与可靠性难以兼得。传统的 LLM-TTS 系统往往因为文本与音频表示的不匹配，导致推理缓慢、内存消耗巨...

语音模型 # Hume AI # TADA # TTS

3周前

0670

别再盲目搜索了！2026语音克隆指南，本地开源模型与在线平台实测盘点

“有没有真正免费且好用的语音克隆工具？” 这是Reddit网友Novel_Leading_7541在技术社区每周都会看到的提问。现实情况往往令人沮丧：大多数所谓的“免费工具”要么限制重重，要么音质堪忧...

AI合集 # TTS # 语音克隆

3周前

0320

阿里开源Marco-Voice：说话人-情感独立调控，语音克隆相似度0.8275碾压同类

阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice，以“说话人-情感解耦”为核心创新，整合语音克隆、情感可控合成、跨语言生成三大功能，构建了统一且高效的文本转语音系统。该框架通过批...

语音模型 # Marco-Voice # TTS

4个月前

0690

ComfyUI-VoxCPM：集成 VoxCPM 的上下文感知语音合成节点

ComfyUI-VoxCPM 是一个为 ComfyUI 设计的自定义节点，集成了 VoxCPM —— 一种基于 MiniCPM-4 架构的新型无分词器（tokenizer-free）文本到语音（TTS...

插件 # ComfyUI-VoxCPM # TTS # VoxCPM

4个月前

03000

面壁智能发布VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和真实感声音克隆

在语音合成领域，大多数主流 TTS（Text-to-Speech）模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模，但也带来了固有局限：声音细节丢失、韵律不自然、跨说话人迁...

语音模型 # TTS # VoxCPM # 面壁智能

7个月前

05150

VibeVoice-ComfyUI ：将微软高质量TTS模型VibeVoice深度集成至 ComfyUI

VibeVoice-ComfyUI 是一款文本转语音（TTS）插件，将微软最新的 VibeVoice 语音合成模型深度集成至 ComfyUI 工作流中。它不仅支持自然流畅的单人语音生成，更实现了多...

插件 # TTS # VibeVoice # 微软

6个月前

04910

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

微软近期开源了一款全新文本到语音（TTS）框架——VibeVoice-1.5B，其核心突破在于打破传统TTS系统的局限：能同时生成包含4个不同说话者、最长60分钟的连贯对话音频，且在长序列处理效率、说...

语音模型 # TTS # VibeVoice-1.5B # 微软

7个月前

05330

Chatterbox-TTS-Extended ：全能 TTS 工具链支持语音转换与高质量音频生成

Chatterbox-TTS-Extended 是基于 Chatterbox-TTS 的增强型文本到语音（TTS）工具链，专为需要灵活控制和高质量输出的高级用户设计。它不仅支持单次和批量语音合成，还集...

工具 # Chatterbox-TTS-Extended # TTS

10个月前

03240

海螺语音海外版MiniMax Audio发布全新模型Speech-02 ：超现实 TTS，多语言无缝切换

海螺语音海外版 MiniMax Audio 发布了全新的 Speech-02 模型，这一创新的文本转语音（TTS）技术能够将任何文件或 URL 瞬间转化为逼真的音频。无论是创建有声书、播客，还是为电影...

百科 # MiniMax Audio # Speech-02 # TTS

1年前

06100

Video-T1：视频生成任务中引入测试时扩展（TTS）技术，以提升生成视频的质量和与文本提示的一致性

清华大学和腾讯的研究人员推出 Video-T1，在视频生成任务中引入测试时扩展（Test-Time Scaling, TTS）技术，以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源...

新技术 # TTS # Video-T1 # 测试时扩展

1年前

04110

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音（TTS）模型Orpheus TTS ，这款模型展示了利用大语言模型（LLM）进行高质量语音合成的能力。模型规模与特性 ...

语音模型 # Llama-3b # Orpheus TTS # TTS

1年前

02470

加载更多