新Hume AI 开源 TTS 模型 TADA:文本 - 声学一对一同步,推理速度提升 5 倍且零幻觉在基于大语言模型(LLM)的文本转语音(TTS)领域,开发者长期面临一个“不可能三角”:速度、质量与可靠性难以兼得。传统的 LLM-TTS 系统往往因为文本与音频表示的不匹配,导致推理缓慢、内存消耗巨...语音模型# Hume AI# TADA# TTS11小时前0100
别再盲目搜索了!2026语音克隆指南,本地开源模型与在线平台实测盘点“有没有真正免费且好用的语音克隆工具?” 这是Reddit网友Novel_Leading_7541在技术社区每周都会看到的提问。现实情况往往令人沮丧:大多数所谓的“免费工具”要么限制重重,要么音质堪忧...AI合集# TTS# 语音克隆3天前090
阿里开源Marco-Voice:说话人-情感独立调控,语音克隆相似度0.8275碾压同类阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice,以“说话人-情感解耦”为核心创新,整合语音克隆、情感可控合成、跨语言生成三大功能,构建了统一且高效的文本转语音系统。该框架通过批...语音模型# Marco-Voice# TTS3个月前0550
ComfyUI-VoxCPM:集成 VoxCPM 的上下文感知语音合成节点ComfyUI-VoxCPM 是一个为 ComfyUI 设计的自定义节点,集成了 VoxCPM —— 一种基于 MiniCPM-4 架构的新型无分词器(tokenizer-free)文本到语音(TTS...插件# ComfyUI-VoxCPM# TTS# VoxCPM3个月前02860
面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆在语音合成领域,大多数主流 TTS(Text-to-Speech)模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模,但也带来了固有局限: 声音细节丢失、韵律不自然、跨说话人迁...语音模型# TTS# VoxCPM# 面壁智能6个月前04960
VibeVoice-ComfyUI :将微软高质量TTS模型VibeVoice深度集成至 ComfyUIVibeVoice-ComfyUI 是一款文本转语音(TTS)插件,将微软最新的 VibeVoice 语音合成模型深度集成至 ComfyUI 工作流中。 它不仅支持自然流畅的单人语音生成,更实现了 多...插件# TTS# VibeVoice# 微软5个月前04770
VibeVoice-1.5B:微软开源TTS框架,可生成4人60分钟长对话音频微软近期开源了一款全新文本到语音(TTS)框架——VibeVoice-1.5B,其核心突破在于打破传统TTS系统的局限:能同时生成包含4个不同说话者、最长60分钟的连贯对话音频,且在长序列处理效率、说...语音模型# TTS# VibeVoice-1.5B# 微软7个月前05010
Chatterbox-TTS-Extended :全能 TTS 工具链支持语音转换与高质量音频生成Chatterbox-TTS-Extended 是基于 Chatterbox-TTS 的增强型文本到语音(TTS)工具链,专为需要灵活控制和高质量输出的高级用户设计。它不仅支持单次和批量语音合成,还集...工具# Chatterbox-TTS-Extended# TTS9个月前03100
海螺语音海外版MiniMax Audio发布全新模型Speech-02 :超现实 TTS,多语言无缝切换海螺语音海外版 MiniMax Audio 发布了全新的 Speech-02 模型,这一创新的文本转语音(TTS)技术能够将任何文件或 URL 瞬间转化为逼真的音频。无论是创建有声书、播客,还是为电影...百科# MiniMax Audio# Speech-02# TTS11个月前05960
Video-T1:视频生成任务中引入测试时扩展(TTS)技术,以提升生成视频的质量和与文本提示的一致性清华大学和腾讯的研究人员推出 Video-T1,在视频生成任务中引入测试时扩展(Test-Time Scaling, TTS)技术,以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源...新技术# TTS# Video-T1# 测试时扩展12个月前03990
Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音(TTS)模型Orpheus TTS ,这款模型展示了利用大语言模型(LLM)进行高质量语音合成的能力。 模型规模与特性 ...语音模型# Llama-3b# Orpheus TTS# TTS12个月前02450
Hume AI推出了首个理解其所说内容的文本转语音系统OctaveHume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文...语音模型# Hume AI# Octave# TTS1年前02730