阿里开源Marco-Voice:说话人-情感独立调控,语音克隆相似度0.8275碾压同类阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice,以“说话人-情感解耦”为核心创新,整合语音克隆、情感可控合成、跨语言生成三大功能,构建了统一且高效的文本转语音系统。该框架通过批...语音模型# Marco-Voice# TTS5天前0130
ComfyUI-VoxCPM:集成 VoxCPM 的上下文感知语音合成节点ComfyUI-VoxCPM 是一个为 ComfyUI 设计的自定义节点,集成了 VoxCPM —— 一种基于 MiniCPM-4 架构的新型无分词器(tokenizer-free)文本到语音(TTS...插件# ComfyUI-VoxCPM# TTS# VoxCPM3个月前01800
面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆在语音合成领域,大多数主流 TTS(Text-to-Speech)模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模,但也带来了固有局限: 声音细节丢失、韵律不自然、跨说话人迁...语音模型# TTS# VoxCPM# 面壁智能3个月前02980
VibeVoice-ComfyUI :将微软高质量TTS模型VibeVoice深度集成至 ComfyUIVibeVoice-ComfyUI 是一款文本转语音(TTS)插件,将微软最新的 VibeVoice 语音合成模型深度集成至 ComfyUI 工作流中。 它不仅支持自然流畅的单人语音生成,更实现了 多...插件# TTS# VibeVoice# 微软2个月前03130
VibeVoice-1.5B:微软开源TTS框架,可生成4人60分钟长对话音频微软近期开源了一款全新文本到语音(TTS)框架——VibeVoice-1.5B,其核心突破在于打破传统TTS系统的局限:能同时生成包含4个不同说话者、最长60分钟的连贯对话音频,且在长序列处理效率、说...语音模型# TTS# VibeVoice-1.5B# 微软3个月前03840
Chatterbox-TTS-Extended :全能 TTS 工具链支持语音转换与高质量音频生成Chatterbox-TTS-Extended 是基于 Chatterbox-TTS 的增强型文本到语音(TTS)工具链,专为需要灵活控制和高质量输出的高级用户设计。它不仅支持单次和批量语音合成,还集...工具# Chatterbox-TTS-Extended# TTS6个月前02760
海螺语音海外版MiniMax Audio发布全新模型Speech-02 :超现实 TTS,多语言无缝切换海螺语音海外版 MiniMax Audio 发布了全新的 Speech-02 模型,这一创新的文本转语音(TTS)技术能够将任何文件或 URL 瞬间转化为逼真的音频。无论是创建有声书、播客,还是为电影...百科# MiniMax Audio# Speech-02# TTS8个月前05220
Video-T1:视频生成任务中引入测试时扩展(TTS)技术,以提升生成视频的质量和与文本提示的一致性清华大学和腾讯的研究人员推出 Video-T1,在视频生成任务中引入测试时扩展(Test-Time Scaling, TTS)技术,以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源...新技术# TTS# Video-T1# 测试时扩展9个月前02950
Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音(TTS)模型Orpheus TTS ,这款模型展示了利用大语言模型(LLM)进行高质量语音合成的能力。 模型规模与特性 ...语音模型# Llama-3b# Orpheus TTS# TTS9个月前02360
Hume AI推出了首个理解其所说内容的文本转语音系统OctaveHume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文...语音模型# Hume AI# Octave# TTS9个月前02640
Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统文本转语音(TTS)技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加,市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而,传统...语音模型# Llasa# TTS10个月前06130
文本转语音模型Kokoro-82M:8200万参数,支持多语言和多声音选项Kokoro是一款先进的文本转语音(TTS)模型,以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro,其模型大小不超过300M,却能生成高质量的音频输出。特别值得一...语音模型# Kokoro-82M# TTS10个月前03,4780