TTS

排序

发布更新浏览点赞

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

Kokoro是一款先进的文本转语音（TTS）模型，以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro，其模型大小不超过300M，却能生成高质量的音频输出。特别值得一...

语音模型 # Kokoro-82M # TTS

1年前

03,5420

Llasa：基于LLaMA语言模型的先进文本转语音（TTS）系统

文本转语音（TTS）技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加，市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而，传统...

语音模型 # Llasa # TTS

1年前

06770

海螺语音海外版MiniMax Audio发布全新模型Speech-02 ：超现实 TTS，多语言无缝切换

海螺语音海外版 MiniMax Audio 发布了全新的 Speech-02 模型，这一创新的文本转语音（TTS）技术能够将任何文件或 URL 瞬间转化为逼真的音频。无论是创建有声书、播客，还是为电影...

百科 # MiniMax Audio # Speech-02 # TTS

1年前

06100

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

微软近期开源了一款全新文本到语音（TTS）框架——VibeVoice-1.5B，其核心突破在于打破传统TTS系统的局限：能同时生成包含4个不同说话者、最长60分钟的连贯对话音频，且在长序列处理效率、说...

语音模型 # TTS # VibeVoice-1.5B # 微软

7个月前

05330

面壁智能发布VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和真实感声音克隆

在语音合成领域，大多数主流 TTS（Text-to-Speech）模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模，但也带来了固有局限：声音细节丢失、韵律不自然、跨说话人迁...

语音模型 # TTS # VoxCPM # 面壁智能

7个月前

05150

VibeVoice-ComfyUI ：将微软高质量TTS模型VibeVoice深度集成至 ComfyUI

VibeVoice-ComfyUI 是一款文本转语音（TTS）插件，将微软最新的 VibeVoice 语音合成模型深度集成至 ComfyUI 工作流中。它不仅支持自然流畅的单人语音生成，更实现了多...

插件 # TTS # VibeVoice # 微软

6个月前

04910

Video-T1：视频生成任务中引入测试时扩展（TTS）技术，以提升生成视频的质量和与文本提示的一致性

清华大学和腾讯的研究人员推出 Video-T1，在视频生成任务中引入测试时扩展（Test-Time Scaling, TTS）技术，以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源...

新技术 # TTS # Video-T1 # 测试时扩展

1年前

04110

Chatterbox-TTS-Extended ：全能 TTS 工具链支持语音转换与高质量音频生成

Chatterbox-TTS-Extended 是基于 Chatterbox-TTS 的增强型文本到语音（TTS）工具链，专为需要灵活控制和高质量输出的高级用户设计。它不仅支持单次和批量语音合成，还集...

工具 # Chatterbox-TTS-Extended # TTS

10个月前

03240

ComfyUI-VoxCPM：集成 VoxCPM 的上下文感知语音合成节点

ComfyUI-VoxCPM 是一个为 ComfyUI 设计的自定义节点，集成了 VoxCPM —— 一种基于 MiniCPM-4 架构的新型无分词器（tokenizer-free）文本到语音（TTS...

插件 # ComfyUI-VoxCPM # TTS # VoxCPM

4个月前

03000

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

Hume 推出了 Octave（全能文本和语音引擎），这是首个专为文本转语音设计的大语言模型（LLM）。与传统文本转语音（TTS）系统不同，Octave 不仅能够“朗读”文字，还能真正理解单词在上下文...

语音模型 # Hume AI # Octave # TTS

1年前

02750

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音（TTS）模型Orpheus TTS ，这款模型展示了利用大语言模型（LLM）进行高质量语音合成的能力。模型规模与特性 ...

语音模型 # Llama-3b # Orpheus TTS # TTS

1年前

02470

阿里开源Marco-Voice：说话人-情感独立调控，语音克隆相似度0.8275碾压同类

阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice，以“说话人-情感解耦”为核心创新，整合语音克隆、情感可控合成、跨语言生成三大功能，构建了统一且高效的文本转语音系统。该框架通过批...

语音模型 # Marco-Voice # TTS