语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

OmniVoice：小米 K2-FSA 团队开源 600+ 语言零样本 TTS，一句话复刻全球声音

OmniVoice 是由小米 K2-Fsa 团队最新推出的文本转语音（TTS）模型。它打破了传统 TTS 的语言壁垒，支持超过 600 种语言（包括大量低资源语言和方言），并凭借创新的扩散语言模...

语音模型 # OmniVoice # TTS

5天前

0120

LongCat-AudioDiT：美团开源的端到端语音合成模型，直接在波形潜空间生成高保真语音

美团 LongCat 团队推出了 LongCat-AudioDiT，这是一种基于扩散模型的最新文本转语音（TTS）系统。该模型的核心创新在于摒弃了传统的中间声学特征（如梅尔频谱图），直接在波形潜空间...

语音模型 # LongCat-AudioDiT # TTS # 美团

7天前

0100

Foundation-1：重新定义 AI 音乐制作，首个“结构化文本生成采样”模型

在 AI 音乐生成领域，大多数模型（如 Suno, Udio）专注于生成完整的歌曲或长段落，但对于专业音乐制作人而言，他们真正需要的是高质量的、可循环的、结构精准的采样（Samples/Loops...

语音模型 # Foundation-1 # 采样模型

1周前

0190

Mistral 发布 Voxtral TTS：40 亿参数开源模型，以极致低延迟和跨语言克隆挑战 ElevenLabs

法国 AI 独角兽 Mistral AI 今日正式进军语音合成领域，发布了其首款开源文本转语音（TTS）模型——Voxtral TTS。这款基于 Ministral 3B 架构打造的轻量级模型，旨在以...

语音模型 # Mistral # Voxtral TTS

2周前

0160

谷歌发布 Gemini 3.1 Flash Live：迄今最自然、最敏锐的语音 AI，支持全球 200+ 语言

谷歌在 AI 语音交互领域再次迈出关键一步。今日，谷歌正式推出 Gemini 3.1 Flash Live，称其为“迄今为止最高质量的音频和语音模型”。这款新模型不仅大幅降低了延迟，更在语调理解、情绪...

早报语音模型 # Gemini 3.1 Flash Live # 谷歌

2周前

01180

Cohere 开源自动语音识别（ASR）模型 Cohere Transcribe：20 亿参数跑赢巨头，消费级显卡即可部署

在企业 AI 赛道深耕多年的 Cohere 今日正式进军语音领域，发布了其首款开源自动语音识别（ASR）模型——Cohere Transcribe(cohere-transcribe-03-2026...

语音模型 # Cohere # Cohere Transcribe # 自动语音识别模型

2周前

0580

谷歌发布 Lyria 3 Pro：谷歌音乐生成迈入“完整曲目”时代，最长支持 3 分钟

继上个月推出 Lyria 3 后，谷歌于本周三正式发布了其最新音乐生成模型 Lyria 3 Pro。这款升级版模型不仅将生成时长从 30 秒大幅延长至 3 分钟，更在音乐结构理解、创意控制和多平台集成...

早报语音模型 # Lyria 3 Pro # 谷歌

2周前

0330

阿里通义实验室开源 Fun-CineForge：首个影视级多场景 AI 配音大模型，攻克“音画同步”与“多人对话”难题

在 AI 语音合成（TTS）日益普及的今天，将其应用于专业影视制作仍面临巨大挑战：口型对不上、情感不到位、多人对话混乱、画面遮挡时声音消失…… 阿里通义实验室正式宣布开源 Fun-CineForge ...

语音模型 # Fun-CineForge # 通义实验室 # 配音大模型

3周前

0230

Covo-Audio：腾讯开源 7B 端到端语音大模型，重新定义“像人一样”的对话

在 AI 语音交互领域，长期存在一个痛点：传统的“语音识别 (ASR) + 大语言模型 (LLM) + 语音合成 (TTS)”三段式架构，导致信息丢失、延迟累积、情感匮乏，且难以实现真正的实时打断与插...

语音模型 # Covo-Audio # 腾讯

3周前

0400

KokoClone：极速实时多语言语音克隆系统，基于 Kokoro-ONNX 驱动

KokoClone 是一款构建在 Kokoro-ONNX（目前最快的开源神经语音合成引擎之一）之上的高性能语音克隆系统。它打破了传统 TTS（文本转语音）和语音转换的延迟瓶颈，实现了快速、实时兼容的多...

语音模型 # KokoClone # Kokoro-ONNX

3周前

0220

Hume AI 开源 TTS 模型 TADA：文本 - 声学一对一同步，推理速度提升 5 倍且零幻觉

在基于大语言模型（LLM）的文本转语音（TTS）领域，开发者长期面临一个“不可能三角”：速度、质量与可靠性难以兼得。传统的 LLM-TTS 系统往往因为文本与音频表示的不匹配，导致推理缓慢、内存消耗巨...

语音模型 # Hume AI # TADA # TTS

4周前

0670

Fish Audio 开源 Fish Audio S2 Pro：支持自然语言指令的精细化 TTS 模型，单卡 H200 实时因子低至 0.195

在文本转语音（TTS）领域，如何在保持高保真音质的同时，实现对韵律、情感和副语言特征（如笑声、呼吸声）的精细化控制，一直是行业难点。今日，Fish Audio 正式开源 S2 模型及其完整的生产级推理...

语音模型 # Fish Audio # Fish Audio S2 Pro

4周前

0140

加载更多