语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

在自动音乐生成领域，生成一首具备完整结构、风格统一、人声与伴奏和谐融合的全长歌曲，依然是极具挑战性的任务。现有方法——无论是基于语言模型的自回归生成，还是基于扩散模型的音频合成——往往面临两难困境...

语音模型 # SongBloom # 音乐生成

6个月前

01000

DMOSpeech 2：用强化学习优化语音合成的时长预测

在零样本文本到语音（TTS）领域，基于扩散模型的系统近年来取得了显著进展。然而，大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件，长期依赖自监督训练，未能与语音生成...

语音模型 # DMOSpeech 2 # TTS 框架

6个月前

03030

英伟达发布 Audio Flamingo 3：全球首个支持 10 分钟音频理解的开源模型

在视觉和文本领域大模型持续突破之后，音频理解也开始迎来新的里程碑。英伟达近日发布了 Audio Flamingo 3（AF3），这是目前最先进的开源大型音频语言模型（Large Audio Langu...

语音模型 # Audio Flamingo 3 # 英伟达 # 音频理解模型

7个月前

04280

Mistral 推出首个面向企业的开源语音理解模型 Voxtral：具备高精度的语音转录能力，还支持对音频内容的深度语义理解，如问答、摘要、翻译和功能调用

随着语音逐渐成为人机交互的核心方式，法国AI初创公司 Mistral 正式发布其首个开源音频模型 Voxtral，标志着其在语音智能领域的重大突破。 Voxtral 是一款面向企业的语音理解模型（Sp...

语音模型 # Mistral # Voxtral # 语音理解模型

7个月前

01600

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

在大规模文本转语音（TTS）模型的发展中，自回归与非自回归系统各有优劣。自回归模型虽然在语音自然度方面表现优异，但其逐标记生成机制难以实现对语音持续时间的精确控制。这一缺陷在视频配音等需要严格音画同步...

语音模型 # B站 # IndexTTS2

5个月前

05010

Kyutai Labs推出新一代流式TTS模型Kyutai TTS：实时语音生成迈入新阶段

近日，Kyutai Labs 正式开源了一款名为 Kyutai TTS 的文本转语音（TTS）模型，参数规模达到16亿，支持实时、流式处理，成为该领域的技术新标杆。这一模型不仅具备出色的语音生成能力...

语音模型 # Kyutai Labs # Kyutai TTS # TTS模型

7个月前

02500

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

阿里巴巴通义实验室联合香港科技大学与浙江大学的研究团队提出了一种全新的多模态视频-音频生成与编辑框架 —— ThinkSound。项目主页：https://thinksound-project.gi...

语音模型 # ThinkSound # 多模态视频-音频生成

7个月前

01950

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型（支持 qwen-tts-latest 或 qwen-tts-2025-05-22）。该模型在语音合成领域实现了多...

语音模型 # Qwen-TTS

7个月前

03830

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD（Text to Spoken Dialogue），这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型...

语音模型 # MOSS-TTSD # 复旦大学

7个月前

05750

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

近日，Kyutai 实验室发布了一款全新的流式语音转文本（Speech-to-Text）模型——Kyutai STT，专为实时语音交互场景设计，在延迟与准确性之间实现了出色平衡，非常适合如语音助手、在...

语音模型 # Kyutai STT # 语音识别模型

7个月前

03240

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

今天，Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布，具备实时交互能力，能够根据文本提示或音频示例...

语音模型 # Magenta RealTime # 音乐生成模型

7个月前

03010

中科院团队推出多模态新模型 Stream-Omni，语音+视觉交互更高效

由中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室以及中国科学院大学联合提出，Stream-Omni 是一种新型的语言-视觉-语音多模态模型。该模型通过高效的模态对齐机...

语音模型 # Stream-Omni # 语言-视觉-语音多模态模型

8个月前

02690

加载更多

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

DMOSpeech 2：用强化学习优化语音合成的时长预测

英伟达发布 Audio Flamingo 3：全球首个支持 10 分钟音频理解的开源模型

Mistral 推出首个面向企业的开源语音理解模型 Voxtral：具备高精度的语音转录能力，还支持对音频内容的深度语义理解，如问答、摘要、翻译和功能调用

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

Kyutai Labs推出新一代流式TTS模型Kyutai TTS：实时语音生成迈入新阶段

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

中科院团队推出多模态新模型 Stream-Omni，语音+视觉交互更高效

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU

语音模型

网址

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU