语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型（支持 qwen-tts-latest 或 qwen-tts-2025-05-22）。该模型在语音合成领域实现了多...

语音模型 # Qwen-TTS

6个月前

03730

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD（Text to Spoken Dialogue），这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型...

语音模型 # MOSS-TTSD # 复旦大学

7个月前

05200

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

近日，Kyutai 实验室发布了一款全新的流式语音转文本（Speech-to-Text）模型——Kyutai STT，专为实时语音交互场景设计，在延迟与准确性之间实现了出色平衡，非常适合如语音助手、在...

语音模型 # Kyutai STT # 语音识别模型

7个月前

03140

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

今天，Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布，具备实时交互能力，能够根据文本提示或音频示例...

语音模型 # Magenta RealTime # 音乐生成模型

7个月前

02910

中科院团队推出多模态新模型 Stream-Omni，语音+视觉交互更高效

由中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室以及中国科学院大学联合提出，Stream-Omni 是一种新型的语言-视觉-语音多模态模型。该模型通过高效的模态对齐机...

语音模型 # Stream-Omni # 语言-视觉-语音多模态模型

7个月前

02630

清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

随着大语言模型（LLMs）和音频语言模型的快速发展，AI 在音乐生成领域的能力显著提升，特别是在歌词到歌曲生成的方向上取得了突破性进展。然而，现有方法仍面临两大核心挑战：歌曲结构复杂，难以同时...

语音模型 # LeVo # SongGeneration # 音乐生成

7个月前

02470

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

香港中文大学（深圳）和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集，通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式，整合了多种...

语音模型 # FusionAudio-1.2M

7个月前

01610

昆仑万维推出 SkyReels-Audio：多模态驱动、无限长度的高质量会说话肖像视频生成框架

昆仑万维旗下 SkyReels 团队发布了全新音视频生成模型——SkyReals-Audio，一个用于合成高保真、时间一致的“会说话”肖像视频的统一框架。项目主页：https://skyworka...

语音模型 # SkyReels-Audio # 昆仑万维

7个月前

02470

Vui：轻量级、可本地运行的开源对话语音模型

Vui 是一组轻量级、可本地运行的开源对话语音模型，支持设备端部署，适用于对话生成、语音克隆及非语音声音合成等任务。 GitHub：https://github.com/fluxions-ai/vui...

语音模型 # Vui # 对话语音模型

7个月前

03430

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

文本转语音（TTS）领域迎来一位重量级开源选手 —— OpenAudio S1-mini。这是由 Fish Audio 团队推出的 S1 模型的轻量化版本，参数规模为 5亿（0.5B），基于超过 ...

语音模型 # Fish Audio # OpenAudio S1-mini # TTS 模型

7个月前

06480

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

Fish Audio 重磅推出 OpenAudio S1 —— 一款在表现力、自然度和可控性方面达到新高度的文本转语音（TTS）模型。作为目前全球最先进的开源 TTS 模型之一，S1 在超过 200万...

语音模型 # Fish Audio # OpenAudio S1 # TTS模型

7个月前

03500

PlayAI 推出基于扩散机制的新型音频编辑模型 PlayDiffusion：能够实现对已有语音片段的精准修改，无需重新生成整段语音

在语音合成领域，自回归变换器模型已被广泛应用于文本转语音（TTS）任务中，并取得了显著成果。然而，这些模型在处理一个关键问题时存在明显短板：如何在生成后的音频中进行局部修改（即“修补”），而不会破坏整...

语音模型 # PlayDiffusion # 音频编辑模型

7个月前

03310

加载更多

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

中科院团队推出多模态新模型 Stream-Omni，语音+视觉交互更高效

清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

昆仑万维推出 SkyReels-Audio：多模态驱动、无限长度的高质量会说话肖像视频生成框架

Vui：轻量级、可本地运行的开源对话语音模型

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

PlayAI 推出基于扩散机制的新型音频编辑模型 PlayDiffusion：能够实现对已有语音片段的精准修改，无需重新生成整段语音

Fogsight (雾象)

人生 K 线

YouMind

Fast Note Sync For Obsidian

朱雀大模型检测

Tripo

语音模型

网址

Fogsight (雾象)

人生 K 线

YouMind

Fast Note Sync For Obsidian

朱雀大模型检测

Tripo