语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

多模态语音交互的端到端大型语音模型 VITA-Audio

腾讯优图实验室、南京大学和厦门大学的研究人员推出用于高效多模态语音交互的端到端大型语音模型 VITA-Audio，VITA-Audio 的目标是通过快速生成音频和文本令牌，显著降低流式语音交互中的延迟...

9个月前

02290

北京沐言智语科技开源专为播客场景优化的可训练TTS模型 Muyan-TTS

北京沐言智语科技开源可训练文本到语音（TTS）模型 Muyan-TTS ，专为播客场景优化，并在5万美元的预算内开发。该模型通过在超过10万小时的播客音频数据上进行预训练，能够实现高质量的零样本文本到...

语音模型 # Muyan-TTS # TTS模型

9个月前

03330

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

ACE Studio和阶跃星辰（StepFun）联合推出了一款全新的开源音乐生成基础模型ACE-Step，该模型通过创新的整体架构设计，突破了现有方法的局限性，实现了卓越的性能表现。 GitHub：h...

语音模型 # ACE-Step # 音乐模型

9个月前

03780

新型语音语言模型 LLaMA-Omni 2：实现高质量的实时语音交互

中国科学院计算技术研究所、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型语音语言模型 LLaMA-Omni 2 ，旨在实现高质量的实时语音交互。LLaMA-Omni 2 基于 Qw...

语音模型 # LLaMA-Omni 2 # 语音语言模型

9个月前

02530

新型语音语言基础模型Voila ：实现自然、实时、自主的语音交互

Maitrix.org、加州大学圣地亚哥分校和MBZUAI的研究人员推出新型语音语言基础模型Voila ，旨在实现自然、实时、自主的语音交互。Voila 通过端到端的架构设计，突破了传统语音交互系统...

语音模型 # Voila # 语音语言基础模型

9个月前

04070

英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2：专为高质量英语语音转录设计

英伟达推出的 Parakeet-TDT-0.6B-v2 是一款拥有 6 亿参数的自动语音识别（ASR）模型，专为高质量英语语音转录设计。该模型支持标点符号、大写和精准的时间戳预测，能够处理长达 24 ...

语音模型 # Parakeet-TDT-0.6B-v2 # 自动语音识别模型自动语音识别模型 # 英伟达

9个月前

04170

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio，专为多种音频任务设计，包括语音识别（ASR）、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品，Aero-1-Audi...

语音模型 # Aero-1-Audio # LMMs-Lab # 语音识别

9个月前

05700

月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

月之暗面开源了一款名为 Kimi-Audio 的通用音频模型。这款模型以其统一的框架和强大的多功能性，在音频处理领域引起了广泛关注。Kimi-Audio 不仅能够处理语音识别、音频问答、字幕生成等任务...

语音模型 # Kimi-Audio # 月之暗面

9个月前

03050

IBM 首个开源的语音转文本（STT）和自动语音翻译（AST）模型Granite Speech 3.3 8B

随着AI在企业系统中的深度集成，对灵活性、效率和透明度兼具的模型需求日益增加。然而，当前市场上的解决方案往往难以满足这些要求：开源模型可能缺乏特定领域的能力，而专有系统则可能限制访问或适应性。尤其在语...

语音模型 # AST # Granite Speech 3.3 8B # IBM

9个月前

03910

Nari Labs开源TTS模型Dia-1.6B：生成自然对话与非语言表达，支持声音克隆

Nari Labs在今天开源了一个拥有16亿参数的文本转语音模型Dia-1.6B。这个模型的最大亮点在于它能够生成高度逼真的对话，并且加入了自然人声元素，比如笑声、咳嗽、清喉咙等，让语音合成更加生动自...

语音模型 # Dia-1.6B # Nari Labs # TTS模型

9个月前

02,2170

多语言、多任务 ASR 模型Dolphin：支持东亚、南亚、东南亚和中东地区的 40 种东方语言，同时也支持 22 种中国方言

近年来，自动语音识别（ASR）技术取得了显著进展，这主要得益于模型架构的改进和大规模数据集的可用性。然而，现有的多语言 ASR 模型（如 Whisper）在处理东方语言时表现不佳，且存在可重复性问题 ...

语音模型 # ASR 模型 # Dolphin # 语音识别

10个月前

06500

字节跳动与浙大联合发布轻量高效TTS模型MegaTTS3

字节跳动和浙江大学的研究人员推出的一款轻量级TTS模型：MegaTTS3，0.45B，高质量语音克隆，支持中英文以及中英文混合，支持口音强度控制，后面会支持更细粒度的发音和时长调整。 GitHub：h...

语音模型 # MegaTTS3 # TTS模型 # 字节跳动

10个月前

04670

加载更多

多模态语音交互的端到端大型语音模型 VITA-Audio

北京沐言智语科技开源专为播客场景优化的可训练TTS模型 Muyan-TTS

音乐生成基础模型ACE-Step：通过创新的整体架构设计，快速生成高质量音乐

新型语音语言模型 LLaMA-Omni 2：实现高质量的实时语音交互

新型语音语言基础模型Voila ：实现自然、实时、自主的语音交互

英伟达推出自动语音识别模型Parakeet-TDT-0.6B-v2：专为高质量英语语音转录设计

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

IBM 首个开源的语音转文本（STT）和自动语音翻译（AST）模型Granite Speech 3.3 8B

Nari Labs开源TTS模型Dia-1.6B：生成自然对话与非语言表达，支持声音克隆

多语言、多任务 ASR 模型Dolphin：支持东亚、南亚、东南亚和中东地区的 40 种东方语言，同时也支持 22 种中国方言

字节跳动与浙大联合发布轻量高效TTS模型MegaTTS3

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

新QoderWork

Fogsight (雾象)

ITELLOU

语音模型

网址

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

新QoderWork

Fogsight (雾象)

ITELLOU