语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

ElevenLabs 是一家专注于人工智能音频生成的初创公司，最近筹集了 1.8 亿美元的资金，估值达到 33 亿美元。以其高质量的声音合成技术而闻名，该公司现在正通过推出其首个独立的语音转文本模型 ...

1年前

02980

西北工业大学开源语音理解模型OSUM

近年来，大语言模型（LLMs）在自然语言处理领域取得了显著进展，这启发了业界对语音理解语言模型（Speech Understanding Language Models, SULMs）的开发。SULM...

语音模型 # OSUM # 西北工业大学 # 语音理解模型

1年前

04420

阶跃星辰开源面向智能语音交互的框架Step-Audio：1300 亿参数的统一语音-文本多模态模型，能够实现语音理解与生成的统一

阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio，旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语...

语音模型 # Step-Audio # 语音-文本多模态模型 # 语音交互

1年前

03460

Zyphra开源支持高保真语音克隆的实时文本转语音（TTS）模型 Zonos-v0.1 测试版

Zyphra 最近发布了 Zonos-v0.1 测试版，这是一款支持高保真语音克隆的实时文本转语音（TTS）模型。作为开源项目的一部分，Zonos-v0.1 包含两个强大的 TTS 模型：一个 16 ...

语音模型 # TTS模型 # Zonos-v0.1

1年前

02450

香港科技大学推出歌词生成音乐模型YuE

香港科技大学的研究团队近期在探索从给定歌词生成完整歌曲音频的领域取得了重要进展，这一过程被称为“歌词到歌曲”（lyrics2song）。尽管基于文本条件的音乐生成模型在创作非人声音乐短片段方面已经展现...

语音模型 # AI音乐 # YuE

1年前

02720

Llasa：基于LLaMA语言模型的先进文本转语音（TTS）系统

文本转语音（TTS）技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加，市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而，传统...

语音模型 # Llasa # TTS

1年前

06700

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

Kokoro是一款先进的文本转语音（TTS）模型，以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro，其模型大小不超过300M，却能生成高质量的音频输出。特别值得一...

语音模型 # Kokoro-82M # TTS

1年前

03,5310

开源多模态视频语音大模型VITA-1.5：基于Qwen2.5模型，实现接近实时的视觉和语音交互能力

随着多模态大语言模型（MLLMs）的发展，如何有效地整合视觉、语言和语音成为了人工智能领域面临的一个重要挑战。VITA-1.5 是由南京大学（NJU）、腾讯优图实验室（Tencent Youtu La...

语音模型 # Qwen2.5模型 # VITA-1.5

1年前

03410

端到端唇音同步框架LatentSync：可以分析新的音频信号，并生成与音频同步的口型

字节跳动与北京交通大学的研究团队共同提出了一种名为LatentSync的新方法，旨在解决唇音同步的问题。这一框架利用了Stable Diffusion的强大能力，通过一个端到端的流程直接建模复杂的音视...

语音模型 # LatentSync # 唇音同步

1年前

03920

文本到音频生成模型TANGOFLUX：从文本描述中快速、忠实地生成高质量的音频内容

随着人工智能技术的发展，文本到音频（TTA）生成模型正在逐渐改变我们与数字内容互动的方式。然而，创建高质量且自然的音频输出仍然是一个复杂的技术挑战，尤其是在对齐模型以产生符合人类期望的音频方面。新加坡...

语音模型 # TANGOFLUX # 文本到音频生成模型

7个月前

03520

Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B

音频语言模型（ALMs）在各种应用中发挥着关键作用，包括实时转录、翻译、语音控制系统和辅助技术。然而，许多现有解决方案面临高延迟、大量计算需求以及依赖云端处理等限制。这些问题对边缘部署提出了挑战，因为...

语音模型 # OmniAudio-2.6B

1年前

02800

通义语音团队推出语音生成模型CosyVoice 2：提升了多语言语音合成的质量、响应速度和实时性能

阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上，推出了全新的 CosyVoice 2。该模型通过一系列优化和创新，显著提升了多语言语音合成的质量、响应速度和实时性能。CosyV...

语音模型 # CosyVoice 2 # 语音生成模型

1年前

02880

加载更多