语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阶跃星辰开源面向智能语音交互的框架Step-Audio：1300 亿参数的统一语音-文本多模态模型，能够实现语音理解与生成的统一

阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio，旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语...

12个月前

03420

Zyphra开源支持高保真语音克隆的实时文本转语音（TTS）模型 Zonos-v0.1 测试版

Zyphra 最近发布了 Zonos-v0.1 测试版，这是一款支持高保真语音克隆的实时文本转语音（TTS）模型。作为开源项目的一部分，Zonos-v0.1 包含两个强大的 TTS 模型：一个 16 ...

语音模型 # TTS模型 # Zonos-v0.1

12个月前

02420

OpenAI 推出更快的语音转录模型Whisper large-v3-turbo，不牺牲质量、速度提升8 倍

在10月1日的DevDay活动中，OpenAI宣布了一项重大更新：推出了Whisper large-v3-turbo语音转录模型。这款新模型在保持质量几乎不变的前提下，处理速度比之前的large-v3...

语音模型 # OpenAI # Whisper large-v3-turbo # 语音转录模型

12个月前

06800

Rev推出开源自动语音识别模型Reverb和话者分离模型

Rev 最近宣布开源其尖端的 Reverb 自动语音识别 (ASR) 和话者分离模型。经过 200,000 小时高质量人工转录的英语语音训练，Reverb 在长篇语音识别领域中表现出色，超越了所有现有...

语音模型 # Reverb # 话者分离模型 # 语音识别模型

12个月前

07520

Useful开源自动语音识别 (ASR) 模型Moonshine：专门针对实时转录和语音命令处理进行了优化

Useful开源了一款名为 Moonshine 的全新语音转文本模型。这款模型不仅在速度和效率上超越了目前最领先的 OpenAI 的 Whisper 模型，而且在准确率方面也达到了同等水平甚至更优。M...

语音模型 # Moonshine # 语音识别模型

12个月前

06650

aiOla发布了集成命名实体识别（NER）和自动语音识别（ASR）的新型模型WhisperNER

语音识别技术在过去几年取得了显著进展，AI的进步大大提高了其可访问性和准确性。然而，该技术仍面临一些挑战，特别是在理解和转录人名、地点和特定术语等口语实体方面。这些挑战不仅在于准确地将语音转换为文本...

语音模型 # aiOla # WhisperNER # 自动语音识别

12个月前

03390

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

FishSpeech v1.5 是一款功能强大的文本到语音（TTS）模型，具备多语言支持、零样本即时语音克隆、低延迟等特性。该模型拥有仅5亿参数，却能够在多种语言之间无缝切换，并提供高质量的语音合成效...

语音模型 # FishSpeech v1.5 # TTS模型

12个月前

04790

阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio：支持语音增强、分离和目标说话人提取

在当今的音频环境中，清晰沟通面临诸多挑战。背景噪音、重叠对话以及音频和视频信号的混合等因素常常破坏了沟通的清晰度和理解力。这些问题不仅影响个人通话，还波及专业会议和内容制作等场景。尽管音频技术有所进步...

语音模型 # ClearerVoice-Studio # 阿里巴巴

12个月前

03200

MMAudio：基于多模态联合训练的同步音频生成系统

近年来，多模态生成模型在图像、视频和文本等领域取得了显著进展，但将视觉和文本信息与音频生成结合的任务仍然具有挑战性。传统的音频生成方法通常依赖于单一模态（如仅基于文本或仅基于视频），难以实现高质量的音...

语音模型 # MMAudio # 音频生成

12个月前

03020

通义语音团队推出语音生成模型CosyVoice 2：提升了多语言语音合成的质量、响应速度和实时性能

阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上，推出了全新的 CosyVoice 2。该模型通过一系列优化和创新，显著提升了多语言语音合成的质量、响应速度和实时性能。CosyV...

语音模型 # CosyVoice 2 # 语音生成模型

12个月前

02860

Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B

音频语言模型（ALMs）在各种应用中发挥着关键作用，包括实时转录、翻译、语音控制系统和辅助技术。然而，许多现有解决方案面临高延迟、大量计算需求以及依赖云端处理等限制。这些问题对边缘部署提出了挑战，因为...

语音模型 # OmniAudio-2.6B

12个月前

02780

端到端唇音同步框架LatentSync：可以分析新的音频信号，并生成与音频同步的口型

字节跳动与北京交通大学的研究团队共同提出了一种名为LatentSync的新方法，旨在解决唇音同步的问题。这一框架利用了Stable Diffusion的强大能力，通过一个端到端的流程直接建模复杂的音视...

语音模型 # LatentSync # 唇音同步

12个月前

03880

加载更多

阶跃星辰开源面向智能语音交互的框架Step-Audio：1300 亿参数的统一语音-文本多模态模型，能够实现语音理解与生成的统一

Zyphra开源支持高保真语音克隆的实时文本转语音（TTS）模型 Zonos-v0.1 测试版

OpenAI 推出更快的语音转录模型Whisper large-v3-turbo，不牺牲质量、速度提升8 倍

Rev推出开源自动语音识别模型Reverb和话者分离模型

Useful开源自动语音识别 (ASR) 模型Moonshine：专门针对实时转录和语音命令处理进行了优化

aiOla发布了集成命名实体识别（NER）和自动语音识别（ASR）的新型模型WhisperNER

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio：支持语音增强、分离和目标说话人提取

MMAudio：基于多模态联合训练的同步音频生成系统

通义语音团队推出语音生成模型CosyVoice 2：提升了多语言语音合成的质量、响应速度和实时性能

Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B

端到端唇音同步框架LatentSync：可以分析新的音频信号，并生成与音频同步的口型

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

CutCut

Fogsight (雾象)

语音模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

CutCut

Fogsight (雾象)