语音识别

排序

发布更新浏览点赞

ComfyUI-QwenASR：轻量可靠的语音转文本自定义节点，支持长音频处理与精准字幕生成

ComfyUI-QwenASR是一款专为Qwen3-ASR（自动语音识别）模型打造的ComfyUI自定义节点包，核心定位是为ComfyUI用户提供简单、可靠、高效的语音转文本及字幕生成工作流，无需复杂...

插件 # ComfyUI-QwenASR # Qwen3-ASR # 语音识别

2个月前

0260

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别（ASR）模型，专为实时英语转录场景设计。它同时支持低延迟...

语音模型 # Nemotron-Speech-Streaming-En-0.6B # 英伟达 # 语音识别

3个月前

0290

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

Meta AI 近日发布了 Omnilingual ASR——一套开源、可扩展的多语言自动语音识别（ASR）系统，支持 1600 多种语言，并能通过零样本上下文学习泛化到超过 5400 种语言，包括...

语音模型 # Meta # Omnilingual ASR # 语音识别

5个月前

01220

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio，专为多种音频任务设计，包括语音识别（ASR）、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品，Aero-1-Audi...

语音模型 # Aero-1-Audio # LMMs-Lab # 语音识别

11个月前

06600

多语言、多任务 ASR 模型Dolphin：支持东亚、南亚、东南亚和中东地区的 40 种东方语言，同时也支持 22 种中国方言

近年来，自动语音识别（ASR）技术取得了显著进展，这主要得益于模型架构的改进和大规模数据集的可用性。然而，现有的多语言 ASR 模型（如 Whisper）在处理东方语言时表现不佳，且存在可重复性问题 ...

语音模型 # ASR 模型 # Dolphin # 语音识别

1年前

07500

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

ElevenLabs 是一家专注于人工智能音频生成的初创公司，最近筹集了 1.8 亿美元的资金，估值达到 33 亿美元。以其高质量的声音合成技术而闻名，该公司现在正通过推出其首个独立的语音转文本模型 ...

语音模型 # ElevenLabs # Scribe # 语音识别

1年前

03000

没有了

ComfyUI-QwenASR：轻量可靠的语音转文本自定义节点，支持长音频处理与精准字幕生成

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

多语言、多任务 ASR 模型Dolphin：支持东亚、南亚、东南亚和中东地区的 40 种东方语言，同时也支持 22 种中国方言

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

S.H.I.T

ITELLOU

waoo

OpResume

Immich

OpenMAIC

语音识别

ComfyUI-QwenASR：轻量可靠的语音转文本自定义节点，支持长音频处理与精准字幕生成

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

多语言、多任务 ASR 模型Dolphin：支持东亚、南亚、东南亚和中东地区的 40 种东方语言，同时也支持 22 种中国方言

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

网址

S.H.I.T

ITELLOU

waoo

OpResume

Immich

OpenMAIC