OpenAI 推出更快的语音转录模型Whisper large-v3-turbo，不牺牲质量、速度提升8 倍

语音模型2个月前更新小马良

490 0

在10月1日的DevDay活动中，OpenAI宣布了一项重大更新：推出了Whisper large-v3-turbo 语音转录模型。这款新模型在保持质量几乎不变的前提下，处理速度比之前的large-v3模型快了8倍。

GitHub：https://github.com/openai/whisper/discussions/2363
模型下载：https://huggingface.co/openai/whisper-large-v3-turbo
在线体验：https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

OpenAI 推出更快的语音转录模型Whisper large-v3-turbo，不牺牲质量、速度提升8 倍

模型特点

参数数量：Whisper large-v3-turbo拥有8.09亿参数，略高于medium模型的7.69亿参数，但远小于large模型的15.5亿参数。
解码器层数：与large-v3的32层解码器层相比，新模型仅包含4层解码器层，这可能是其速度提升的关键因素之一。
处理速度：OpenAI声称，Whisper large-v3-turbo的速度比large模型快8倍，这对于需要快速转录大量语音数据的用户来说是一个巨大的优势。
资源需求：新模型的VRAM需求为6GB，相比之下，large模型需要10GB，这使得large-v3-turbo更适合资源有限的环境。
模型大小：Whisper large-v3-turbo的模型大小为1.6GB，这为用户提供了一种更轻量级的解决方案。

许可与获取

OpenAI继续以MIT许可证的形式提供Whisper模型，包括代码和模型权重，这意味着用户可以自由地使用、复制、修改和分发该模型，无论是个人还是商业用途。

语音模型 # OpenAI # Whisper large-v3-turbo # 语音转录模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

OpenAI宣布领导层调整：萨姆·奥尔特曼转向技术核心

OpenAI宣布领导层调整：萨姆·奥尔特曼转向技术核心

早报 # OpenAI # 萨姆·奥尔特曼

2周前

0470

MMAudio：基于多模态联合训练的同步音频生成系统

MMAudio：基于多模态联合训练的同步音频生成系统

语音模型 # MMAudio # 音频生成

2个月前

01630

ChatGPT Canvas功能的开源平替方案大合集

ChatGPT Canvas功能的开源平替方案大合集

AI合集 # canvas # Open Canvas # OpenAI

6个月前

03830

Useful开源自动语音识别 (ASR) 模型Moonshine：专门针对实时转录和语音命令处理进行了优化

Useful开源自动语音识别 (ASR) 模型Moonshine：专门针对实时转录和语音命令处理进行了优化

语音模型 # Moonshine # 语音识别模型

2个月前

04150

暂无评论

none

暂无评论...