在10月1日的DevDay活动中,OpenAI宣布了一项重大更新:推出了Whisper large-v3-turbo语音转录模型。这款新模型在保持质量几乎不变的前提下,处理速度比之前的large-v3模型快了8倍。
- GitHub:https://github.com/openai/whisper/discussions/2363
- 模型下载:https://huggingface.co/openai/whisper-large-v3-turbo
- 在线体验:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo
模型特点
- 参数数量:Whisper large-v3-turbo拥有8.09亿参数,略高于medium模型的7.69亿参数,但远小于large模型的15.5亿参数。
- 解码器层数:与large-v3的32层解码器层相比,新模型仅包含4层解码器层,这可能是其速度提升的关键因素之一。
- 处理速度:OpenAI声称,Whisper large-v3-turbo的速度比large模型快8倍,这对于需要快速转录大量语音数据的用户来说是一个巨大的优势。
- 资源需求:新模型的VRAM需求为6GB,相比之下,large模型需要10GB,这使得large-v3-turbo更适合资源有限的环境。
- 模型大小:Whisper large-v3-turbo的模型大小为1.6GB,这为用户提供了一种更轻量级的解决方案。
许可与获取
OpenAI继续以MIT许可证的形式提供Whisper模型,包括代码和模型权重,这意味着用户可以自由地使用、复制、修改和分发该模型,无论是个人还是商业用途。
评论0