OpenAI 推出更快的语音转录模型Whisper large-v3-turbo,不牺牲质量、速度提升8 倍

在10月1日的DevDay活动中,OpenAI宣布了一项重大更新:推出了Whisper large-v3-turbo语音转录模型。这款新模型在保持质量几乎不变的前提下,处理速度比之前的large-v3模型快了8倍。

模型特点

  • 参数数量:Whisper large-v3-turbo拥有8.09亿参数,略高于medium模型的7.69亿参数,但远小于large模型的15.5亿参数。
  • 解码器层数:与large-v3的32层解码器层相比,新模型仅包含4层解码器层,这可能是其速度提升的关键因素之一。
  • 处理速度:OpenAI声称,Whisper large-v3-turbo的速度比large模型快8倍,这对于需要快速转录大量语音数据的用户来说是一个巨大的优势。
  • 资源需求:新模型的VRAM需求为6GB,相比之下,large模型需要10GB,这使得large-v3-turbo更适合资源有限的环境。
  • 模型大小:Whisper large-v3-turbo的模型大小为1.6GB,这为用户提供了一种更轻量级的解决方案。

许可与获取

OpenAI继续以MIT许可证的形式提供Whisper模型,包括代码和模型权重,这意味着用户可以自由地使用、复制、修改和分发该模型,无论是个人还是商业用途。

0

评论0

没有账号?注册  忘记密码?