ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度

ElevenLabs 是一家专注于人工智能音频生成的初创公司,最近筹集了 1.8 亿美元的资金,估值达到 33 亿美元。以其高质量的声音合成技术而闻名,该公司现在正通过推出其首个独立的语音转文本模型 Scribe,进一步扩展其技术领域。这一举措标志着 ElevenLabs 进入了语音检测市场,与 Gladia、Speechmatics、AssemblyAI、Deepgram 和 OpenAI 的 Whisper 模型等公司展开竞争。

ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度

Scribe 的核心特点

1. 多语言支持

  • 支持超过 99 种语言:Scribe 在发布时提供了对全球多种语言的支持,使其成为一款适用于国际市场的强大工具。
  • 卓越准确度类别(词错误率 < 5%)
    • 包括英语(声称准确率高达 97%)、法语、德语、印地语、印度尼西亚语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语。
  • 其他语言分类
    • 高(5-10%)
    • 良好(10-20%)
    • 中等(25-50%)

2. 性能优越

  •  FLEURS 和 Common Voice 基准测试 中,Scribe 在多种语言上的表现优于 Google Gemini 2.0 Flash 和 Whisper Large V3,展示了其在语音转文本领域的竞争力。

3. 智能功能

  • 说话人分离:能够区分不同扬声器的声音,帮助用户了解谁在说话。
  • 单词级别时间戳:提供精确到单词级别的字幕时间戳,便于后续编辑和分析。
  • 声音事件标记:自动标记观众笑声等非语言声音事件,为转录内容增加更多上下文信息。

4. 应用场景

  • 视频字幕生成:客户可以直接通过 ElevenLabs 的工作室平台转录音频并添加字幕或说明文字。
  • 实时版本计划:虽然当前仅支持预先录制的音频格式,但 ElevenLabs 表示将很快推出低延迟的实时版本,以支持会议转录和语音笔记等功能。
ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度

定价策略

Scribe 的定价为 每小时转录音频 0.40 美元,在市场中具有一定的竞争力。然而,部分竞争对手目前提供的价格更低,尽管在功能上可能存在差异。例如:

  • Whisper:OpenAI 提供的开源模型,适合需要自定义部署的用户。
  • Speechmatics:提供多种定价方案,包括按需计费和企业级订阅。
© 版权声明

相关文章

暂无评论

none
暂无评论...