ElevenLabs 是一家专注于人工智能音频生成的初创公司,最近筹集了 1.8 亿美元的资金,估值达到 33 亿美元。以其高质量的声音合成技术而闻名,该公司现在正通过推出其首个独立的语音转文本模型 Scribe,进一步扩展其技术领域。这一举措标志着 ElevenLabs 进入了语音检测市场,与 Gladia、Speechmatics、AssemblyAI、Deepgram 和 OpenAI 的 Whisper 模型等公司展开竞争。

Scribe 的核心特点
1. 多语言支持
- 支持超过 99 种语言:Scribe 在发布时提供了对全球多种语言的支持,使其成为一款适用于国际市场的强大工具。
- 卓越准确度类别(词错误率 < 5%):
- 包括英语(声称准确率高达 97%)、法语、德语、印地语、印度尼西亚语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语。
- 其他语言分类:
- 高(5-10%)
- 良好(10-20%)
- 中等(25-50%)
2. 性能优越
- 在 FLEURS 和 Common Voice 基准测试 中,Scribe 在多种语言上的表现优于 Google Gemini 2.0 Flash 和 Whisper Large V3,展示了其在语音转文本领域的竞争力。
3. 智能功能
- 说话人分离:能够区分不同扬声器的声音,帮助用户了解谁在说话。
- 单词级别时间戳:提供精确到单词级别的字幕时间戳,便于后续编辑和分析。
- 声音事件标记:自动标记观众笑声等非语言声音事件,为转录内容增加更多上下文信息。
4. 应用场景
- 视频字幕生成:客户可以直接通过 ElevenLabs 的工作室平台转录音频并添加字幕或说明文字。
- 实时版本计划:虽然当前仅支持预先录制的音频格式,但 ElevenLabs 表示将很快推出低延迟的实时版本,以支持会议转录和语音笔记等功能。

定价策略
Scribe 的定价为 每小时转录音频 0.40 美元,在市场中具有一定的竞争力。然而,部分竞争对手目前提供的价格更低,尽管在功能上可能存在差异。例如:
- Whisper:OpenAI 提供的开源模型,适合需要自定义部署的用户。
- Speechmatics:提供多种定价方案,包括按需计费和企业级订阅。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...