ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

语音模型1年前发布小马良

300 0

ElevenLabs 是一家专注于人工智能音频生成的初创公司，最近筹集了 1.8 亿美元的资金，估值达到 33 亿美元。以其高质量的声音合成技术而闻名，该公司现在正通过推出其首个独立的语音转文本模型 Scribe，进一步扩展其技术领域。这一举措标志着 ElevenLabs 进入了语音检测市场，与 Gladia、Speechmatics、AssemblyAI、Deepgram 和 OpenAI 的 Whisper 模型等公司展开竞争。

地址：https://elevenlabs.io/speech-to-text

Scribe 的核心特点

1. 多语言支持

支持超过 99 种语言：Scribe 在发布时提供了对全球多种语言的支持，使其成为一款适用于国际市场的强大工具。
卓越准确度类别（词错误率 < 5%）：
- 包括英语（声称准确率高达 97%）、法语、德语、印地语、印度尼西亚语、日语、卡纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语。
其他语言分类：
- 高（5-10%）
- 良好（10-20%）
- 中等（25-50%）

2. 性能优越

在 FLEURS 和 Common Voice 基准测试 中，Scribe 在多种语言上的表现优于 Google Gemini 2.0 Flash 和 Whisper Large V3，展示了其在语音转文本领域的竞争力。

3. 智能功能

说话人分离：能够区分不同扬声器的声音，帮助用户了解谁在说话。
单词级别时间戳：提供精确到单词级别的字幕时间戳，便于后续编辑和分析。
声音事件标记：自动标记观众笑声等非语言声音事件，为转录内容增加更多上下文信息。

4. 应用场景

视频字幕生成：客户可以直接通过 ElevenLabs 的工作室平台转录音频并添加字幕或说明文字。
实时版本计划：虽然当前仅支持预先录制的音频格式，但 ElevenLabs 表示将很快推出低延迟的实时版本，以支持会议转录和语音笔记等功能。

定价策略

Scribe 的定价为 每小时转录音频 0.40 美元，在市场中具有一定的竞争力。然而，部分竞争对手目前提供的价格更低，尽管在功能上可能存在差异。例如：

Whisper：OpenAI 提供的开源模型，适合需要自定义部署的用户。
Speechmatics：提供多种定价方案，包括按需计费和企业级订阅。

语音模型 # ElevenLabs # Scribe # 语音识别 # 语音转文本

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Vui：轻量级、可本地运行的开源对话语音模型

Vui：轻量级、可本地运行的开源对话语音模型

语音模型 # Vui # 对话语音模型

10个月前

03770

谷歌发布全新音乐模型 Lyria 3：已集成到Gemini，输入文字或图片，30 秒生成原创音乐

谷歌发布全新音乐模型 Lyria 3：已集成到Gemini，输入文字或图片，30 秒生成原创音乐

早报语音模型 # Lyria 3 # 谷歌 # 音乐模型

1个月前

0330

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

语音模型 # FishSpeech v1.5 # TTS模型

1年前

04920

开源应用 X-to-Voice：通过分析 X个人资料生成自定义的声音和动画头像

开源应用 X-to-Voice：通过分析 X个人资料生成自定义的声音和动画头像

工具 # ElevenLabs # X-to-Voice

1年前

04630

暂无评论

none

暂无评论...