Cohere 开源自动语音识别(ASR)模型 Cohere Transcribe:20 亿参数跑赢巨头,消费级显卡即可部署

语音模型3小时前发布 小马良
3 0

在企业 AI 赛道深耕多年的 Cohere 今日正式进军语音领域,发布了其首款开源自动语音识别(ASR)模型——Cohere Transcribe(cohere-transcribe-03-2026)

  • 模型:https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
  • Demo:https://huggingface.co/spaces/CohereLabs/cohere-transcribe-03-2026

这款模型不仅以20 亿参数的轻量级身姿实现了惊人的性能,更在 Hugging Face 的 Open ASR 排行榜上击败了 Zoom、IBM、ElevenLabs 等巨头的同类产品,平均词错误率(WER)低至 5.42%。更重要的是,它专为本地化部署设计,让用户仅需消费级显卡即可拥有企业级的语音转写能力。

Cohere 开源自动语音识别(ASR)模型 Cohere Transcribe:20 亿参数跑赢巨头,消费级显卡即可部署

核心亮点:小身材,大能量

1. 性能霸榜,超越巨头

在权威的 Hugging Face Open ASR 基准测试中,Cohere Transcribe 展现了统治级表现:

  • 平均 WER 5.42%:低于榜单上所有其他模型。
  • 击败对手:性能优于 Zoom Scribe v1IBM Granite 4.0 1BElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B
  • 人类评估胜率 61%:在准确性、连贯性和可用性三项指标的人类盲测中,超过六成的评估员认为 Cohere 的表现最佳。
    • 注:在葡萄牙语、德语和西班牙语上略逊于部分竞品,但在英语、中文、日语等主流语言上表现卓越。

2. 极速推理,效率惊人

  • 处理速度:每分钟可处理高达 525 分钟 的音频内容。这意味着转写一部 2 小时的会议录音,理论上仅需不到 15 秒的 GPU 计算时间。
  • 长音频优化:内置智能分块机制,model.transcribe() 方法可自动处理超长音频,无需开发者手动切割。

3. 轻量部署,普惠开发者

  • 参数量:仅 **2B **(20 亿),远低于同类高性能模型。
  • 硬件门槛低:可在单张消费级 GPU(如 RTX 3090/4090)上流畅运行,极大降低了企业私有化部署的成本。
  • 开源协议:采用 Apache 2.0 许可证,无附加条款,允许商业免费使用、修改和分发。

多语言支持与架构揭秘

支持 14 种全球主流语言

模型原生支持包括:英语、中文、日语、韩语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、越南语、希腊语、荷兰语、波兰语

技术架构:Conformer + Transformer

Cohere Transcribe 采用了混合架构以兼顾精度与速度:

  1. 音频预处理:自动重采样至 16kHz,多声道混音为单声道。
  2. Conformer 编码器:基于针对语音优化的 Conformer 架构,将音频波形转换为梅尔频谱图并提取深层特征。
  3. 轻量级 Transformer 解码器:接收编码特征,高效生成文本 Token。
  4. 训练策略:使用标准的监督交叉熵损失函数进行端到端训练。

生态整合与商业化前景

Cohere 并未将 Transcribe 仅仅作为一个独立模型发布,而是将其深度融入自身的企业 AI 生态:

  • North 平台集成:将作为核心组件嵌入 Cohere 的企业智能体编排平台 North,赋能笔记记录、会议分析、客服质检等场景。
  • API 免费开放:通过 Cohere API 免费提供调用服务,降低开发者接入门槛。
  • Model Vault 托管:在其托管推理平台 Model Vault 上可直接部署使用。

商业信号

此次发布正值 Cohere 商业化加速的关键期。据报道,公司 2025 年年度经常性收入(ARR)已达 2.4 亿美元,CEO Aidan Gomez 暗示上市计划“很快”启动。Transcribe 的推出,补齐了 Cohere 在“语音输入”这一关键模态的短板,使其成为继文本、 Embedding 之后的又一强力增长极。

© 版权声明

相关文章

暂无评论

none
暂无评论...