在企业 AI 赛道深耕多年的 Cohere 今日正式进军语音领域,发布了其首款开源自动语音识别(ASR)模型——Cohere Transcribe(cohere-transcribe-03-2026)。
- 模型:https://huggingface.co/CohereLabs/cohere-transcribe-03-2026
- Demo:https://huggingface.co/spaces/CohereLabs/cohere-transcribe-03-2026
这款模型不仅以20 亿参数的轻量级身姿实现了惊人的性能,更在 Hugging Face 的 Open ASR 排行榜上击败了 Zoom、IBM、ElevenLabs 等巨头的同类产品,平均词错误率(WER)低至 5.42%。更重要的是,它专为本地化部署设计,让用户仅需消费级显卡即可拥有企业级的语音转写能力。

核心亮点:小身材,大能量
1. 性能霸榜,超越巨头
在权威的 Hugging Face Open ASR 基准测试中,Cohere Transcribe 展现了统治级表现:
- 平均 WER 5.42%:低于榜单上所有其他模型。
- 击败对手:性能优于 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B。
- 人类评估胜率 61%:在准确性、连贯性和可用性三项指标的人类盲测中,超过六成的评估员认为 Cohere 的表现最佳。
- 注:在葡萄牙语、德语和西班牙语上略逊于部分竞品,但在英语、中文、日语等主流语言上表现卓越。
2. 极速推理,效率惊人
- 处理速度:每分钟可处理高达 525 分钟 的音频内容。这意味着转写一部 2 小时的会议录音,理论上仅需不到 15 秒的 GPU 计算时间。
- 长音频优化:内置智能分块机制,
model.transcribe()方法可自动处理超长音频,无需开发者手动切割。
3. 轻量部署,普惠开发者
- 参数量:仅 **2B **(20 亿),远低于同类高性能模型。
- 硬件门槛低:可在单张消费级 GPU(如 RTX 3090/4090)上流畅运行,极大降低了企业私有化部署的成本。
- 开源协议:采用 Apache 2.0 许可证,无附加条款,允许商业免费使用、修改和分发。
多语言支持与架构揭秘
支持 14 种全球主流语言
模型原生支持包括:英语、中文、日语、韩语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、越南语、希腊语、荷兰语、波兰语。
技术架构:Conformer + Transformer
Cohere Transcribe 采用了混合架构以兼顾精度与速度:
- 音频预处理:自动重采样至 16kHz,多声道混音为单声道。
- Conformer 编码器:基于针对语音优化的 Conformer 架构,将音频波形转换为梅尔频谱图并提取深层特征。
- 轻量级 Transformer 解码器:接收编码特征,高效生成文本 Token。
- 训练策略:使用标准的监督交叉熵损失函数进行端到端训练。
生态整合与商业化前景
Cohere 并未将 Transcribe 仅仅作为一个独立模型发布,而是将其深度融入自身的企业 AI 生态:
- North 平台集成:将作为核心组件嵌入 Cohere 的企业智能体编排平台 North,赋能笔记记录、会议分析、客服质检等场景。
- API 免费开放:通过 Cohere API 免费提供调用服务,降低开发者接入门槛。
- Model Vault 托管:在其托管推理平台 Model Vault 上可直接部署使用。
商业信号:
此次发布正值 Cohere 商业化加速的关键期。据报道,公司 2025 年年度经常性收入(ARR)已达 2.4 亿美元,CEO Aidan Gomez 暗示上市计划“很快”启动。Transcribe 的推出,补齐了 Cohere 在“语音输入”这一关键模态的短板,使其成为继文本、 Embedding 之后的又一强力增长极。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















