艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

语音模型3个月前发布 小马良
96 0

在自动语音识别(ASR)领域,Whisper 一直是开源社区的标杆——强大、鲁棒、支持零样本迁移。但它有一个根本局限:训练数据未公开,模型行为难以分析,也无法完全复现。

现在,艾伦人工智能研究所(AI2)推出了一个全新的开源 ASR 模型家族:OLMoASR。它不仅性能对标 Whisper,更重要的是——从数据到代码,每一层都彻底开放

这不是另一个“开源权重”的项目,而是一次对 ASR 研究基础设施的重新定义。

艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

什么是 OLMoASR?

OLMoASR 是由 AI2 开发的一系列端到端英文语音识别模型,全部从零开始训练,目标是实现与 Whisper 相当甚至更优的零样本(zero-shot)表现,同时确保完全可复现、可审计、可改进

其核心理念是:

开放,不应止于模型权重。

因此,OLMoASR 公开了整个技术栈:

  • ✅ 模型权重
  • ✅ 训练代码与超参配置
  • ✅ 评估脚本与测试集处理流程
  • ✅ 最关键的:训练数据集本身

这在当前主流 ASR 项目中极为罕见。

艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

模型家族:覆盖多尺度需求

AI2 发布了六个初始模型,参数规模从 3900 万到 15 亿不等,满足不同场景需求:

模型参数量特点
OLMoASR-tiny.en39M轻量级,适合边缘设备
OLMoASR-base.en74M小模型高效率
OLMoASR-small.en244M平衡性能与资源消耗
OLMoASR-medium.en769M主流性能段位
OLMoASR-large.en-v11.5B训练于 44 万小时音频
OLMoASR-large.en-v21.5B训练于 68 万小时音频,与 Whisper-large-v1 相当

所有模型均专注于英语语音识别,采用统一架构设计,便于横向对比与研究。

性能表现:媲美 Whisper,部分场景更优

为验证模型鲁棒性,团队在 21 个多样化测试集上进行了评估,涵盖:

  • 有声书、播客、电话录音
  • 会议记录、讲座、访谈
  • 多种口音、语速与背景噪声

结果表明:

  • OLMoASR-medium.en 在短语音任务中达到 12.8% WER,长语音为 11.0% WER,与同规模 Whisper 模型性能相当
  • OLMoASR-large.en-v2(68万小时训练)将与 Whisper-large-v1 的 WER 差距缩小至 仅 0.4%
  • 小模型如 tiny 和 base 在长语音任务中表现优于 Whisper 对应版本

这意味着:即使不依赖多语言数据或私有语料,纯英语专用模型也能达到顶尖水平

真正的创新:数据优先的开放策略

OLMoASR 的最大突破不在模型结构,而在数据构建方式

数据来源:300万小时原始音频池(OLMoASR-Pool)

  • 来自公开网络资源
  • 包含约 1700 万条音频-文本对
  • 覆盖广泛语音类型,但包含大量噪声

多阶段过滤:提炼出高质量子集(OLMoASR-Mix)

通过严格的数据清洗流程,最终构建出 100 万小时高质量音频-文本对,关键步骤包括:

  1. 语言对齐:移除音频与文本语言不符的样本
  2. 去噪处理:过滤机器生成的全大写转录、重复行
  3. 忠实度筛选:基于自动对齐质量(WER)剔除低信噪比片段

这套流程完全开源,允许研究者分析每一步对最终性能的影响。

为什么“开放数据”如此重要?

许多现有开源 ASR 模型(如 Distil-Whisper、Parakeet)虽然发布了模型,但训练数据仍模糊不清。这导致:

  • 无法判断性能提升来自数据还是架构
  • 难以复现实验结果
  • 无法针对性改进数据偏差

OLMoASR 改变了这一点。它提供了一个可控的实验平台,让研究者可以:

  • 测试不同过滤策略的效果
  • 分析数据质量对泛化能力的影响
  • 构建更公平的评估基准

正如 AI2 所强调:数据质量与规模同等重要。OLMoASR 用实证证明了这一点。

完全开放的技术栈

OLMoASR 不只是一个模型发布,而是一个完整的开放研究平台,公开内容包括:

  • 📁 OLMoASR-Pool:原始 300 万小时数据索引
  • 🧹 数据处理与过滤代码:完整清洗流水线
  • 🧠 模型权重与训练管道:支持复现训练过程
  • 📊 评估代码与脚本:统一测试框架

所有资源均可在 Hugging Face 和 AI2 官网获取。

© 版权声明

相关文章

暂无评论

none
暂无评论...