Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

Roboflow 近日正式发布了 RF-DETR,一种基于Transformer的实时目标检测模型。RF-DETR 在多个现实世界数据集上的表现超越了所有现有的目标检测模型,并且是首个在 COCO 数据集基准测试中实现 60+ 平均精度(mAP)的实时模型。该模型采用开源 Apache 2.0 许可发布,为开发者提供强大的目标检测能力,特别是在计算资源有限的场景中。

该模型提供了两个版本:RF-DETR-base 和 RF-DETR-large。RF-DETR-base 参数量为 29M,适合资源受限的场景;而 RF-DETR-large 参数量为 128M,拥有更高的精度。

Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

RF-DETR 的核心优势

1. 卓越的性能

RF-DETR 在多个关键指标上表现出色:

  • COCO mAP:在 COCO 数据集上,RF-DETR-large 实现了 60.5 的 mAP,这是实时模型中的最高水平。
  • RF100-VL mAP:RF-DETR 在 RF100-VL 数据集上也表现出色,该数据集包含 100 个精选的开源数据集,涵盖了航空影像、工业场景、自然界、实验室成像等多个领域。
  • 速度:RF-DETR 在 T4 GPU 上的延迟表现优异,能够实现 25+ FPS 的实时性能。
Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

2. 领域适应性

RF-DETR 不仅在标准基准测试中表现出色,还特别强调领域适应性。它能够很好地适应各种领域和大小不一的数据集,这对于实际应用中的多样化场景至关重要。通过预训练的 DINOv2 骨干网络,RF-DETR 能够快速适应新领域,即使在数据量有限的情况下也能表现出色。

3. 灵活的模型尺寸

Roboflow 推出了两种模型尺寸:

  • RF-DETR-base:2900 万参数,适合资源受限的设备。
  • RF-DETR-large:1.28 亿参数,提供更高的精度和更强的适应能力。
Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

技术细节

1. 基于变换器的架构

RF-DETR 属于 DETR(检测变换器)模型家族,采用多尺度自注意力机制。它结合了现代 DETR 和预训练的最佳特性,通过将 LW-DETR 与预训练的 DINOv2 骨干网络结合,实现了卓越的性能和领域适应能力。

2. 多分辨率训练

RF-DETR 支持多种分辨率的训练,这意味着在运行时可以选择不同的分辨率,以在不重新训练模型的情况下权衡精度和延迟。这种灵活性使得 RF-DETR 能够适应不同的应用场景和硬件环境。

3. 预训练与微调

RF-DETR 提供了在 COCO 数据集上预训练的检查点,这些检查点可用于迁移学习,以使用自定义数据集微调模型。Roboflow 还准备了专用的 Colab 笔记本,逐步指导用户在自定义数据集上训练 RF-DETR 模型。

使用 RF-DETR

1. 预训练检查点

RF-DETR 提供了在 COCO 数据集上预训练的检查点,这些检查点可以直接用于迁移学习。用户可以使用这些检查点作为起点,通过微调来适应自己的数据集。

2. 微调工具

RF-DETR 提供了 rfdetr Python 包,用户可以使用该包在自定义数据集上进行微调。Roboflow 还准备了一个专用的 Colab 笔记本,详细指导用户如何进行微调。

3. Roboflow 平台支持

Roboflow 计划在未来几天内发布对 RF-DETR 的全面支持,包括训练、推理和部署。用户可以在 Roboflow 平台上使用自定义检查点,实现比基础 COCO 检查点更强的性能。

未来展望

根据社区反馈,Roboflow 计划在未来发布 RF-DETR 家族中的更多模型尺寸,以满足不同用户的需求。此外,Roboflow 还将全面支持使用 Inference 部署 RF-DETR 模型,并通过 Roboflow Workflows 构建包含用户训练模型的多步骤工作流。

© 版权声明

相关文章

暂无评论

none
暂无评论...