IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5：推动开放集对象检测技术的边界

450 0

IDEA研究院（粤港澳大湾区数字经济研究院）推出先进模型系列Grounding DINO 1.5，旨在推动开放集对象检测技术的边界。开放集对象检测是一种计算机视觉任务，它要求模型能够识别图像中的对象，即使这些对象从未在训练数据中出现过。Grounding DINO 1.5系列模型通过结合Transformer架构和语言信息，提高了对象检测的准确性和效率，特别是在开放集检测方面取得了显著进展，并在多个基准测试中刷新了记录。

项目主页：https://deepdataspace.com/home
GitHub：https://github.com/IDEA-Research/Grounding-DINO-1.5-API
Demo：https://huggingface.co/spaces/Mountchicken/Grounding-DINO-1.5

IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5：推动开放集对象检测技术的边界

主要功能：

Grounding DINO 1.5包含两个模型：Pro版本和Edge版本。

- Grounding DINO 1.5 Pro：这是一个高性能模型，设计用于在广泛的应用场景中提供更强的泛化能力。
- Grounding DINO 1.5 Edge：这是一个高效模型，针对需要在边缘设备上快速运行的应用进行了优化。

主要特点：

扩展模型架构：Pro版本通过扩展模型架构、集成增强的视觉后端，并扩大训练数据集，包含超过2000万张带有定位注释的图像，从而实现更丰富的语义理解。
高效特征增强：Edge版本设计了一种高效的特征增强器，只利用高级别图像特征，减少了需要处理的标记数量，显著降低了计算需求。
优化的推理速度：Edge版本在优化后能够达到75.2帧/秒的速度，同时保持了良好的检测性能，非常适合边缘计算场景。

工作原理：

双编码器单解码器结构：Grounding DINO 1.5系列保留了这种结构，并进行了扩展。Pro版本采用了更大的视觉变换器后端，而Edge版本则专注于计算效率。
早期融合策略：在特征提取阶段，通过语言和图像特征之间的交叉注意力机制，促进了更集成的信息融合。
高效的特征融合：Edge版本通过限制跨模态融合到高级别图像特征，并通过跨尺度特征融合模块整合低级别图像特征，有效平衡了特征增强和计算效率。

具体应用场景：