IDEA研究院(粤港澳大湾区数字经济研究院)推出先进模型系列Grounding DINO 1.5,旨在推动开放集对象检测技术的边界。开放集对象检测是一种计算机视觉任务,它要求模型能够识别图像中的对象,即使这些对象从未在训练数据中出现过。Grounding DINO 1.5系列模型通过结合Transformer架构和语言信息,提高了对象检测的准确性和效率,特别是在开放集检测方面取得了显著进展,并在多个基准测试中刷新了记录。
- 项目主页:https://deepdataspace.com/home
- GitHub:https://github.com/IDEA-Research/Grounding-DINO-1.5-API
- Demo:https://huggingface.co/spaces/Mountchicken/Grounding-DINO-1.5
主要功能:
Grounding DINO 1.5包含两个模型:Pro版本和Edge版本。
-
- Grounding DINO 1.5 Pro:这是一个高性能模型,设计用于在广泛的应用场景中提供更强的泛化能力。
- Grounding DINO 1.5 Edge:这是一个高效模型,针对需要在边缘设备上快速运行的应用进行了优化。
主要特点:
- 扩展模型架构:Pro版本通过扩展模型架构、集成增强的视觉后端,并扩大训练数据集,包含超过2000万张带有定位注释的图像,从而实现更丰富的语义理解。
- 高效特征增强:Edge版本设计了一种高效的特征增强器,只利用高级别图像特征,减少了需要处理的标记数量,显著降低了计算需求。
- 优化的推理速度:Edge版本在优化后能够达到75.2帧/秒的速度,同时保持了良好的检测性能,非常适合边缘计算场景。
工作原理:
- 双编码器单解码器结构:Grounding DINO 1.5系列保留了这种结构,并进行了扩展。Pro版本采用了更大的视觉变换器后端,而Edge版本则专注于计算效率。
- 早期融合策略:在特征提取阶段,通过语言和图像特征之间的交叉注意力机制,促进了更集成的信息融合。
- 高效的特征融合:Edge版本通过限制跨模态融合到高级别图像特征,并通过跨尺度特征融合模块整合低级别图像特征,有效平衡了特征增强和计算效率。
具体应用场景:
- 自动驾驶:在自动驾驶中,快速准确地检测车辆周围的对象至关重要。
- 医学图像处理:在医疗领域,模型可以用于检测和识别医学图像中的各种结构。
- 计算摄影:在计算摄影中,对象检测技术可以用于提高图像编辑和处理的自动化水平。
- 边缘设备:Edge版本由于其高效率,非常适合在边缘设备上运行,如智能手机、家庭安全摄像头等。
评论0