Inst-IT:增强大型多模态模型实例级理解能力

复旦大学计算机学院、上海创新学院和华为诺亚方舟实验室的研究人员提出了Inst-IT,这是一种通过明确的视觉提示指令调优来增强大型多模态模型(LMMs)实例级理解能力的解决方案。尽管现有的LMMs在整体层面上能够理解图像和视频,但在需要更细致理解和对齐的实例级理解方面仍面临挑战。Inst-IT通过引入一系列创新机制,显著提升了LMMs在这一领域的表现。

例如,我们有一段视频,视频中有几个人在一个正式场合中互动。使用INST-IT系统,我们可以更准确地识别出视频中的每个人(实例),他们的动作(如握手、交谈),以及他们随时间的变化(例如,一个人从画面中离开,或者两个人开始互动)。这与传统的模型相比,后者可能只能识别出场景的一般特征,而无法捕捉到这些细微的实例级细节。

主要功能和特点

  • 实例级理解:INST-IT能够理解图像和视频中特定实例的属性和它们之间的动态关系。
  • 自动化注释流程:通过GPT-4o辅助的自动化流程,从图像和视频中提取实例级信息,生成详细的注释。
  • 大规模指令调整数据集:构建了一个包含显式实例级视觉提示的大型数据集,用于训练和改进模型。
  • 连续指令调整训练范式:提出了一种训练方法,有效提升现有LMMs的空间-时间实例理解能力。

工作原理

INST-IT的工作原理包括以下几个关键步骤:

  1. 自动化数据注释流程:使用视觉提示(如Set-of-Marks视觉提示技术)来突出图像和视频中的实例,并利用GPT-4o生成细粒度的多级注释。
  2. 构建基准测试:设计了一个名为INST-IT Bench的基准测试,用于评估多模态模型在实例级理解方面的能力。
  3. 构建数据集:创建了一个名为INST-IT Dataset的数据集,包含大量图像和视频的实例级注释,用于指令调整训练。
  4. 连续指令调整:提出了一种连续指令调整方法,将INST-IT Dataset与其他通用指令调整数据结合起来,提升模型的实例级理解能力。

具体应用场景

  • 视频监控分析:在安全监控领域,INST-IT可以帮助识别和追踪视频中的个体,理解他们的行为和互动。
  • 内容创作和编辑:在媒体制作中,INST-IT可以辅助编辑和创作人员快速理解和编辑视频中的复杂场景。
  • 交互式多媒体系统:在交互式多媒体应用中,INST-IT可以提供对用户指令的更深层次理解,提升用户体验。
  • 自动驾驶:在自动驾驶系统中,INST-IT可以帮助车辆更好地理解周围环境中的个体(如行人、自行车手)及其动态变化。
0

评论0

没有账号?注册  忘记密码?