大型多模态模型VideoGLaMM:专为用户提供的文本输入进行视频中细粒度像素级定位而设计 视频与文本之间的细粒度对齐是一个具有挑战性的问题,因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型(LMMs)虽然可以处理基本对话,但在视频中进行精确的像素级定位方面存在困难。 大型... 新技术# VideoGLaMM# 大型多模态模型 4个月前02370