视频大语言模型

共 2 篇文章

排序

发布更新浏览点赞

VideoRefer Suite：提升视频大语言模型对视频中时空对象的理解能力

VideoRefer Suite：提升视频大语言模型对视频中时空对象的理解能力

由浙江大学和阿里巴巴达摩院的研究团队提出了VideoRefer Suite，旨在提升视频大语言模型（Video LLM）对视频中时空对象的理解能力，解决现有Video LLM在细粒度时空理解方面的不足...

新技术 # VideoRefer Suite # 视频大语言模型

1年前

02580

NumPro：增强视频大语言模型在视频时间定位任务中的表现

NumPro：增强视频大语言模型在视频时间定位任务中的表现

东南大学、马克斯普朗克信息学研究所、腾讯微信和加州大学伯克利分校的研究人员推出了一个名为Number-Prompt（NumPro）的方法，它旨在增强视频大语言模型（Vid-LLMs）在视频时间定位（V...

新技术 # NumPro # 视频大语言模型

1年前

04130