VideoRefer Suite:提升视频大语言模型对视频中时空对象的理解能力 由浙江大学和阿里巴巴达摩院的研究团队提出了VideoRefer Suite,旨在提升视频大语言模型(Video LLM)对视频中时空对象的理解能力,解决现有Video LLM在细粒度时空理解方面的不足... 新技术# VideoRefer Suite# 视频大语言模型 2个月前01040
NumPro:增强视频大语言模型在视频时间定位任务中的表现 东南大学、马克斯普朗克信息学研究所、腾讯微信和加州大学伯克利分校的研究人员推出了一个名为Number-Prompt(NumPro)的方法,它旨在增强视频大语言模型(Vid-LLMs)在视频时间定位(V... 新技术# NumPro# 视频大语言模型 3个月前01310