多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解 英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT,旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark,实现了对图像和视频中特定区域的深... 新技术# Omni-RGPT# 多模态大语言模型 1个月前0810