新型多模态大语言模型Sa2VA:将 SAM2 与 LLaVA相结合,实现对图像和视频的深入理解 加州大学默塞德分校、字节跳动、武汉大学和北京大学的研究人员推出新型多模态大语言模型Sa2VA,它将SAM-2视频分割模型与LLaVA视觉-语言模型相结合,实现了对图像和视频的密集、基于语义的理解。Sa... 多模态模型# Sa2VA# 多模态大语言模型 2周前0990