Omni-RGPT

英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT，旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark，实现了对图像和视频中特定区域的深...

1年前

02600