多模态大语言模型Groma:具备精细化和定位化的视觉感知能力 来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti... 新技术# Groma# 多模态大语言模型 10个月前04880