新型多模态大语言模型PUMA:不仅能理解文本指令,还能根据这些指令创作出精细的图像,或者对现有图像进行精确的编辑
近年来,多模态基础模型在视觉-语言理解领域取得了显著进展,同时也开始探索多模态...
阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息
Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型,Ovis是一种新颖的多模...
多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本
Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版...
新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力
厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA,它专门设计用于处理高分辨...
多模态大语言模型LITA:专门设计来处理视频中的时间定位问题
英伟达推出多模态大语言模型LITA(Language Instructed Temporal-Localization As...