Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本,它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模型收集的数据集,能够提供对给定图像更加详尽的描述。
- 模型:https://huggingface.co/Ertugrul/Qwen2-VL-7B-Captioner-Relaxed
- 原版模型:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
主要特点:
-
增强的细节:生成更全面和细致的图像描述。 -
放宽的限制:与基础模型相比,提供的限制更少的图像描述。 -
自然语言输出:使用自然语言描述图像中的不同主题,并指定它们的位置。 -
优化图像生成:以与最新文生图模型兼容的格式生成标题。
注意:这个经过精细调整的模型针对创建文生图数据集进行了优化。因此,在其他任务上的性能(例如,在 mmmu_val 上可能会降低约10%)可能低于原始模型。
如何在ComfyUI中使用?
安装ComfyUI_QwenVL这款插件后,即可在ComfyUI使用该模型用于图生图。
评论0