多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本

Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本,它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模型收集的数据集,能够提供对给定图像更加详尽的描述。

主要特点:

  • 增强的细节:生成更全面和细致的图像描述。
  • 放宽的限制:与基础模型相比,提供的限制更少的图像描述。
  • 自然语言输出:使用自然语言描述图像中的不同主题,并指定它们的位置。
  • 优化图像生成:以与最新文生图模型兼容的格式生成标题。

注意:这个经过精细调整的模型针对创建文生图数据集进行了优化。因此,在其他任务上的性能(例如,在 mmmu_val 上可能会降低约10%)可能低于原始模型。

如何在ComfyUI中使用?

安装ComfyUI_QwenVL这款插件后,即可在ComfyUI使用该模型用于图生图。

0

评论0

没有账号?注册  忘记密码?