多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

多模态模型1年前更新小马良

597 0

Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本，它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模型收集的数据集，能够提供对给定图像更加详尽的描述。

模型：https://huggingface.co/Ertugrul/Qwen2-VL-7B-Captioner-Relaxed
原版模型：https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

主要特点：

增强的细节：生成更全面和细致的图像描述。
放宽的限制：与基础模型相比，提供的限制更少的图像描述。
自然语言输出：使用自然语言描述图像中的不同主题，并指定它们的位置。
优化图像生成：以与最新文生图模型兼容的格式生成标题。

注意：这个经过精细调整的模型针对创建文生图数据集进行了优化。因此，在其他任务上的性能（例如，在 mmmu_val 上可能会降低约10%）可能低于原始模型。

如何在ComfyUI中使用？

安装ComfyUI_QwenVL这款插件后，即可在ComfyUI使用该模型用于图生图。

插件地址：https://github.com/alexcong/ComfyUI_QwenVL

多模态模型 # Qwen2-VL-7B-Captioner-Relaxed # 多模态大语言模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多模态大语言模型InternVL 2.5：处理和理解来自多种模态（如文本、图像和视频）的信息

多模态大语言模型InternVL 2.5：处理和理解来自多种模态（如文本、图像和视频）的信息

多模态模型 # InternVL 2.5 # 多模态大语言模型

1年前

03020

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

腾讯发布混元Large-Vision：支持原生分辨率输入的旗舰级多模态理解模型

多模态模型 # Hunyuan-Large-Vision # 混元Large-Vision # 腾讯

8个月前

06040

腾讯推出AnimeGamer：通过多模态大语言模型实现无限动漫生活模拟

腾讯推出AnimeGamer：通过多模态大语言模型实现无限动漫生活模拟

多模态模型 # AnimeGamer # 多模态大语言模型 # 无限动漫生活模拟

1年前

04740

蚂蚁集团发布Ming-flash-omni 2.0 ：100B MoE 多模态全能模型，支持视觉百科、沉浸式语音、高动态图像生成与编辑

蚂蚁集团发布Ming-flash-omni 2.0 ：100B MoE 多模态全能模型，支持视觉百科、沉浸式语音、高动态图像生成与编辑

多模态模型 # Ming-flash-omni 2.0

2个月前

0120

暂无评论

none

暂无评论...