阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

多模态模型9个月前发布小马良

217 0

随着多模态大模型的不断发展，我们对技术边界的认知也在持续被刷新。从最初的 QwenVL 到如今的 Qwen2.5 VL，我们在提升模型图像理解能力方面不断取得进步。

项目主页：https://qwenlm.github.io/zh/blog/qwen-vlo

今天，阿里 Qwen 项目组正式推出全新多模态统一理解与生成模型——Qwen VLo。这是一款集“理解”与“生成”于一体的先进模型，不仅能够“看懂”世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。

⚠️ 注意：Qwen VLo 目前为预览版本，您可通过 Qwen Chat 访问体验。

🌟 如何使用 Qwen VLo？

您可以通过自然语言指令轻松控制图像生成与编辑任务：

发送类似“生成一张可爱猫咪的图片”的提示，即可创建新图像；
或上传一张已有图像，并输入“给猫咪头上加顶帽子”，即可完成图像修改。

🎨 渐进式生成机制：更灵活、更可控的创作体验

Qwen VLo 采用一种渐进式图像生成机制：从左到右、从上到下逐步构建图像。在生成过程中，模型会不断调整预测内容，确保最终结果在视觉和语义上保持一致。

这种机制不仅提升了生成质量，也为用户带来了更强的交互性与控制力，特别适合需要精细调整的图像任务。

🔍 核心亮点：更精准的理解与更一致的生成

✅ 更精准的内容理解与再创造

相比以往的多模态模型，Qwen VLo 在语义一致性方面有了显著提升。例如，在收到“更换汽车颜色”的指令时，模型不仅能准确识别车型，还能保留原有结构特征，并自然地完成色彩风格转换，使结果既符合预期又不失真实感。

✅ 支持开放指令编辑与复杂修改

Qwen VLo 可响应各种创意性指令，如：

“将这张画风改为梵高风格”
“让这张照片看起来像19世纪的老照片”
“给这张图片添加一个晴朗的天空”

无论是艺术风格迁移、场景重构还是细节修饰，它都能灵活应对。甚至一些传统视觉感知任务（如深度图、分割图、检测图、边缘信息等）也可通过简单指令完成。

此外，Qwen VLo 还能处理包含多个操作的复杂指令，例如同时修改物体、添加文字、更换背景等，实现一次生成多重目标。

✅ 多语言支持，全球通用

Qwen VLo 支持中文、英文等多种语言指令，打破语言壁垒，为全球用户提供统一、便捷的交互体验。

🖼️ 应用样例：像人类画师一样思考与创作

Qwen VLo 的表现更像是一个具备理解与创造力的人类画师，能够根据需求进行多样化的图像生成与修改：

直接生成图像：如卡通、写实、插画等；
图像修改：替换背景、添加主体、风格迁移；
开放指令修改：执行复杂视觉任务，如检测、分割等；
多图输入支持（即将上线）：支持多张图像理解与生成；
动态长宽比支持（部分功能暂未上线）：可生成高达 4:1、1:3 等极端比例图像。

不仅如此，Qwen VLo 还能对生成内容进行再分析与理解，例如识别图像中的猫狗品种、判断场景元素等，进一步拓展了其应用场景。

📐 动态分辨率支持：适配多种场景需求

Qwen VLo 采用动态分辨率训练机制，支持任意分辨率和长宽比的图像生成。无论你是要制作海报、插图、网页 Banner 还是社交媒体封面，Qwen VLo 都能灵活应对。

此外，它还引入了一种全新的生成机制：从上到下、从左到右的渐进式生成方式。这一机制尤其适用于带有大量文本的图像任务，如广告设计、漫画分镜等，让用户可以实时观察生成过程并进行微调，获得最佳效果。

🧪 当前局限性

作为预览版本，Qwen VLo 尚存在一些不足之处，包括：

生成结果可能不完全符合事实；
对原图的理解可能存在偏差；
指令执行不够稳定；
图像生成与意图理解之间仍有一定差距。

我们正在持续优化模型性能，不断提升其稳定性与鲁棒性。

🚀 下一步展望：用图像表达想法，用生成促进理解

随着多模态大模型逐渐具备双向图文输入输出能力，我们正迈向一种全新的表达与交互方式。未来，模型不仅可以使用文本回答问题，还可以通过图像传递思想与情感。

例如：

生成示意图辅助解释复杂概念；
添加辅助线、标注关键区域以增强沟通效率。

此外，模型通过生成任务也能反向验证自身的理解是否正确。例如，通过生成分割图、检测图等中间结果来评估自身对图像内容的理解程度，从而进一步提升整体性能。

这将是我们在多模态领域持续探索的重要方向。

文章版权归作者所有，未经允许请勿转载。

阿里发布 Qwen3-4B 双模型：小参数，大能力，原生支持 256K 上下文

大语言模型 # Qwen3-4B-Instruct-2507 # Qwen3-4B-Thinking-2507 # 通义实验室

7个月前

04250

通义实验室推出基于指令的图像生成和编辑框架ACE++：基于FLUX.1-dev模型，实现多种图像生成和编辑任务

图像模型 # ACE # FLUX.1-dev # 图像生成

1年前

03520

艾伦AI研究所推出 olmOCR：高性能的 PDF 和文档图像文本提取工具包

多模态模型 # olmOCR # 艾伦AI研究所

1年前

01830

DeepSeek 开源DeepSeek-OCR ：用视觉模态压缩文本，3B 小模型撬动长上下文新思路

多模态模型 # DeepSeek # DeepSeek-OCR

5个月前

01820

暂无评论

暂无评论...

阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

🌟 如何使用 Qwen VLo？

🎨 渐进式生成机制：更灵活、更可控的创作体验

🔍 核心亮点：更精准的理解与更一致的生成

✅ 更精准的内容理解与再创造

✅ 支持开放指令编辑与复杂修改

✅ 多语言支持，全球通用

🖼️ 应用样例：像人类画师一样思考与创作

📐 动态分辨率支持：适配多种场景需求

🧪 当前局限性

🚀 下一步展望：用图像表达想法，用生成促进理解

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

快手 Keye 团队发布 Kwai Keye-VL ：专注短视频理解的多模态大模型

相关文章

阿里发布 Qwen3-4B 双模型：小参数，大能力，原生支持 256K 上下文

通义实验室推出基于指令的图像生成和编辑框架ACE++：基于FLUX.1-dev模型，实现多种图像生成和编辑任务

艾伦AI研究所推出 olmOCR：高性能的 PDF 和文档图像文本提取工具包

DeepSeek 开源DeepSeek-OCR ：用视觉模态压缩文本，3B 小模型撬动长上下文新思路

暂无评论

文章

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

Vivaldi CEO 强硬表态：坚决禁止浏览器集成生成式 AI，网页该由人类主导

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

Trae Agent 2.0大升级：能记住、会推理、更懂代码的AI来了

新悟空

Meshy

S.H.I.T

新OpenMAIC

CutCut

Sub2API

阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

🌟 如何使用 Qwen VLo？

🎨 渐进式生成机制：更灵活、更可控的创作体验

🔍 核心亮点：更精准的理解与更一致的生成

✅ 更精准的内容理解与再创造

✅ 支持开放指令编辑与复杂修改

✅ 多语言支持，全球通用

🖼️ 应用样例：像人类画师一样思考与创作

📐 动态分辨率支持：适配多种场景需求

🧪 当前局限性

🚀 下一步展望：用图像表达想法，用生成促进理解

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

快手 Keye 团队发布 Kwai Keye-VL ：专注短视频理解的多模态大模型

相关文章

文章

标签云

网址

新悟空

Meshy

S.H.I.T

新OpenMAIC

CutCut

Sub2API