阿里通义实验室发布 Qwen3-VL：迄今最强视觉语言模型，全面开源

多模态模型6个月前发布小马良

425 0

阿里通义实验室 Qwen 项目组正式推出全新升级的 Qwen3-VL 系列——这是截至目前 Qwen 多模态体系中能力最全面、性能最先进的视觉语言模型（Vision-Language Model, VLM）。

官方博文：https://qwen.ai/blog
GitHub：https://github.com/QwenLM/Qwen3-VL
Hugging Face：https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
魔塔：https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

本次发布的旗舰型号为 Qwen3-VL-235B-A22B，包含两个版本：

Instruct 版本：面向通用任务，在主流视觉感知评测中达到甚至超越 Gemini 2.5 Pro；
Thinking 版本：专注复杂推理，在 MathVision、MMMU 等权威多模态推理基准上取得当前开源模型最佳表现。

该模型已全面开源，标志着中国在高端多模态大模型领域的又一次重要突破。

不止“看得见”，更要“看得懂”

Qwen3-VL 的核心目标，是让大模型从“图像识别”迈向“世界理解”。它不仅能够解析像素内容，更能：

理解事件逻辑
推理空间关系
执行真实任务
生成可运行代码

换句话说，Qwen3-VL 正在推动视觉语言模型从“感知系统”向“认知代理”演进。

核心能力升级：十大关键维度全面提升

1. 视觉智能体（Visual Agent）：可操作的真实交互

Qwen3-VL 能够理解 GUI 元素、识别按钮功能，并调用工具完成端到端任务。
在 OS World 等具身智能基准测试中表现达到世界领先水平，适用于自动化办公、手机助手、RPA 场景。

示例：上传一张 App 截图 → 模型自动点击“登录”按钮 → 填写账号信息 → 提交表单。

2. 纯文本能力媲美顶级 LLM

尽管是多模态模型，其文本能力并未妥协。通过早期融合文本与视觉模态进行协同训练，Qwen3-VL 在纯文本任务上的表现与同级纯语言模型 Qwen3-235B-A22B-2507 相当，真正实现“文基扎实、多模全能”。

3. 视觉编程：所见即所得的代码生成

支持将设计图转化为可执行前端代码：

输入手绘草图或 UI 截图
输出 HTML/CSS/JS 或 Draw.io 可编辑格式
支持视频转动态页面逻辑代码

极大提升设计师与开发者的协作效率。

4. 空间感知能力跃升

2D 定位由绝对坐标改为相对坐标表示，更符合人类直觉；
支持判断遮挡、视角变化、方位关系；
新增 3D bounding box 预测能力，还原物体在真实空间中的位置与尺寸，为机器人导航、AR/VR 提供基础支持。

5. 长上下文与长视频理解

全系列原生支持 256K token 上下文长度，可通过扩展机制处理高达 1M tokens 的输入。

这意味着：

整本教材、数百页 PDF 可一次性输入；
两小时以上的视频内容可完整记忆；
视频问答能精确定位到秒级时间点。

在“视频大海捞针”实验中，即使面对 1M token 的超长序列，模型仍保持 99.5% 的准确率。

6. 多模态思考能力显著增强

Thinking 版本重点强化 STEM 与数学推理能力：

在 MathVision、MathVista、MMMU 等复杂多学科评测中达到 SOTA；
能分析因果链、拆解步骤、验证中间结果；
对图表题、几何题、物理情境题的理解更加深入。

7. OCR 多语言与复杂场景覆盖

支持语言从 10 种扩展至 32 种，涵盖希腊语、希伯来语、印地语、泰语等；
在模糊、倾斜、低光照等实拍条件下稳定性更强；
对古籍字、生僻字、专业术语识别准确率显著提升；
超长文档结构还原能力增强，支持图文混排精细解析。

8. 万物识别：覆盖日常生活与专业领域

模型具备广泛的对象识别能力，可准确识别：

名人、动漫角色、商品品牌
动植物种类、地标建筑
医疗影像、工业零件、电路图

满足教育、电商、社交、科研等多场景需求。

9. 创意写作与内容生成

根据图片或视频生成高质量描述性文本，适用于：

短视频脚本创作
商品文案撰写
新闻摘要生成
故事续写与情节推演

10. 复杂指令遵循与多轮对话

支持多条件、嵌套逻辑、分步执行类指令，例如：

“如果这张照片中有猫且背景是户外，请找出它的品种并推荐三个适合的名字；否则，请说明原因。”

同时增强多图理解与跨轮次记忆能力，可在连续讨论中保持上下文一致性。

技术架构创新：三大关键升级

✅ MRoPE-Interleave：更鲁棒的位置编码

传统 MRoPE 将时间、高度、宽度特征按顺序分块，导致时间信息集中在高频维度。
Qwen3-VL 改为 t-h-w 交错分布，实现对时空信息的全频率覆盖，显著提升长视频建模能力。

✅ DeepStack：多层次视觉特征注入

不再仅在 LLM 第一层输入视觉 token，而是采用 多层注入机制，将 ViT 不同层级的特征逐步融入语言模型深层结构，提升图文对齐精度与细节捕捉能力。

✅ 时间戳对齐机制取代 T-RoPE

引入“时间戳-视频帧交错输入”机制，实现帧级别的时间与内容细粒度对齐。支持输出“秒数”和“时:分:秒”两种格式，在事件定位、动作边界检测等任务中响应更精准。

此外，模型还优化了视觉特征 token 化策略，保留从底层边缘纹理到高层语义概念的完整信息流。

性能对比：开源之光，逼近闭源 SOTA

我们在十个维度评估了 Qwen3-VL 的综合能力，包括：

维度	表现
视觉问答（VQA）	显著优于 Gemini 2.5 Pro（非推理类）
数学与科学推理	Thinking 版本在 MathVision 上超过 Gemini
文档理解	多页 PDF、扫描件解析能力领先
OCR 多语言	32 种语言可用，中文场景尤其出色
Agent 任务执行	OS World 排行榜前列，优于多数闭源模型
代码生成	设计图转前端代码成功率高，结构合理