阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源

多模态模型2个月前发布 小马良
227 0

阿里通义实验室 Qwen 项目组正式推出全新升级的 Qwen3-VL 系列——这是截至目前 Qwen 多模态体系中能力最全面、性能最先进的视觉语言模型(Vision-Language Model, VLM)。

本次发布的旗舰型号为 Qwen3-VL-235B-A22B,包含两个版本:

  • Instruct 版本:面向通用任务,在主流视觉感知评测中达到甚至超越 Gemini 2.5 Pro;
  • Thinking 版本:专注复杂推理,在 MathVision、MMMU 等权威多模态推理基准上取得当前开源模型最佳表现。

该模型已全面开源,标志着中国在高端多模态大模型领域的又一次重要突破。

阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源

不止“看得见”,更要“看得懂”

Qwen3-VL 的核心目标,是让大模型从“图像识别”迈向“世界理解”。它不仅能够解析像素内容,更能:

  • 理解事件逻辑
  • 推理空间关系
  • 执行真实任务
  • 生成可运行代码

换句话说,Qwen3-VL 正在推动视觉语言模型从“感知系统”向“认知代理”演进。

核心能力升级:十大关键维度全面提升

1. 视觉智能体(Visual Agent):可操作的真实交互

Qwen3-VL 能够理解 GUI 元素、识别按钮功能,并调用工具完成端到端任务。
在 OS World 等具身智能基准测试中表现达到世界领先水平,适用于自动化办公、手机助手、RPA 场景。

示例:上传一张 App 截图 → 模型自动点击“登录”按钮 → 填写账号信息 → 提交表单。

2. 纯文本能力媲美顶级 LLM

尽管是多模态模型,其文本能力并未妥协。通过早期融合文本与视觉模态进行协同训练,Qwen3-VL 在纯文本任务上的表现与同级纯语言模型 Qwen3-235B-A22B-2507 相当,真正实现“文基扎实、多模全能”。

3. 视觉编程:所见即所得的代码生成

支持将设计图转化为可执行前端代码:

  • 输入手绘草图或 UI 截图
  • 输出 HTML/CSS/JS 或 Draw.io 可编辑格式
  • 支持视频转动态页面逻辑代码

极大提升设计师与开发者的协作效率。

4. 空间感知能力跃升

  • 2D 定位由绝对坐标改为相对坐标表示,更符合人类直觉;
  • 支持判断遮挡、视角变化、方位关系;
  • 新增 3D bounding box 预测能力,还原物体在真实空间中的位置与尺寸,为机器人导航、AR/VR 提供基础支持。

5. 长上下文与长视频理解

全系列原生支持 256K token 上下文长度,可通过扩展机制处理高达 1M tokens 的输入。

这意味着:

  • 整本教材、数百页 PDF 可一次性输入;
  • 两小时以上的视频内容可完整记忆;
  • 视频问答能精确定位到秒级时间点。

在“视频大海捞针”实验中,即使面对 1M token 的超长序列,模型仍保持 99.5% 的准确率

6. 多模态思考能力显著增强

Thinking 版本重点强化 STEM 与数学推理能力:

  • 在 MathVision、MathVista、MMMU 等复杂多学科评测中达到 SOTA;
  • 能分析因果链、拆解步骤、验证中间结果;
  • 对图表题、几何题、物理情境题的理解更加深入。

7. OCR 多语言与复杂场景覆盖

  • 支持语言从 10 种扩展至 32 种,涵盖希腊语、希伯来语、印地语、泰语等;
  • 在模糊、倾斜、低光照等实拍条件下稳定性更强;
  • 对古籍字、生僻字、专业术语识别准确率显著提升;
  • 超长文档结构还原能力增强,支持图文混排精细解析。

8. 万物识别:覆盖日常生活与专业领域

模型具备广泛的对象识别能力,可准确识别:

  • 名人、动漫角色、商品品牌
  • 动植物种类、地标建筑
  • 医疗影像、工业零件、电路图

满足教育、电商、社交、科研等多场景需求。

9. 创意写作与内容生成

根据图片或视频生成高质量描述性文本,适用于:

  • 短视频脚本创作
  • 商品文案撰写
  • 新闻摘要生成
  • 故事续写与情节推演

10. 复杂指令遵循与多轮对话

支持多条件、嵌套逻辑、分步执行类指令,例如:

“如果这张照片中有猫且背景是户外,请找出它的品种并推荐三个适合的名字;否则,请说明原因。”

同时增强多图理解与跨轮次记忆能力,可在连续讨论中保持上下文一致性。

技术架构创新:三大关键升级

✅ MRoPE-Interleave:更鲁棒的位置编码

传统 MRoPE 将时间、高度、宽度特征按顺序分块,导致时间信息集中在高频维度。
Qwen3-VL 改为 t-h-w 交错分布,实现对时空信息的全频率覆盖,显著提升长视频建模能力。

✅ DeepStack:多层次视觉特征注入

不再仅在 LLM 第一层输入视觉 token,而是采用 多层注入机制,将 ViT 不同层级的特征逐步融入语言模型深层结构,提升图文对齐精度与细节捕捉能力。

✅ 时间戳对齐机制取代 T-RoPE

引入“时间戳-视频帧交错输入”机制,实现帧级别的时间与内容细粒度对齐。支持输出“秒数”和“时:分:秒”两种格式,在事件定位、动作边界检测等任务中响应更精准。

此外,模型还优化了视觉特征 token 化策略,保留从底层边缘纹理到高层语义概念的完整信息流。

阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源

性能对比:开源之光,逼近闭源 SOTA

我们在十个维度评估了 Qwen3-VL 的综合能力,包括:

维度表现
视觉问答(VQA)显著优于 Gemini 2.5 Pro(非推理类)
数学与科学推理Thinking 版本在 MathVision 上超过 Gemini
文档理解多页 PDF、扫描件解析能力领先
OCR 多语言32 种语言可用,中文场景尤其出色
Agent 任务执行OS World 排行榜前列,优于多数闭源模型
代码生成设计图转前端代码成功率高,结构合理

虽然在部分跨模态推理和视频理解任务上仍略逊于顶尖闭源模型(如 GPT-5),但在 Agent 能力、文档理解、2D/3D grounding 等方向展现出明显优势。

阿里通义实验室发布 Qwen3-VL:迄今最强视觉语言模型,全面开源
© 版权声明

相关文章

暂无评论

none
暂无评论...