腾讯发布混元Large-Vision:支持原生分辨率输入的旗舰级多模态理解模型

多模态模型4个月前发布 小马良
431 0

腾讯正式推出 混元Large-Vision —— 一款面向复杂任务的旗舰级多模态大模型。该模型在文档理解、数学推理、视频分析和三维空间感知等高难度场景中表现突出,同时具备卓越的多语言支持能力,在LMArena Vision等权威评测中跻身前列。

作为混元系列的最新成员,Large-Vision 不仅是一次性能升级,更是对“多模态理解”边界的系统性拓展。

腾讯发布混元Large-Vision:支持原生分辨率输入的旗舰级多模态理解模型

核心定位:不只是“看懂图像”,而是“理解世界”

当前多模态模型普遍面临三大挑战:

  • 输入受限:多数模型需将图像压缩至固定分辨率,损失细节
  • 推理薄弱:在数学、逻辑、空间分析等复杂任务上依赖外部工具
  • 多语言失衡:非英语语种理解能力明显弱于英语

混元Large-Vision 的目标是突破这些瓶颈,打造一个真正具备跨模态、跨语言、跨任务理解能力的通用视觉理解引擎。

腾讯发布混元Large-Vision:支持原生分辨率输入的旗舰级多模态理解模型

模型概览

模块规格
视觉编码器(Hunyuan ViT)1B 参数,支持原生分辨率输入
语言模型389B 总参数,52B 激活参数(MoE 架构)
训练数据超 400B tokens 高质量多模态指令数据
训练框架腾讯 Angel-PTM 大规模训练平台

在 LMArena Vision(去除风格控制赛道)评测中,混元Large-Vision 以 1233 分位列全球第六、国内模型第一,与 GPT-4.5、Claude-3.5 Sonnet 等国际顶尖模型处于同一梯队。

腾讯发布混元Large-Vision:支持原生分辨率输入的旗舰级多模态理解模型

三大核心优势

1. 能力多样:专为复杂任务优化

混元Large-Vision 并非通用型“通才”,而是针对以下高价值场景进行了专项强化:

  • 文档与图表理解:精准解析PDF、报表、流程图中的结构化信息
  • 数学与科学推理:支持公式识别、几何题求解、物理场景推演
  • 视频时序理解:捕捉动作序列、事件因果与长程依赖
  • 三维空间分析:从单图或多视图推断物体空间关系

在 OpenCompass 多模态评测集 上,模型取得 79.5 的平均分,在视觉推理、OCR、视频问答等子项中均处于领先水平。

腾讯发布混元Large-Vision:支持原生分辨率输入的旗舰级多模态理解模型

2. 输入灵活:支持任意分辨率图像与视频

传统多模态模型通常将输入图像缩放至固定尺寸(如 384×384),导致高分辨率图像中的关键细节丢失。

混元Large-Vision 采用 原生分辨率输入机制,其视觉编码器可直接处理:

  • 超大尺寸图片(如扫描文档、设计图纸)
  • 多视图拼接图像
  • 变长视频序列

这一设计显著提升了在文档分析、医学影像、工程制图等专业场景下的实用性。

3. 多语言支持:平衡的全球化体验

模型在训练中注入了大量非英语多模态数据,并通过强化学习优化小语种推理能力,在 LMArena Vision 的多语言测试中表现优异。

它不仅能理解中文、英文,还对日文、韩文、西班牙语、法语、阿拉伯语等多种语言具备稳定支持,确保全球用户获得一致的交互体验。

模型架构:三大模块协同工作

混元Large-Vision 由三个核心组件构成,形成高效的信息流动链条:

① 1B 参数混元ViT视觉编码器

专为多模态任务设计,支持原生分辨率输入,无需预裁剪或缩放。
先通过图文对比学习建立基础视觉感知能力,再结合小规模语言模型进行跨模态对齐训练,累计训练超过 1T tokens。

✅ 在内部视觉实体识别测试集(覆盖2000+类别)中,展现出更强的概念覆盖能力。

② 自适应下采样MLP连接器

由于原生分辨率输入导致视觉特征长度不一,传统连接器难以处理。
为此,团队设计了自适应下采样机制,动态压缩视觉特征,高效对接大语言模型,兼顾精度与计算效率。

③ 389B参数MoE语言模型

采用混合专家(Mixture-of-Experts)架构,激活参数仅52B,兼顾性能与推理成本。
具备强大的多语言理解和复杂推理能力,是整个系统的大脑。

关键训练技术

1. 高质量多模态指令数据合成管线

原始图文数据噪声大、图文相关性低。为此,团队构建了一套自动化数据清洗与增强流程:

  • 利用预训练多模态模型重写低质描述
  • 使用规则与模型联合过滤图文不一致样本
  • 合成涵盖视觉识别、数学、科学、OCR等领域的指令数据

最终生成 超400B tokens 的高质量训练数据,大幅提升数据利用效率。

2. 拒绝采样微调(Rejection Sampling Fine-tuning)

用于提升复杂任务解决能力与多语言鲁棒性。
具体做法:

  • 让模型生成多个回答路径
  • 使用规则与判别模型筛选出逻辑正确、语言连贯的答案
  • 构建高质量微调数据集

此方法显著改善了模型在小语种问题和复杂推理任务上的表现。

3. 由长到短思维链蒸馏

为了打造高效推理的“短链模型”,团队采用知识蒸馏策略:

  • 使用内部更强的“长思维链模型”生成详细推理过程
  • 将其压缩改写为简洁、精准的短链推理数据
  • 用于训练混元Large-Vision

结果表明,该方法在保持推理准确性的同时,大幅缩短响应时间,更适合实际部署。

4. 多粒度负载均衡训练优化

由于原生分辨率输入导致不同图像的计算量差异巨大,在分布式训练中易出现GPU负载不均(即“气泡”现象)。

为此,团队在 Angel-PTM 框架中实现了多层级负载均衡:

  • 数据加载层动态分配高负载样本
  • 张量并行与数据并行层面进行任务重调度

实测显示,单GPU最大token处理量降低 18.8%,有效缩短训练周期,提升资源利用率。

实际应用表现

在 LMArena Vision 排行榜中:

模型分数排名
GPT-4.512801
Claude-3.5 Sonnet12503
混元Large-Vision12336(国内第1)

在去除风格控制后,模型依然保持高分,说明其能力来自真实的理解而非模式匹配。

在 OpenCompass 多模态评测集:

  • 平均得分:79.5
  • 视觉推理:83.2
  • 视频理解:76.8
  • OCR与文档理解:81.1

在多个子任务中超越同类开源模型。

© 版权声明

相关文章

暂无评论

none
暂无评论...