百度开源ERNIE-4.5-VL-28B-A3B-Thinking：3B活跃参数实现大型模型级多模态推理

45 0

百度正式开源 ERNIE-4.5-VL-28B-A3B-Thinking，一款专注于文档、图表与视频理解的多模态推理模型。尽管模型总参数达约 30B，但通过稀疏激活机制，每次推理仅激活 3B 参数，在保持大模型级能力的同时，显著降低计算与内存开销。该模型已发布在 Hugging Face，并以 Apache License 2.0 开源，支持商业使用。

项目主页：https://yiyan.baidu.com/blog/zh/posts/ernie-4.5-vl-28b-a3b-thinking
GitHub：https://github.com/PaddlePaddle/ERNIE
模型：https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

百度开源ERNIE-4.5-VL-28B-A3B-Thinking：3B活跃参数实现大型模型级多模态推理

核心架构：MoE设计实现“大容量+轻部署”平衡

ERNIE-4.5-VL-28B-A3B-Thinking的核心优势源于其专家混合（MoE）架构设计，既保证了模型的推理容量，又降低了部署时的资源消耗：

1. 异构多模态MoE结构

模型基于ERNIE-4.5-VL-28B-A3B架构构建，采用“文本与视觉共享参数+模态特定专家”的异构设计。从参数规模来看，模型总参数约30B（架构归属28B-VL分支），但通过A3B路由方案，每个令牌仅激活3B参数。

这种设计让模型具备了“3B级模型的计算和内存特征”，同时保留了30B总参数的大容量推理池，实现了“轻量部署”与“高性能推理”的双赢。

2. 针对性训练优化

为提升多模态理解能力，模型经过了两阶段专项训练：

第一阶段：额外的“中训练”阶段，在大型视觉语言推理语料库上训练，重点提升模型的表示能力，以及视觉与语言模态之间的语义对齐——这对解析文档中的密集文本、图表中的精细结构至关重要；
第二阶段：多模态强化学习训练，在可验证任务上采用GSPO策略、IcePop策略以及动态难度采样技术，既稳定了MoE架构的训练过程，又推动模型聚焦困难示例，进一步提升推理精度。

关键能力：聚焦实用场景的多模态推理

百度将该模型定位为“轻量级多模态推理引擎”，官方明确其核心能力覆盖六大场景，其中“图像思考”和“工具利用”是差异化亮点：

1. 六大核心推理能力

视觉推理：精准理解图像中的视觉信息与语义关联；
STEM推理：应对科学、技术、工程、数学领域的相关视觉推理任务（如电路问题分析）；
视觉定位：支持带JSON边界框的目标定位，精准识别图像中特定区域；
图像思考（核心功能）：模型可主动缩放感兴趣区域，对裁剪后的局部视图进行精细化推理，再将多个局部观察结果整合为最终答案，尤其适合处理细节密集的图像或图表；
工具利用（扩展功能）：当模型内部知识不足以完成推理时，可调用外部工具（如图像搜索）补充信息，解决长尾识别问题；
视频理解：支持视频片段定位，能输出带时间戳的分析结果。

2. 功能部署形态

“图像思考”和“工具利用”两大核心功能，在部署时分别以“推理解析器”和“工具调用解析器”的形式暴露，方便开发者直接集成到业务系统中。

性能表现：轻量参数对标旗舰模型

1. 与同级别模型对比优势

基础版ERNIE-4.5-VL-28B-A3B（非Thinking变体）已在多个基准测试中，实现与Qwen-2.5-VL-7B、Qwen-2.5-VL-32B相当或更优的性能，且使用的激活参数更少（仅3B）。

2. Thinking变体的性能突破

针对ERNIE-4.5-VL-28B-A3B-Thinking，百度研究人员明确表示，其在内部多模态基准测试中“紧密匹配行业旗舰模型的性能”——这意味着该模型以3B活跃参数，达到了更大型多模态模型的推理水平。

3. 双模式适配不同需求

模型支持“思考模式”和“非思考模式”切换：

思考模式：针对推理密集型任务，进一步提升推理精度；
非思考模式：保持强大的感知质量，适配对速度要求更高的场景。

部署与商用：开源友好，适配多场景落地

1. 开源协议与部署支持

模型基于Apache License 2.0协议开源，支持商业使用，部署方式灵活：

兼容主流框架：支持通过transformers、vLLM、FastDeploy等框架部署；
支持微调扩展：可通过ERNIEKit工具，采用SFT（有监督微调）、LoRA（低秩适配）、DPO（直接偏好优化）等方式进行二次微调，适配特定业务场景。

2. 关键技术参数

上下文长度：131,072令牌（FastDeploy示例中使用该最大模型长度）；
支持模态：文本、视觉（图像、文档、图表、视频）。

模型参数对比表

模型名称	训练阶段	总参数/活跃参数	支持模态	上下文长度（令牌）
ERNIE-4.5-VL-28B-A3B-Base	预训练	28B 总计 / 每个令牌3B活跃	文本、视觉	131,072
ERNIE-4.5-VL-28B-A3B (PT)	后训练聊天模型	28B 总计 / 每个令牌3B活跃	文本、视觉	131,072
ERNIE-4.5-VL-28B-A3B-Thinking	推理导向中训练	28B架构（HF模型30B参数） / 每个令牌3B活跃	文本、视觉	131,072
Qwen2.5-VL-7B-Instruct	后训练视觉语言模型	≈8B 总计（7B级）	文本、图像、视频	32,768 文本位置
Qwen2.5-VL-32B-Instruct	后训练+强化调优	33B 总计	文本、图像、视频	32,768 文本位置