百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

百度正式开源 ERNIE-4.5-VL-28B-A3B-Thinking,一款专注于文档、图表与视频理解的多模态推理模型。尽管模型总参数达 约 30B,但通过稀疏激活机制,每次推理仅激活 3B 参数,在保持大模型级能力的同时,显著降低计算与内存开销。该模型已发布在 Hugging Face,并以 Apache License 2.0 开源,支持商业使用。

百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

核心架构:MoE设计实现“大容量+轻部署”平衡

ERNIE-4.5-VL-28B-A3B-Thinking的核心优势源于其专家混合(MoE)架构设计,既保证了模型的推理容量,又降低了部署时的资源消耗:

1. 异构多模态MoE结构

模型基于ERNIE-4.5-VL-28B-A3B架构构建,采用“文本与视觉共享参数+模态特定专家”的异构设计。从参数规模来看,模型总参数约30B(架构归属28B-VL分支),但通过A3B路由方案,每个令牌仅激活3B参数。

这种设计让模型具备了“3B级模型的计算和内存特征”,同时保留了30B总参数的大容量推理池,实现了“轻量部署”与“高性能推理”的双赢。

2. 针对性训练优化

为提升多模态理解能力,模型经过了两阶段专项训练:

  • 第一阶段:额外的“中训练”阶段,在大型视觉语言推理语料库上训练,重点提升模型的表示能力,以及视觉与语言模态之间的语义对齐——这对解析文档中的密集文本、图表中的精细结构至关重要;
  • 第二阶段:多模态强化学习训练,在可验证任务上采用GSPO策略、IcePop策略以及动态难度采样技术,既稳定了MoE架构的训练过程,又推动模型聚焦困难示例,进一步提升推理精度。

关键能力:聚焦实用场景的多模态推理

百度将该模型定位为“轻量级多模态推理引擎”,官方明确其核心能力覆盖六大场景,其中“图像思考”和“工具利用”是差异化亮点:

1. 六大核心推理能力

  • 视觉推理:精准理解图像中的视觉信息与语义关联;
  • STEM推理:应对科学、技术、工程、数学领域的相关视觉推理任务(如电路问题分析);
  • 视觉定位:支持带JSON边界框的目标定位,精准识别图像中特定区域;
  • 图像思考(核心功能):模型可主动缩放感兴趣区域,对裁剪后的局部视图进行精细化推理,再将多个局部观察结果整合为最终答案,尤其适合处理细节密集的图像或图表;
  • 工具利用(扩展功能):当模型内部知识不足以完成推理时,可调用外部工具(如图像搜索)补充信息,解决长尾识别问题;
  • 视频理解:支持视频片段定位,能输出带时间戳的分析结果。

2. 功能部署形态

“图像思考”和“工具利用”两大核心功能,在部署时分别以“推理解析器”和“工具调用解析器”的形式暴露,方便开发者直接集成到业务系统中。

性能表现:轻量参数对标旗舰模型

1. 与同级别模型对比优势

基础版ERNIE-4.5-VL-28B-A3B(非Thinking变体)已在多个基准测试中,实现与Qwen-2.5-VL-7B、Qwen-2.5-VL-32B相当或更优的性能,且使用的激活参数更少(仅3B)。

2. Thinking变体的性能突破

针对ERNIE-4.5-VL-28B-A3B-Thinking,百度研究人员明确表示,其在内部多模态基准测试中“紧密匹配行业旗舰模型的性能”——这意味着该模型以3B活跃参数,达到了更大型多模态模型的推理水平。

3. 双模式适配不同需求

模型支持“思考模式”和“非思考模式”切换:

  • 思考模式:针对推理密集型任务,进一步提升推理精度;
  • 非思考模式:保持强大的感知质量,适配对速度要求更高的场景。

部署与商用:开源友好,适配多场景落地

1. 开源协议与部署支持

模型基于Apache License 2.0协议开源,支持商业使用,部署方式灵活:

  • 兼容主流框架:支持通过transformers、vLLM、FastDeploy等框架部署;
  • 支持微调扩展:可通过ERNIEKit工具,采用SFT(有监督微调)、LoRA(低秩适配)、DPO(直接偏好优化)等方式进行二次微调,适配特定业务场景。

2. 关键技术参数

  • 上下文长度:131,072令牌(FastDeploy示例中使用该最大模型长度);
  • 支持模态:文本、视觉(图像、文档、图表、视频)。

模型参数对比表

模型名称训练阶段总参数/活跃参数支持模态上下文长度(令牌)
ERNIE-4.5-VL-28B-A3B-Base预训练28B 总计 / 每个令牌3B活跃文本、视觉131,072
ERNIE-4.5-VL-28B-A3B (PT)后训练聊天模型28B 总计 / 每个令牌3B活跃文本、视觉131,072
ERNIE-4.5-VL-28B-A3B-Thinking推理导向中训练28B架构(HF模型30B参数) / 每个令牌3B活跃文本、视觉131,072
Qwen2.5-VL-7B-Instruct后训练视觉语言模型≈8B 总计(7B级)文本、图像、视频32,768 文本位置
Qwen2.5-VL-32B-Instruct后训练+强化调优33B 总计文本、图像、视频32,768 文本位置
© 版权声明

相关文章

暂无评论

none
暂无评论...