蚂蚁集团发布Ming-lite-omni v1.5:全模态能力的全面升级

多模态模型4个月前发布 小马良
283 0

蚂蚁集团旗下的 百灵大模型(Ling)团队研发的全模态大模型 Ming-lite-omni v1.5 正式发布。作为对初代模型的全面升级,v1.5 版本在图像、文本、视频、语音等多种模态的理解与生成能力上实现了显著提升,旨在为开发者和研究者提供一个更强大、更可靠的多模态AI基础。

该模型基于 Ling-lite-1.5 构建,总参数量达 203亿,其中采用混合专家(MoE)架构,每次推理激活 30亿 参数,在性能与效率之间取得了良好平衡。在多项基准测试中,Ming-lite-omni v1.5 展现出与业界同规模领先模型高度竞争力的水平。

蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni:支持图像、文本、音频、视频

核心升级:三大关键领域优化

与前代相比,Ming-lite-omni v1.5 的升级主要集中在以下三个核心领域:

1. 增强的视频理解:处理长视频的时空挑战

视频理解是多模态模型的难点,尤其在处理长时程内容时容易丢失上下文。Ming-lite-omni v1.5 通过引入 3D 时空编码(MRoPE)  课程学习(Curriculum Learning) 策略,显著提升了对长视频和复杂视觉序列的理解能力。这使得模型能够更精确地捕捉视频中的动态变化和时间逻辑。

2. 优化的多模态生成:实现更连贯的控制

在生成能力上,v1.5 版本带来了更精细的控制:

  • 图像生成与编辑:采用双分支架构,并引入 ID 和场景一致性损失,确保在图像编辑任务中,人物身份和场景背景能保持高度一致。
  • 语音合成:集成了新的音频解码器和 BPE 编码,支持高质量、实时的语音合成,进一步提升了生成效率。

3. 全面的数据升级:奠定能力基石

模型的强大性能离不开高质量的训练数据。Ming-lite-omni v1.5 在数据层面进行了大规模升级,包括:

  • 新增的结构化文本数据和高质量产品信息;
  • 精细化的细粒度视觉感知数据;
  • 扩展的语音数据,覆盖普通话、粤语、四川话、上海话、闽南话等多种方言。

更丰富、更精准的数据为模型在所有模态上的表现提供了坚实基础。

性能评估:在多项基准中表现卓越

Ming-lite-omni v1.5 在多个权威基准测试中交出了亮眼的成绩单。

图像-文本理解

在 OpenCompass 等多项评测中,v1.5 版本在通用理解、视觉定位和对象识别方面均取得进步,尤其在 MMVetMathVista  OCRBench 上表现突出。

文档理解

在文档理解任务中,Ming-lite-omni v1.5 表现稳健。在参数量小于100亿的模型中,它在 ChartQA  OCRBench 上取得了当前最佳(SOTA)结果,展现了其在复杂图表分析和逻辑推理上的强大能力。

视频理解

在视频理解领域,v1.5 版本处于同等规模模型的领先地位。其在 VideoMME(平均得分 69.83)和 LongVideoBench 上的得分均优于 Qwen2.5-VL-7B 等主流模型,验证了其在长视频处理方面的优势。

语音理解

在语音识别(ASR)任务中,v1.5 版本在包括 aishell、fleurs、librispeech 等在内的多个中英文数据集上,无论是整体平均错误率还是开源模型平均错误率,都优于前代模型和 Qwen2.5-Omni,保持了行业领先水平。

语音生成

在语音克隆任务中,v1.5 版本在 seed-tts-eval 基准上,无论是在中文还是英文的相似度(SIM)和词错误率(WER)指标上,相较于前代模型均有显著改进。

图像生成

在图像生成与编辑的 Gen-eval 基准测试中,v1.5 版本的平均得分从 0.64 大幅提升至 0.87,尤其在多物体、计数、颜色和位置等复杂任务上进步明显,证明了其在生成一致性方面的卓越能力。

© 版权声明

相关文章

暂无评论

none
暂无评论...