Kimi-VL-A3B-Thinking-2506 正式上线:更强推理、更高分辨率、支持视频理解

多模态模型6个月前发布 小马良
328 0

两个月前,月之暗面推出了首个开源多模态推理模型 Kimi-VL-A3B-Thinking,如今他们正式推出其升级版本 Kimi-VL-A3B-Thinking-2506

相比初代版本,新版本在多个方面进行了显著改进:

  • 更智能的推理能力
  • 更低的 token 消耗
  • 更强的视觉感知表现
  • 支持高分辨率图像与视频理解

下面我们就来详细看看这次更新带来了哪些亮点。

更聪明的思考,更低的使用成本

Kimi-VL-A3B-Thinking-2506 在多个权威多模态推理基准测试中取得了显著提升:

基准测试旧版本得分新版本得分提升幅度
MathVision36.856.9+20.1
MathVista71.780.1+8.4
MMMU-Pro43.146.3+3.2
MMMU61.964.0+2.1

值得一提的是,平均思考长度减少了约 20%,这意味着在获得更强推理能力的同时,也显著降低了模型调用的成本。

更强视觉感知能力

不同于上一版本主要聚焦于“思考”任务,2506 版本在通用视觉理解和感知方面也表现出色,甚至超过了我们此前的非思考型模型(Kimi-VL-A3B-Instruct)。

以下是部分视觉理解任务的测试结果:

基准测试得分
MMBench-EN-v1.184.4
MMStar70.4
RealWorldQA70.0
MMVet78.4

这些成绩表明,新版本不仅“会思考”,还“看得更清楚”。

🎥 扩展至视频理解场景

随着多模态模型的发展,视频理解成为新的重要方向。2506 版本在视频推理和理解方面也有显著进步,尤其在以下两个关键指标中表现突出:

视频基准测试得分
VideoMMMU(开源模型中最佳)65.2
Video-MME(通用视频理解)71.9(与 Kimi-VL-A3B-Instruct 持平)

这一进展为未来在教育、影视分析、自动化内容生成等领域的应用打下了坚实基础。

支持更高分辨率图像输入

为了让模型更好地理解复杂图像内容,2506 版本现已支持高达 320 万像素(1792x1792)的单张图像输入,是前一版本的 4 倍。

这使得它在高分辨率感知和操作系统代理定位等任务中表现优异:

高分辨率基准测试得分
V* Benchmark(无需工具)83.2
ScreenSpot-Pro52.8
OSWorld-G(完整数据集含拒绝)52.5

这一升级将大幅提升模型在文档识别、界面操作、图像细节理解等场景下的实用性。

© 版权声明

相关文章

暂无评论

none
暂无评论...