两个月前,月之暗面推出了首个开源多模态推理模型 Kimi-VL-A3B-Thinking,如今他们正式推出其升级版本 Kimi-VL-A3B-Thinking-2506。
- 模型:https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506
- Demo:https://huggingface.co/spaces/moonshotai/Kimi-VL-A3B-Thinking
相比初代版本,新版本在多个方面进行了显著改进:
- 更智能的推理能力
- 更低的 token 消耗
- 更强的视觉感知表现
- 支持高分辨率图像与视频理解
下面我们就来详细看看这次更新带来了哪些亮点。
更聪明的思考,更低的使用成本
Kimi-VL-A3B-Thinking-2506 在多个权威多模态推理基准测试中取得了显著提升:
| 基准测试 | 旧版本得分 | 新版本得分 | 提升幅度 |
|---|---|---|---|
| MathVision | 36.8 | 56.9 | +20.1 |
| MathVista | 71.7 | 80.1 | +8.4 |
| MMMU-Pro | 43.1 | 46.3 | +3.2 |
| MMMU | 61.9 | 64.0 | +2.1 |
值得一提的是,平均思考长度减少了约 20%,这意味着在获得更强推理能力的同时,也显著降低了模型调用的成本。
更强视觉感知能力
不同于上一版本主要聚焦于“思考”任务,2506 版本在通用视觉理解和感知方面也表现出色,甚至超过了我们此前的非思考型模型(Kimi-VL-A3B-Instruct)。
以下是部分视觉理解任务的测试结果:
| 基准测试 | 得分 |
|---|---|
| MMBench-EN-v1.1 | 84.4 |
| MMStar | 70.4 |
| RealWorldQA | 70.0 |
| MMVet | 78.4 |
这些成绩表明,新版本不仅“会思考”,还“看得更清楚”。
🎥 扩展至视频理解场景
随着多模态模型的发展,视频理解成为新的重要方向。2506 版本在视频推理和理解方面也有显著进步,尤其在以下两个关键指标中表现突出:
| 视频基准测试 | 得分 |
|---|---|
| VideoMMMU(开源模型中最佳) | 65.2 |
| Video-MME(通用视频理解) | 71.9(与 Kimi-VL-A3B-Instruct 持平) |
这一进展为未来在教育、影视分析、自动化内容生成等领域的应用打下了坚实基础。
支持更高分辨率图像输入
为了让模型更好地理解复杂图像内容,2506 版本现已支持高达 320 万像素(1792x1792)的单张图像输入,是前一版本的 4 倍。
这使得它在高分辨率感知和操作系统代理定位等任务中表现优异:
| 高分辨率基准测试 | 得分 |
|---|---|
| V* Benchmark(无需工具) | 83.2 |
| ScreenSpot-Pro | 52.8 |
| OSWorld-G(完整数据集含拒绝) | 52.5 |
这一升级将大幅提升模型在文档识别、界面操作、图像细节理解等场景下的实用性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















