月之暗面开源最强多模态模型 Kimi K2.5，支持百智能体协同与视觉编程

多模态模型2个月前发布小马良

27 0

月之暗面（Moonshot AI）正式发布 Kimi K2.5——目前最强的开源多模态大模型。它在 Kimi K2 基础上，基于约 15 万亿混合视觉-文本 Token 进行预训练，不仅在编码与视觉理解上实现突破，更引入 自导向智能体群（Agent Swarm）架构，将复杂任务执行效率提升最高 4.5 倍。

官方介绍：https://www.kimi.com/blog/kimi-k2-5.html
API：https://platform.moonshot.ai
模型：https://huggingface.co/moonshotai/Kimi-K2.5

K2.5 现已通过 Kimi.com、Kimi App、API 和 Kimi Code 全面开放，并提供四种模式：

K2.5 Instant（快速响应）
K2.5 Thinking（深度推理）
K2.5 Agent（单智能体工具调用）
K2.5 Agent Swarm（测试版，支持百智能体并行）

月之暗面开源最强多模态模型 Kimi K2.5，支持百智能体协同与视觉编程

视觉编程：从图像/视频到可运行代码

Kimi K2.5 是当前最强的开源编码模型，尤其在前端开发领域表现突出：

对话 → 完整网页：仅凭自然语言描述，即可生成带交互、动画（如滚动触发效果）的响应式界面
视频 → 代码：通过分析 UI 演示视频，自动重建网站结构与样式
视觉调试：能“看”自己生成的页面，对比参考图，自主迭代优化布局与配色

示例：用户上传马蒂斯《舞蹈》画作，K2.5 自动生成风格一致的网页，并通过视觉反馈持续调整 CSS，直至匹配美学特征。

这一能力源于大规模视觉-文本联合预训练——在足够数据下，视觉与文本能力不再此消彼长，而是同步增强。

在内部 Kimi Code Bench 编码基准中，K2.5 在构建、调试、重构、测试等全链路任务上均显著优于 K2，支持多语言端到端工程交付。

智能体群：百智能体并行，效率提升 4.5 倍

K2.5 引入 Agent Swarm 范式，实现从“单智能体”到“群体协作”的跃迁：

自导向编排：无需预定义角色或流程，K2.5 自动将任务分解为最多 100 个子任务，动态实例化子智能体
并行执行：最多 1500 个工具调用 并发运行，端到端延迟降低 80%
抗串行崩溃：通过 分阶段奖励塑形（phased reward shaping），在训练早期强制并行探索，避免退化为单线程执行

该架构基于 并行智能体强化学习（PARL），由一个可训练的编排器智能体协调全局，子智能体冻结参数以保证稳定性。即使面对延迟、稀疏的反馈，系统仍能高效完成长周期复杂工作流。

办公效率：端到端生成专业级文档

K2.5 将智能体能力落地于真实知识工作场景：

高密度输入处理：可同时分析数十页 PDF、Excel 表格与邮件线程
多工具协同：自动调用 Word 注释、Excel 数据透视表、LaTeX 公式编辑等工具
长篇幅输出：支持生成万字论文、百页报告、完整 PPT

在内部评估中：

AI Office Benchmark：相比 K2 Thinking，输出质量提升 59.3%
General Agent Benchmark（对标人类专家）：多步骤任务完成度提升 24.3%

用户只需描述需求：“基于 Q3 销售数据，生成一份含趋势分析、区域对比和预测模型的 PPT”，K2.5 Agent 即可交付可直接汇报的成品。

开发者体验：Kimi Code 深度集成

Kimi Code 是月之暗面推出的开源终端编码助手，现已全面支持 K2.5：

支持 VSCode、Cursor、Zed 等主流 IDE
可接收图像/视频作为输入，实现视觉编程
自动发现并迁移现有 MCP 工具 与自定义技能
本地运行，保障代码隐私

开发者可在终端中直接调用：“根据这张设计稿，用 React 实现首页”，Kimi Code 将生成可运行代码并自动调试。

迈向 AGI 的务实一步

Kimi K2.5 并非追求理论指标，而是聚焦现实世界任务的端到端解决能力：

视觉编程 降低创意表达门槛
智能体群 提升复杂任务吞吐量
办公自动化 释放知识工作者生产力

作为开源模型，K2.5 为社区提供了可复现、可扩展的多模态智能体基座。月之暗面表示，未来将持续推动智能体智能前沿，重新定义 AI 在专业工作中的边界。

多模态模型 # Kimi K2.5 # 月之暗面

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

多模态模型 # Meta # V-JEPA 2 # 世界模型

10个月前

02200

字节跳动推出多模态文档图像解析模型Dolphin

字节跳动推出多模态文档图像解析模型Dolphin

多模态模型 # Dolphin # 多模态模型 # 字节跳动

9个月前

04040

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

多模态模型 # UI-TARS # 字节跳动

12个月前

03800

月之暗面发布 Attention Residuals：用深度注意力替代固定残差，Kimi Linear 多项基准性能显著提升

月之暗面发布 Attention Residuals：用深度注意力替代固定残差，Kimi Linear 多项基准性能显著提升

新技术 # Attention Residuals # Kimi # 月之暗面

1周前

0130

暂无评论

none

暂无评论...