月之暗面正式发布旗下迄今能力最强的开源思考模型——Kimi K2 Thinking。这款基于“模型即Agent”理念训练的新一代Thinking Agent,最核心的突破在于原生掌握“边思考,边使用工具”的能力,在多项权威基准测试中斩获SOTA(当前最优)成绩,同时在Agentic搜索、编程、写作等核心场景实现全面升级。
- 项目主页:https://moonshotai.github.io/Kimi-K2/thinking.html
- Hugging Face:https://huggingface.co/moonshotai/Kimi-K2-Thinking
- 魔塔:https://www.modelscope.cn/models/moonshotai/Kimi-K2-Thinking

核心定位:不止是模型,更是“会思考的智能体”
与传统模型不同,Kimi K2 Thinking从设计之初就被构建为“思维智能体”,而非单纯的生成工具。其核心优势在于能像人类一样逐步推理,同时动态调用各类工具,并且在200-300次连续工具调用中保持稳定的目标导向性——这一表现远超此前多数模型30-50步后性能下降的瓶颈。

更值得关注的是,作为原生INT4量化模型,Kimi K2 Thinking搭载256k上下文窗口,在实现推理延迟降低、GPU内存占用减少的同时,完全没有损失性能,兼顾了效率与能力的平衡。

三大核心特性:定义新一代开源思维模型标准
1. 深度思考与工具编排:端到端的“自主工作流”
Kimi K2 Thinking通过端到端训练,实现了思维链推理与函数调用的深度交织。简单来说,它能自主规划工作流程,比如面对一个复杂的市场分析任务,会自动完成“明确需求→搜索行业数据→分析竞品动态→用Python处理数据→生成报告”的全流程,持续数百步操作也不会偏离目标。这种能力让模型从“被动响应”升级为“主动解决问题”。
2. 原生INT4量化:效率与性能的“无损突破”
低比特量化是降低大规模模型推理成本的关键技术,但传统量化往往会导致性能下降——这对需要长文本解码的思维模型来说尤为致命。为解决这一难题,Kimi K2 Thinking在训练后阶段采用量化感知训练(QAT),对MoE组件实施INT4权重量化。
最终实现的效果十分显著:生成速度提升约2倍,同时保持顶尖性能,官方公布的所有基准测试结果均基于INT4精度完成。模型检查点以compressed-tensors格式保存,支持主流推理引擎,若需更高精度版本,可通过官方库转换为FP8或BF16格式。
3. 稳定长程代理:数百步调用不“失忆”
长程任务处理中的目标连贯性,是衡量AI Agent能力的核心指标之一。Kimi K2 Thinking通过优化模型的记忆机制和推理逻辑,在最多300次连续工具调用中,始终能记住初始目标并逐步推进。无论是持续数小时的学术研究,还是多步骤的编程开发,都能保持稳定表现。
基准测试大获全胜:多项成绩刷新行业纪录
在权威基准测试中,Kimi K2 Thinking的表现堪称“全面领跑”,尤其在需要综合思考与工具使用的场景中优势明显:
- 人类最后的考试(Humanity's Last Exam):涵盖100多个专业领域的封闭式学术测试,在允许使用搜索、Python等工具的同等条件下,模型取得44.9%的SOTA成绩,展现出跨领域的专业推理能力。
- BrowseComp网络浏览测试:由OpenAI推出的AI Agent网络浏览能力评估基准,核心考察信息过载环境中的“刨根问底”能力——人类平均成绩仅29.2%,而Kimi K2 Thinking以60.2%的成绩登顶,其信息搜集与深度分析能力远超人类平均水平。
- 编程与工程能力:在多语言软件工程基准SWE-Multilingual、SWE-bench验证集及Terminal终端使用测试中表现显著提升,能独立完成代码编写、调试等专业任务。

通用能力全面升级:从专业场景到人文关怀
除了核心的思维与工具能力,Kimi K2 Thinking的通用基础能力也实现了多维度进化,覆盖创意写作、学术研究、个人情感交互等场景:
- 创意写作:能将粗略灵感转化为风格统一、情感饱满的文本,兼顾韵律感与深度,在长篇创作中保持文风连贯,意象表达更生动。
- 学术与研究:分析深度、信息准确性和逻辑结构显著提升,能精准拆解复杂指令,高效完成学术论文、技术摘要等专业内容,对信息完整性和推理质量的把控能力突出。
- 个人与情感交互:回应更富同理心,立场中正平和,能细致梳理复杂决策问题并提供可行建议,语气务实中肯,交互体验更具人情味。
作为月之暗面旗下的旗舰开源模型,Kimi K2 Thinking的推出不仅刷新了开源思维模型的能力上限,更通过“模型即Agent”的理念,为AI在复杂场景中的应用提供了新的范式。对于开发者和企业而言,这款兼顾性能、效率与通用性的模型,无疑为各类智能应用的落地提供了强有力的支撑。
















