深度求索发布开源推理大语言模型DeepSeek-R1，性能对标 OpenAI o1 正式版

大语言模型2个月前更新小马良

177 0

幻方量化旗下的AI公司深度求索（DeepSeek）今日正式发布了其最新的大语言模型DeepSeek-R1，并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案，推动人工智能领域的发展。

地址：https://www.deepseek.com
模型：https://huggingface.co/deepseek-ai/DeepSeek-R1
GitHub：https://github.com/deepseek-ai/DeepSeek-R1

深度求索发布开源推理大语言模型DeepSeek-R1，性能对标 OpenAI o1 正式版

DeepSeek-R1的特点

强化学习优化：DeepSeek-R1在后训练阶段广泛采用了强化学习技术，即便是在标注数据极其有限的情况下，也能显著增强模型的推理能力。
性能表现优异：在数学、编程以及自然语言推理等任务中，DeepSeek-R1展现出了与OpenAI的o1正式版相匹敌的表现。
蒸馏小模型：除了两个660B的大模型外，DeepSeek还基于DeepSeek-R1输出进行了蒸馏，推出了6个较小规模的模型（包括32B和70B版本），这些小模型在多项基准测试中的表现甚至超越了OpenAI的o1-mini模型。
开源贡献：除了R1主模型外，DeepSeek还利用R1蒸馏技术提升了Llama和Qwen模型的表现，并将这些改进后的模型以MIT许可证的形式开源发布于Hugging Face平台。

训练方法与技术创新

DeepSeek-R1的研发过程体现了技术创新，它首先基于DeepSeek-V3-base模型，通过强化学习而非监督数据来发展其推理能力。随后，采用了一种结合监督学习和强化学习的多阶段训练方法，解决了初始模型中存在的可读性差和语言混合等问题，最终形成了性能优越的DeepSeek-R1模型。

性能展示

在多项基准测试中，DeepSeek-R1展现了强大的推理能力：

在AIME 2024数学测试中得分79.8%，MATH-500中得分97.3%；
Codeforces上的评分为2029，超过了96.3%的人类程序员；
常识理解方面，在MMLU测试中准确率达到90.8%。

开源与商用许可

为了促进技术共享和降低开发者的理解成本，DeepSeek决定将其所有开源仓库（包括模型权重）统一采用MIT License，这是一种标准化且宽松的开源许可证，允许无限制地用于商业用途而无需申请。此外，DeepSeek的产品协议也进行了更新，明确支持用户进行“模型蒸馏”，即利用模型输出训练其他模型，进一步促进了技术的开放与创新。