幻方量化旗下的AI公司深度求索(DeepSeek)今日正式发布了其最新的大语言模型DeepSeek-R1,并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案,推动人工智能领域的发展。
DeepSeek-R1的特点
- 强化学习优化:DeepSeek-R1在后训练阶段广泛采用了强化学习技术,即便是在标注数据极其有限的情况下,也能显著增强模型的推理能力。
- 性能表现优异:在数学、编程以及自然语言推理等任务中,DeepSeek-R1展现出了与OpenAI的o1正式版相匹敌的表现。
- 蒸馏小模型:除了两个660B的大模型外,DeepSeek还基于DeepSeek-R1输出进行了蒸馏,推出了6个较小规模的模型(包括32B和70B版本),这些小模型在多项基准测试中的表现甚至超越了OpenAI的o1-mini模型。
- 开源贡献:除了R1主模型外,DeepSeek还利用R1蒸馏技术提升了Llama和Qwen模型的表现,并将这些改进后的模型以MIT许可证的形式开源发布于Hugging Face平台。
训练方法与技术创新
DeepSeek-R1的研发过程体现了技术创新,它首先基于DeepSeek-V3-base模型,通过强化学习而非监督数据来发展其推理能力。随后,采用了一种结合监督学习和强化学习的多阶段训练方法,解决了初始模型中存在的可读性差和语言混合等问题,最终形成了性能优越的DeepSeek-R1模型。
性能展示
在多项基准测试中,DeepSeek-R1展现了强大的推理能力:
- 在AIME 2024数学测试中得分79.8%,MATH-500中得分97.3%;
- Codeforces上的评分为2029,超过了96.3%的人类程序员;
- 常识理解方面,在MMLU测试中准确率达到90.8%。
开源与商用许可
为了促进技术共享和降低开发者的理解成本,DeepSeek决定将其所有开源仓库(包括模型权重)统一采用MIT License,这是一种标准化且宽松的开源许可证,允许无限制地用于商业用途而无需申请。此外,DeepSeek的产品协议也进行了更新,明确支持用户进行“模型蒸馏”,即利用模型输出训练其他模型,进一步促进了技术的开放与创新。
API服务定价
对于希望直接使用API服务的用户,DeepSeek提供了如下定价方案:
- 每百万输入tokens:缓存命中时为1元,未命中时为4元;
- 每百万输出tokens:16元。
用户可以通过访问DeepSeek官网或官方App,开启“深度思考”模式来体验DeepSeek-R1的强大功能,完成各种复杂的推理任务。
评论0