深度求索开源其最新大语言模型 DeepSeek V3

国内最积极开源的 AI 公司 深度求索,在圣诞夜直接开源了其最新的大语言模型 DeepSeek V3,甚至还没来得及写模型介绍就已经在 Hugging Face 上线,此模型也在这两天上线其聊天官网和API平台。

关键亮点

  • 参数量高达 685B,采用 MoE(混合专家)架构,包含 256 个专家,每次选取前 8 个专家,使用 sigmoid 路由方式
  • 性能大幅提升:在 aider 多语言编程测评中,成功率从 V2.5 的 17% 暴增至 48%

0

评论0

没有账号?注册  忘记密码?