685B参数DeepSeekMath-V2开源!IMO/CMO金牌+Putnam近满分,颠覆数学推理范式数学推理领域迎来里程碑式突破!DeepSeek AI 正式发布开源数学模型 DeepSeekMath-V2,这款基于 685B 参数专家混合(MoE)架构的模型,不仅在 IMO 2025、CMO 20...大语言模型# DeepSeek# DeepSeekMath-V2# 深度求索1周前0110
深度求索发布 DeepSeek-V3.1:混合思考模式 + 128K 上下文,API 同步升级并支持 Anthropic 格式深度求索(DeepSeek)正式推出 DeepSeek-V3.1 —— 一个在架构设计、推理效率和智能体能力上全面升级的新版本模型。此次更新不仅提升了性能,更引入了混合思考模式,让同一个模型可灵活适应...大语言模型# DeepSeek-V3.1# 深度求索4个月前02170
DeepSeek推出基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3-8B深度求索在本周对DeepSeek R1进行了升级,还开源了此版本模型DeepSeek-R1-0528,官方还推出了一个基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3...大语言模型# DeepSeek# DeepSeek-R1-0528-Qwen3-8B# 深度求索6个月前02240
深度求索开源第三弹DeepGEMM:专为高效 FP8 矩阵乘法设计的库在开源周的第三天,DeepSeek 推出了一个名为 DeepGEMM 的新库,专为高效、简洁的 FP8 通用矩阵乘法(GEMM)而设计。这一工具旨在解决现代 AI 计算中矩阵乘法的效率和精度问题,特别...新技术# DeepGEMM# DeepSeek# 深度求索9个月前02690
深度求索开源第二弹DeepEP:一款专为MoE模型和专家并行(EP)设计的开源通信库在大语言模型领域,专家混合(MoE)架构因其能在不显著增加计算量的情况下提升模型容量而受到青睐。但MoE模型在GPU间通信方面面临挑战,传统的全对全通信方法可能成为瓶颈。为此,深度求索开源第二弹Dee...新技术# DeepEP# DeepSeek# 深度求索9个月前02520
深度求索推出统一图像理解和生成的创新框架JanusFlow:将图像理解和生成统一在一个模型中来自深度求索(DeepSeek-AI)、香港大学、清华大学和北京大学的研究人员提出了一种名为JanusFlow的创新框架,该框架将图像理解和生成统一在一个模型中。JanusFlow引入了一个极简的架构...多模态模型# JanusFlow# 深度求索10个月前04690
深度求索推出开源视觉模型DeepSeek-VL2 :支持动态分辨率、处理科研图表、解析各种梗图等DeepSeek-VL2 是由深度求索(DeepSeek-AI)推出的一系列先进混合专家(MoE, Mixture of Experts)视觉语言模型,旨在显著提升其前代产品 DeepSeek-VL ...多模态模型# DeepSeek-VL 2# 深度求索10个月前02750
深度求索发布开源推理大语言模型DeepSeek-R1,性能对标 OpenAI o1 正式版幻方量化旗下的AI公司深度求索(DeepSeek)今日正式发布了其最新的大语言模型DeepSeek-R1,并同步开源了模型权重。这一举措旨在通过提供高性能的开源解决方案,推动人工智能领域的发展。 地址...大语言模型# DeepSeek# DeepSeek-R1# 深度求索10个月前03230
深度求索开源多模态理解与生成模型 Janus-Pro,已释出两个版本Janus-Pro-7B和Janus-Pro-1B深度求索(DeepSeek-AI)在DeepSeek-R1爆火后,又在今天释出了多模态理解与生成模型 Janus-Pro,它是之前工作 Janus 的升级版本,目前释出了两个版本Janus-Pro-7...多模态模型# Janus-Pro# Janus-Pro-1B# Janus-Pro-7B10个月前02840