深度求索开源第二弹DeepEP:一款专为MoE模型和专家并行(EP)设计的开源通信库在大语言模型领域,专家混合(MoE)架构因其能在不显著增加计算量的情况下提升模型容量而受到青睐。但MoE模型在GPU间通信方面面临挑战,传统的全对全通信方法可能成为瓶颈。为此,深度求索开源第二弹Dee...新技术# DeepEP# DeepSeek# 深度求索11个月前02540
DeepSeek发布DeepSeek-Prover-V2-671B:6710亿参数的数学AI模型,推动定理证明自动化DeepSeek在今天悄悄地升级了其专注于数学定理证明和推理的 AI 模型DeepSeek-Prover。最新版本 DeepSeek-Prover-V2-671B已于今天在Hugging Face 上...早报# DeepSeek# DeepSeek-Prover-V2-671B9个月前02530
DeepSeek 宣布将于下周开源五个经过实战检验的代码库昨晚,DeepSeek 宣布了一项令人瞩目的计划:下周将陆续开源五个代码库,这些代码库已经在生产环境中经过了测试、部署和实战检验。DeepSeek 表示,这些开源项目将“毫无保留地分享我们微小但真诚的...早报# DeepSeek11个月前02520
DeepSeek推出基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3-8B深度求索在本周对DeepSeek R1进行了升级,还开源了此版本模型DeepSeek-R1-0528,官方还推出了一个基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3...大语言模型# DeepSeek# DeepSeek-R1-0528-Qwen3-8B# 深度求索8个月前02400
DeepSeek 推出 DeepSeek-Prover-V2:为 Lean 4 形式化定理证明设计的开源大语言模型DeepSeek于4月30日发布了 DeepSeek-Prover-V2,这是一个专门用于 Lean 4 形式化定理证明的开源大语言模型。该模型的设计目标是将非形式化的数学推理与形式化的证明构建整合到...大语言模型# DeepSeek# DeepSeek-Prover-V2# DeepSeek-Prover-V2-671B9个月前02280
DeepSeek 开源周第四弹:DualPipe 和 EPLB 的发布今天是 DeepSeek 开源周的第四天。与前三天相比,今天的开源项目公布稍晚一些,让关注者们等待得略显焦急,不过等待的结果总是值得的!DeepSeek 今日公布了两项重要的开源内容:DualPipe...新技术# DeepSeek# DualPipe# EPLB11个月前02240
DeepSeek开源高效解码内核FlashMLA:从英伟达Hopper GPU中榨取最大性能随着全球对高性能计算需求的不断增长,AI模型训练和推理对硬件资源的需求也在快速攀升。然而,由于美国出口限制等原因,中国市场更多依赖于英伟达的“缩减版”H800 GPU(相较于H100功能有所削减)。这...新技术# DeepSeek# FlashMLA# H80011个月前02230
DeepSeek低调发布DeepSeek-V3-0324,性能超过Claude Sonnet 3.5,可在消费级硬件部署DeepSeek在昨晚悄悄地发布了一款新的大语言模型——DeepSeek-V3-0324。这款模型不仅因其出色的能力在AI行业掀起波澜,更因其独特的部署方式引发了广泛关注。该模型已经在Hugging ...早报# DeepSeek# Deepseek V3# DeepSeek-V3-032410个月前02000
微软禁止员工使用DeepSeek应用,数据安全与宣传风险成主因近日,微软副董事长兼总裁布拉德·史密斯(Brad Smith)在美国参议院听证会上公开表示,由于数据安全和潜在宣传问题,微软已禁止员工使用DeepSeek应用。这一决定标志着微软首次公开对一款AI工具...百科# DeepSeek# 微软9个月前01940
DeepSeek 发布DeepSeek-V3.2-Exp:首次引入细粒度稀疏注意力,API 成本直降 50%+在国庆节假期前夕,DeepSeek 正式推出 DeepSeek-V3.2-Exp ——一个面向未来架构演进的实验性(Experimental)版本。该模型并非最终发布版,而是通向新一代高效架构的关键中...大语言模型# DeepSeek# DeepSeek-V3.2-Exp4个月前01880
DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路DeepSeek 开源了 DeepSeek-OCR,一个仅 30 亿参数的视觉语言模型(VLM),却在 OCR 与文本压缩领域展现出令人瞩目的创新力。其核心并非追求更大参数量,而是提出一种“光学压缩...多模态模型# DeepSeek# DeepSeek-OCR3个月前01410
别再只会说 “总结一下”:7 种高价值提示词,让 AI 真正为你所用很多人用 ChatGPT、DeepSeek等AI工具时,习惯性输入“总结一下这篇文章”或“帮我概括这段内容”。这类指令看似省事,实则浪费了 AI 的潜力——低质量的提示,只会带来低质量的输出。 AI ...提示词# ChatGPT# DeepSeek# 提示词2个月前0360