DeepSeek

排序

发布更新浏览点赞

韩国阻止从本地应用商店下载 DeepSeek 应用

韩国官员于上周六暂时限制了中国AI应用DeepSeek在该国应用商店的下载，原因是对该公司如何处理用户数据存在担忧。此举引发了对隐私保护和数据安全问题的关注。事件背景韩国个人信息保护委员会（PIP...

早报 # DeepSeek # 韩国

1年前

02690

DeepSeek开源周第五弹：高性能分布式文件系统 3FS和Smallpond 数据处理框架

在开源周的第五天，DeepSeek 正式发布了 3FS（Fire-Flyer File System）。这是一个专为现代 SSD 和 RDMA 网络设计的并行文件系统，旨在为深度学习等数据密集型应用提...

新技术 # 3FS # DeepSeek # Smallpond

1年前

02660

深度求索开源第二弹DeepEP：一款专为MoE模型和专家并行（EP）设计的开源通信库

在大语言模型领域，专家混合（MoE）架构因其能在不显著增加计算量的情况下提升模型容量而受到青睐。但MoE模型在GPU间通信方面面临挑战，传统的全对全通信方法可能成为瓶颈。为此，深度求索开源第二弹Dee...

新技术 # DeepEP # DeepSeek # 深度求索

1年前

02600

DeepSeek 推出 DeepSeek-Prover-V2：为 Lean 4 形式化定理证明设计的开源大语言模型

DeepSeek于4月30日发布了 DeepSeek-Prover-V2，这是一个专门用于 Lean 4 形式化定理证明的开源大语言模型。该模型的设计目标是将非形式化的数学推理与形式化的证明构建整合到...

大语言模型 # DeepSeek # DeepSeek-Prover-V2 # DeepSeek-Prover-V2-671B

11个月前

02590

DeepSeek 宣布将于下周开源五个经过实战检验的代码库

昨晚，DeepSeek 宣布了一项令人瞩目的计划：下周将陆续开源五个代码库，这些代码库已经在生产环境中经过了测试、部署和实战检验。DeepSeek 表示，这些开源项目将“毫无保留地分享我们微小但真诚的...

早报 # DeepSeek

1年前

02540

DeepSeek开源高效解码内核FlashMLA：从英伟达Hopper GPU中榨取最大性能

随着全球对高性能计算需求的不断增长，AI模型训练和推理对硬件资源的需求也在快速攀升。然而，由于美国出口限制等原因，中国市场更多依赖于英伟达的“缩减版”H800 GPU（相较于H100功能有所削减）。这...

新技术 # DeepSeek # FlashMLA # H800

1年前

02320

DeepSeek 开源周第四弹：DualPipe 和 EPLB 的发布

今天是 DeepSeek 开源周的第四天。与前三天相比，今天的开源项目公布稍晚一些，让关注者们等待得略显焦急，不过等待的结果总是值得的！DeepSeek 今日公布了两项重要的开源内容：DualPipe...

新技术 # DeepSeek # DualPipe # EPLB

1年前

02300

DeepSeek低调发布DeepSeek-V3-0324，性能超过Claude Sonnet 3.5，可在消费级硬件部署

DeepSeek在昨晚悄悄地发布了一款新的大语言模型——DeepSeek-V3-0324。这款模型不仅因其出色的能力在AI行业掀起波澜，更因其独特的部署方式引发了广泛关注。该模型已经在Hugging ...

早报 # DeepSeek # Deepseek V3 # DeepSeek-V3-0324

1年前

02030

DeepSeek 发布DeepSeek-V3.2-Exp：首次引入细粒度稀疏注意力，API 成本直降 50%+

在国庆节假期前夕，DeepSeek 正式推出 DeepSeek-V3.2-Exp ——一个面向未来架构演进的实验性（Experimental）版本。该模型并非最终发布版，而是通向新一代高效架构的关键中...

大语言模型 # DeepSeek # DeepSeek-V3.2-Exp

6个月前

02010

微软禁止员工使用DeepSeek应用，数据安全与宣传风险成主因

近日，微软副董事长兼总裁布拉德·史密斯（Brad Smith）在美国参议院听证会上公开表示，由于数据安全和潜在宣传问题，微软已禁止员工使用DeepSeek应用。这一决定标志着微软首次公开对一款AI工具...

百科 # DeepSeek # 微软

11个月前

02000

DeepSeek 开源DeepSeek-OCR ：用视觉模态压缩文本，3B 小模型撬动长上下文新思路

DeepSeek 开源了 DeepSeek-OCR，一个仅 30 亿参数的视觉语言模型（VLM），却在 OCR 与文本压缩领域展现出令人瞩目的创新力。其核心并非追求更大参数量，而是提出一种“光学压缩...

多模态模型 # DeepSeek # DeepSeek-OCR

5个月前

01830

告别 GPU 算力浪费！DeepSeek 条件记忆技术：让大模型检索静态知识更高效

当企业级大语言模型（LLM）在回答“iPhone 15 的电池容量是多少？”或“标准 NDA 条款包含哪些内容？”这类问题时，它正在动用为复杂推理设计的昂贵 GPU 计算资源——仅仅为了检索一段静态信...

新技术 # DeepSeek # Engram # 条件记忆

3个月前

0490

加载更多