DeepSeek发布mHC技术论文:流形约束超连接让大模型训练更稳更省成本,已验证270亿参数量2026年初,中国AI初创公司DeepSeek发布了一篇重磅技术论文,由创始人梁文锋合著。论文提出对基础AI模型训练的核心架构进行重新设计,推出全新技术“流形约束超连接(mHC)”,旨在以更低成本训练...新技术# DeepSeek# mHC4周前0250
685B参数DeepSeekMath-V2开源!IMO/CMO金牌+Putnam近满分,颠覆数学推理范式数学推理领域迎来里程碑式突破!DeepSeek AI 正式发布开源数学模型 DeepSeekMath-V2,这款基于 685B 参数专家混合(MoE)架构的模型,不仅在 IMO 2025、CMO 20...大语言模型# DeepSeek# DeepSeekMath-V2# 深度求索2个月前0240
Databricks 联合创始人:美国必须拥抱开源,才能在 AI 上击败中国在近期举行的 Cerebral Valley AI 峰会上,Databricks 联合创始人、风投机构 Laude 创始人 Andy Konwinski 提出一个明确观点:美国若想在人工智能领域维持领...早报# Databricks# DeepSeek# 开源3个月前0220
告别 GPU 算力浪费!DeepSeek 条件记忆技术:让大模型检索静态知识更高效当企业级大语言模型(LLM)在回答“iPhone 15 的电池容量是多少?”或“标准 NDA 条款包含哪些内容?”这类问题时,它正在动用为复杂推理设计的昂贵 GPU 计算资源——仅仅为了检索一段静态信...新技术# DeepSeek# Engram# 条件记忆2周前0190