DeepSeek发布mHC技术论文:流形约束超连接让大模型训练更稳更省成本,已验证270亿参数量

新技术6天前发布 小马良
14 0

2026年初,中国AI初创公司DeepSeek发布了一篇重磅技术论文,由创始人梁文锋合著。论文提出对基础AI模型训练的核心架构进行重新设计,推出全新技术“流形约束超连接(mHC”,旨在以更低成本训练更大规模的大模型,助力中国AI企业与资金、算力更具优势的美国竞争对手保持同步。

这一举措不仅是DeepSeek在技术降本增效上的关键探索,也反映了中国AI行业日益开放、协作的文化趋势——公开发表的研究成果占比正持续提升。对于行业观察者而言,DeepSeek的技术论文往往是其下一次重大模型发布的重要前瞻信号,此次mHC技术的披露,或将为其后续大模型迭代奠定核心基础。

DeepSeek发布mHC技术论文:流形约束超连接让大模型训练更稳更省成本,已验证270亿参数量

据论文介绍,DeepSeek的19人研究团队在30亿、90亿、270亿参数量的模型上对mHC技术进行了测试,结果显示该技术具备优秀的扩展性,且未显著增加计算负担。由谢振达、魏一轩和曹焕琦领导的研究团队在论文中指出:“实证结果证实,mHC能有效……实现稳定的大规模训练,相比传统的HC具有更优的可扩展性。”

一文看懂mHC:给大模型装个“训练稳定器”

1. 先搞懂:大模型为啥需要“信号高速公路”?

自2016年起,残差连接成为大语言模型的核心设计之一。可以将其理解为为模型内部的信号传播修建了一条“高速公路”——浅层网络学到的信息能直接传递到深层,避免了信息在层层传递中“丢失”或“衰减”,这是大模型能够不断扩大规模、提升能力,且不会在训练中“罢工”的关键。

为了进一步提升模型性能,研究者将“单车道高速”升级为“多车道”,这就是Hyper-Connections(HC技术)。多车道设计让信息交互更灵活,模型能力确实得到提升,但也带来了两个新问题:

  • 训练不稳定:无规则的多车道导致信号乱传,部分信号被无限放大,部分被快速削弱,模型训练时出现“情绪失控”;
  • 资源消耗大:多车道占用更多计算和内存资源,导致大规模训练时内存不足、运行速度变慢,成本大幅上升。

2. 核心妙招:mHC给多车道装“智能管控系统”

mHC(流形约束超连接)的核心逻辑十分清晰:保留多车道的性能优势,同时通过规则约束让信号传播既快又稳。这一目标通过两大关键设计实现:

(1)给车道加“智能红绿灯”:杜绝信号乱闯

mHC为多车道之间的“互通匝道”制定了一套均衡分配规则,如同安装了智能红绿灯,确保每个车道的信息能均匀分配到其他车道,避免出现信号“拥堵”(放大)或“空驶”(衰减)。

这套设计带来三大核心优势:

  • 信号不跑偏:保证信号平稳传播,不会突然强弱突变,从根源上解决训练失控问题;
  • 多层仍稳定:无论模型有多少层,信号经过层层传递后依然保持稳定,不会越传越乱;
  • 信息不浪费:不同车道的信息充分交流,且不会互相抵消,每一份有效信息都能发挥作用。

为实现这一规则,研究团队采用了高效算法,能快速让信号分配达到平衡,既不影响模型运行速度,又能保证管控效果,同时避免了信息之间的相互抵消。

(2)优化“公路运维”:省资源还提速

针对多车道资源消耗大的问题,mHC推出了三套“运维优化方案”,即使多开4条车道,电脑运行时间也仅增加6.7%,实现了内存节省与速度提升的双重目标:

  • 操作打包:将多个零散计算步骤合并为一个,减少内存访问次数,避免“堵车”;
  • 按需存数:训练时临时删除不用的中间数据,需要时再快速重建,大幅节省内存空间;
  • 同步执行:让计算与数据传输同步进行,无需等待单一任务完成,减少整体耗时。

3. 实际效果:大模型训练又稳又能打

研究团队在不同规模的模型上验证了mHC的效果,核心亮点如下:

  • 训练超稳定:超大规模模型训练时,传统HC技术会在训练一段时间后“崩溃”,而mHC能全程平稳运行;数据显示,HC的信号波动可达3000倍,mHC仅为1.6倍,稳定性提升显著;
  • 任务表现优:在推理、阅读理解、知识问答等核心任务中,mHC模型的表现均优于传统HC模型,其中推理任务正确率提升2.1%,阅读理解提升2.3%;
  • 扩展性出色:无论模型规模扩大还是训练数据增加,mHC的优势都能持续保持,为训练更大、更智能的大模型提供了技术支撑。

4. 对用户的意义:未来大模型更靠谱

mHC技术的价值不仅在于技术升级,更在于解决了大模型“越聪明越不稳定”的行业难题——无需为追求性能牺牲稳定性,也无需为保证稳定限制模型规模。

对于普通用户而言,这意味着未来的大模型将具备三大优势:

  • 回答更准确:减少“胡言乱语”的概率,输出内容的可靠性更高;
  • 运行更流畅:模型响应速度更快,不会出现明显卡顿;
  • 功能更强大:支持更多复杂任务,如精准翻译、智能助手、代码生成等。

未来,mHC技术还可能拓展到图片识别、视频分析等多模态AI领域,推动更多AI产品实现“稳又强”的体验升级。

一句话总结:mHC到底好在哪?

如果把大模型比作一辆跑车,残差连接是让跑车能跑远的“高速公路”,HC技术是提升跑车速度的“多车道拓宽”,而mHC技术就是给多车道装上的“智能红绿灯+高效运维系统”——既让跑车跑得更快(模型能力更强),又不会失控(训练更稳定),还不费油(节省内存、提升速度、降低成本)。

DeepSeek此次发布的mHC技术论文,为大模型行业提供了一条低成本、高稳定性的训练新路径。在大模型竞争日益激烈的当下,技术降本增效已成为核心竞争力之一,mHC技术的落地应用,不仅将助力DeepSeek在后续模型迭代中占据优势,也可能为中国AI行业的整体发展提供新的技术思路。

© 版权声明

相关文章

暂无评论

none
暂无评论...