浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

大语言模型3个月前发布 小马良
158 0

浙江大学网络空间安全学院与华为合作,发布了一款基于 DeepSeek 模型架构 的安全增强型大语言模型 —— DeepSeek-R1-Safe。该模型依托华为昇腾(Ascend)AI 芯片及 MindSpeedLLM 等软硬协同框架开发,在保障强大推理能力的同时,显著提升了模型在内容生成中的安全性与合规性。

这是国内高校与企业联合推进“可信赖AI”落地的一次重要实践。

浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

核心目标:让大模型更安全、更可控

随着大模型广泛应用,其可能产生的有害输出、偏见言论或违规内容引发广泛关注。DeepSeek-R1-Safe 的研发初衷正是为了解决这一关键问题:

在不牺牲通用能力的前提下,构建具备主动安全意识的对话系统。

项目团队通过全流程安全设计,实现了从数据到训练再到评估的闭环控制。

四阶段训练流程

1. 安全语料构建:双语合规数据集

团队依据中国法律法规、社会主义核心价值观以及国际通行准则,构建了中英文双语安全语料库。每条数据包含:

  • 危险提问(如诱导违法、传播虚假信息)
  • 安全思维链标注(模型应如何识别风险)
  • 合规回复范例

这些数据可用于监督训练、微调和测试,形成完整的能力验证链条。

浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

2. 安全监督训练(Safety Supervised Fine-tuning)

在标准指令微调基础上,引入带有安全逻辑的样本进行专项训练,使模型初步具备风险识别与合规响应能力。

3. 安全强化学习(Safety RLHF)

采用类 RLHF 方法,结合人工反馈与自动评估机制,进一步优化模型行为策略,使其在面对敏感请求时能主动拒绝并提供引导性回应。

4. 综合性能评测

对模型进行双重评估:

  • 通用能力测试:涵盖常识推理、代码生成、数学解题等;
  • 安全性能测试:使用红队攻击(Red Teaming)、对抗样本探测等方式检验抗干扰能力。

结果显示,DeepSeek-R1-Safe 在多项安全指标上优于基线模型,同时保持了接近原版的推理水平。

浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

开源进展:已发布满血版安全模型

目前,研究团队已开源经过完整安全训练的 DeepSeek-R1 满血版模型,支持开发者用于:

  • 安全对齐研究
  • 合规模型部署
  • 风险检测与防御机制探索

此举有助于推动行业建立统一的安全评估标准与训练范式。

推理部署要求

由于模型规模较大,运行 DeepSeek-R1-Safe 对硬件有较高要求:

💻 最低硬件配置

  • 服务器数量:至少 8 台
  • 每台配置:8 张 Ascend 910B NPU(华为昇腾910B芯片)
  • 总计需 64 张 910B 芯片

适用于高性能计算集群或企业级 AI 推理平台。

软件环境依赖

软件组件版本要求
昇腾 NPU 驱动在研版本
昇腾 NPU 固件在研版本
Toolkit(开发套件)在研版本
Kernel(算子包)在研版本
NNAL(Ascend Transformer Boost 加速库)在研版本
Python3.10
PyTorch2.6
torch_npu 插件在研版本
apex在研版本
© 版权声明

相关文章

暂无评论

none
暂无评论...