浙江大学网络空间安全学院与华为合作,发布了一款基于 DeepSeek 模型架构 的安全增强型大语言模型 —— DeepSeek-R1-Safe。该模型依托华为昇腾(Ascend)AI 芯片及 MindSpeedLLM 等软硬协同框架开发,在保障强大推理能力的同时,显著提升了模型在内容生成中的安全性与合规性。
- GitHub:https://github.com/ZJUAISafety/DeepSeek-R1-Safe
- 模型:https://www.modelscope.cn/models/ZJUAISafety/DeepSeek-R1-Safe
这是国内高校与企业联合推进“可信赖AI”落地的一次重要实践。

核心目标:让大模型更安全、更可控
随着大模型广泛应用,其可能产生的有害输出、偏见言论或违规内容引发广泛关注。DeepSeek-R1-Safe 的研发初衷正是为了解决这一关键问题:
在不牺牲通用能力的前提下,构建具备主动安全意识的对话系统。
项目团队通过全流程安全设计,实现了从数据到训练再到评估的闭环控制。
四阶段训练流程
1. 安全语料构建:双语合规数据集
团队依据中国法律法规、社会主义核心价值观以及国际通行准则,构建了中英文双语安全语料库。每条数据包含:
- 危险提问(如诱导违法、传播虚假信息)
- 安全思维链标注(模型应如何识别风险)
- 合规回复范例
这些数据可用于监督训练、微调和测试,形成完整的能力验证链条。

2. 安全监督训练(Safety Supervised Fine-tuning)
在标准指令微调基础上,引入带有安全逻辑的样本进行专项训练,使模型初步具备风险识别与合规响应能力。
3. 安全强化学习(Safety RLHF)
采用类 RLHF 方法,结合人工反馈与自动评估机制,进一步优化模型行为策略,使其在面对敏感请求时能主动拒绝并提供引导性回应。
4. 综合性能评测
对模型进行双重评估:
- 通用能力测试:涵盖常识推理、代码生成、数学解题等;
- 安全性能测试:使用红队攻击(Red Teaming)、对抗样本探测等方式检验抗干扰能力。
结果显示,DeepSeek-R1-Safe 在多项安全指标上优于基线模型,同时保持了接近原版的推理水平。

开源进展:已发布满血版安全模型
目前,研究团队已开源经过完整安全训练的 DeepSeek-R1 满血版模型,支持开发者用于:
- 安全对齐研究
- 合规模型部署
- 风险检测与防御机制探索
此举有助于推动行业建立统一的安全评估标准与训练范式。
推理部署要求
由于模型规模较大,运行 DeepSeek-R1-Safe 对硬件有较高要求:
💻 最低硬件配置
- 服务器数量:至少 8 台
- 每台配置:8 张 Ascend 910B NPU(华为昇腾910B芯片)
- 总计需 64 张 910B 芯片
适用于高性能计算集群或企业级 AI 推理平台。
软件环境依赖
| 软件组件 | 版本要求 |
|---|---|
| 昇腾 NPU 驱动 | 在研版本 |
| 昇腾 NPU 固件 | 在研版本 |
| Toolkit(开发套件) | 在研版本 |
| Kernel(算子包) | 在研版本 |
| NNAL(Ascend Transformer Boost 加速库) | 在研版本 |
| Python | 3.10 |
| PyTorch | 2.6 |
| torch_npu 插件 | 在研版本 |
| apex | 在研版本 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















