浙大×华为联合推出 DeepSeek-R1-Safe：基于昇腾的安全大模型

288 0

浙江大学网络空间安全学院与华为合作，发布了一款基于 DeepSeek 模型架构 的安全增强型大语言模型 —— DeepSeek-R1-Safe。该模型依托华为昇腾（Ascend）AI 芯片及 MindSpeedLLM 等软硬协同框架开发，在保障强大推理能力的同时，显著提升了模型在内容生成中的安全性与合规性。

GitHub：https://github.com/ZJUAISafety/DeepSeek-R1-Safe
模型：https://www.modelscope.cn/models/ZJUAISafety/DeepSeek-R1-Safe

这是国内高校与企业联合推进“可信赖AI”落地的一次重要实践。

核心目标：让大模型更安全、更可控

随着大模型广泛应用，其可能产生的有害输出、偏见言论或违规内容引发广泛关注。DeepSeek-R1-Safe 的研发初衷正是为了解决这一关键问题：

在不牺牲通用能力的前提下，构建具备主动安全意识的对话系统。

项目团队通过全流程安全设计，实现了从数据到训练再到评估的闭环控制。

四阶段训练流程

1. 安全语料构建：双语合规数据集

团队依据中国法律法规、社会主义核心价值观以及国际通行准则，构建了中英文双语安全语料库。每条数据包含：

危险提问（如诱导违法、传播虚假信息）
安全思维链标注（模型应如何识别风险）
合规回复范例

这些数据可用于监督训练、微调和测试，形成完整的能力验证链条。

2. 安全监督训练（Safety Supervised Fine-tuning）

在标准指令微调基础上，引入带有安全逻辑的样本进行专项训练，使模型初步具备风险识别与合规响应能力。

3. 安全强化学习（Safety RLHF）

采用类 RLHF 方法，结合人工反馈与自动评估机制，进一步优化模型行为策略，使其在面对敏感请求时能主动拒绝并提供引导性回应。

4. 综合性能评测

对模型进行双重评估：

通用能力测试：涵盖常识推理、代码生成、数学解题等；
安全性能测试：使用红队攻击（Red Teaming）、对抗样本探测等方式检验抗干扰能力。

结果显示，DeepSeek-R1-Safe 在多项安全指标上优于基线模型，同时保持了接近原版的推理水平。

开源进展：已发布满血版安全模型

目前，研究团队已开源经过完整安全训练的 DeepSeek-R1 满血版模型，支持开发者用于：

安全对齐研究
合规模型部署
风险检测与防御机制探索

此举有助于推动行业建立统一的安全评估标准与训练范式。

推理部署要求

由于模型规模较大，运行 DeepSeek-R1-Safe 对硬件有较高要求：

💻 最低硬件配置

服务器数量：至少 8 台
每台配置：8 张 Ascend 910B NPU（华为昇腾910B芯片）
总计需 64 张 910B 芯片

适用于高性能计算集群或企业级 AI 推理平台。

软件环境依赖

软件组件	版本要求
昇腾 NPU 驱动	在研版本
昇腾 NPU 固件	在研版本
Toolkit（开发套件）	在研版本
Kernel（算子包）	在研版本
NNAL（Ascend Transformer Boost 加速库）	在研版本
Python	3.10
PyTorch	2.6
torch_npu 插件	在研版本
apex	在研版本