随着大语言模型(LLMs)在各个领域的广泛应用,其安全性问题日益受到关注。尽管这些模型在性能上表现出色,但在面对恶意查询和越狱攻击时,仍存在一定的风险。为了应对这一挑战,清华大学与瑞莱智慧联合团队推出了 RealSafe-R1 大语言模型,该模型基于 DeepSeek R1 进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性。
RealSafe-R1:模型概述
RealSafe-R1 是基于 DeepSeek R1 的优化版本,旨在提升模型的安全性和鲁棒性。该模型通过深度优化和后训练,实现了以下目标:
- 显著提升安全性:RealSafe-R1 在安全性方面大幅优于 DeepSeek R1,并且在国际上被认为安全性较好的闭源大模型(如 Claude3.5、GPT-4o)中表现突出。
- 保持性能稳定:在提升安全性的同时,RealSafe-R1 保留了 DeepSeek R1 的通用性能,确保模型在实际应用中的可用性。
- 多尺寸模型支持:RealSafe-R1 提供多种尺寸的模型版本,包括 7B 和 32B 模型,分别基于 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B 后训练得到。
RealSafe-R1 的各尺寸模型及数据集将于一周后陆续开放下载,为开发者和研究者提供更多的选择和灵活性。

STAIR 框架:提升模型安全性的核心技术
为了增强 RealSafe-R1 的安全性和推理能力,研究团队提出了 STAIR 框架。STAIR 框架通过以下三阶段方法,系统性地提升基础模型在复杂安全对齐场景中的表现:
- 结构化 CoT 格式对齐:通过少量数据对模型进行结构化 Chain-of-Thought(CoT)格式对齐,使模型具备逐步推理能力。模型需要按照特定格式输出推理步骤和最终答案。
- 安全感知的蒙特卡洛树搜索(SI-MCTS):基于 CoT 格式对齐后的模型,使用 SI-MCTS 生成推理数据。SI-MCTS 在传统的 MCTS 基础上引入了安全信息,通过安全感知的奖励函数优化推理路径,使模型更倾向于生成安全的响应。
- 迭代自提升:通过 SI-MCTS 生成的数据,使用直接偏好优化(DPO)对模型进行迭代优化。每次迭代都会生成更高质量的推理数据,进一步提升模型的安全性和推理能力。

STAIR 框架的关键特点
1. 内省推理(Introspective Reasoning)
STAIR 通过逐步推理(CoT)的方式,使模型能够更深入地分析查询的潜在风险,而不是仅仅依赖于直接拒绝。这种方法能够有效识别和拒绝有害查询,减少模型生成有害内容的风险。
2. 安全感知的蒙特卡洛树搜索(SI-MCTS)
SI-MCTS 在生成推理数据时引入安全信息,优化模型的推理路径。通过安全感知的奖励函数,模型能够更谨慎地评估风险,并生成更安全的响应。
3. 迭代自提升(Iterative Self-Improvement)
STAIR 通过迭代优化的方式,利用模型自身生成的数据进行训练,逐步提升模型的安全性和推理能力。每次迭代都会生成更高质量的推理数据,进一步优化模型的表现。
4. 测试时推理优化(Test-time Scaling)
在测试时,STAIR 使用更复杂的搜索算法(如 Beam Search 和 Best-of-N),利用训练好的过程奖励模型(PRM)选择最优的推理路径,进一步提升模型的推理质量和安全性。
实验结果与性能表现
实验结果表明,STAIR 框架在提升大语言模型安全性的同时,保持了通用性能。具体表现如下:
安全性提升
- 在 StrongReject 数据集 上,STAIR 相较基础模型的良性分数绝对值提升了 0.47(从 0.40 提升到 0.87),安全性提升一倍以上,显著高于其他基线方法。
- STAIR 框架能够有效拒绝恶意问题,不仅在直接询问的情景下保持安全性,还能通过深入分析提升针对越狱攻击的鲁棒性。

通用性保持
- 在 GSM8k、SimpleQA、AdvGLUE、AlpacaEval 等通用性能测试中,STAIR 保持甚至提高了模型的推理能力、事实性和鲁棒性。
- STAIR 在提升安全性的同时,减少了安全与性能之间的权衡,确保模型在实际应用中的可用性。
应用场景与优势
有害内容检测与拒绝
STAIR 框架能够有效识别和拒绝有害内容(如暴力、歧视、仇恨言论等),适用于需要严格内容审核的场景,如社交媒体平台、在线教育工具等。
抵抗 jailbreak 攻击
STAIR 能够有效抵抗复杂的 jailbreak 攻击,适用于需要高安全性的应用场景,如法律咨询、医疗诊断等。
提升模型的有用性和安全性
通过内省推理和测试时推理优化,STAIR 在提升安全性的同时,能够更好地保留模型的有用性和性能,适用于需要平衡安全性和性能的场景。
推理优化
STAIR 的测试时推理优化技术可以应用于需要高质量推理的场景,如复杂问题解答、代码生成等。