清华大学与瑞莱智慧联合团队推出RealSafe-R1：基于 DeepSeek R1 的安全优化大语言模型

563 0

随着大语言模型（LLMs）在各个领域的广泛应用，其安全性问题日益受到关注。尽管这些模型在性能上表现出色，但在面对恶意查询和越狱攻击时，仍存在一定的风险。为了应对这一挑战，清华大学与瑞莱智慧联合团队推出了 RealSafe-R1 大语言模型，该模型基于 DeepSeek R1 进行深度优化与后训练，在确保性能稳定的基础上，显著提升了安全性。

GitHub：https://github.com/thu-ml/STAIR

RealSafe-R1：模型概述

RealSafe-R1 是基于 DeepSeek R1 的优化版本，旨在提升模型的安全性和鲁棒性。该模型通过深度优化和后训练，实现了以下目标：

显著提升安全性：RealSafe-R1 在安全性方面大幅优于 DeepSeek R1，并且在国际上被认为安全性较好的闭源大模型（如 Claude3.5、GPT-4o）中表现突出。
保持性能稳定：在提升安全性的同时，RealSafe-R1 保留了 DeepSeek R1 的通用性能，确保模型在实际应用中的可用性。
多尺寸模型支持：RealSafe-R1 提供多种尺寸的模型版本，包括 7B 和 32B 模型，分别基于 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B 后训练得到。

RealSafe-R1 的各尺寸模型及数据集将于一周后陆续开放下载，为开发者和研究者提供更多的选择和灵活性。

STAIR 框架：提升模型安全性的核心技术

为了增强 RealSafe-R1 的安全性和推理能力，研究团队提出了 STAIR 框架。STAIR 框架通过以下三阶段方法，系统性地提升基础模型在复杂安全对齐场景中的表现：

结构化 CoT 格式对齐：通过少量数据对模型进行结构化 Chain-of-Thought（CoT）格式对齐，使模型具备逐步推理能力。模型需要按照特定格式输出推理步骤和最终答案。
安全感知的蒙特卡洛树搜索（SI-MCTS）：基于 CoT 格式对齐后的模型，使用 SI-MCTS 生成推理数据。SI-MCTS 在传统的 MCTS 基础上引入了安全信息，通过安全感知的奖励函数优化推理路径，使模型更倾向于生成安全的响应。
迭代自提升：通过 SI-MCTS 生成的数据，使用直接偏好优化（DPO）对模型进行迭代优化。每次迭代都会生成更高质量的推理数据，进一步提升模型的安全性和推理能力。

STAIR 框架的关键特点

1. 内省推理（Introspective Reasoning）

STAIR 通过逐步推理（CoT）的方式，使模型能够更深入地分析查询的潜在风险，而不是仅仅依赖于直接拒绝。这种方法能够有效识别和拒绝有害查询，减少模型生成有害内容的风险。

2. 安全感知的蒙特卡洛树搜索（SI-MCTS）

SI-MCTS 在生成推理数据时引入安全信息，优化模型的推理路径。通过安全感知的奖励函数，模型能够更谨慎地评估风险，并生成更安全的响应。

3. 迭代自提升（Iterative Self-Improvement）

STAIR 通过迭代优化的方式，利用模型自身生成的数据进行训练，逐步提升模型的安全性和推理能力。每次迭代都会生成更高质量的推理数据，进一步优化模型的表现。

4. 测试时推理优化（Test-time Scaling）

在测试时，STAIR 使用更复杂的搜索算法（如 Beam Search 和 Best-of-N），利用训练好的过程奖励模型（PRM）选择最优的推理路径，进一步提升模型的推理质量和安全性。

实验结果与性能表现

实验结果表明，STAIR 框架在提升大语言模型安全性的同时，保持了通用性能。具体表现如下：

安全性提升

在 StrongReject 数据集 上，STAIR 相较基础模型的良性分数绝对值提升了 0.47（从 0.40 提升到 0.87），安全性提升一倍以上，显著高于其他基线方法。
STAIR 框架能够有效拒绝恶意问题，不仅在直接询问的情景下保持安全性，还能通过深入分析提升针对越狱攻击的鲁棒性。