OpenAI 更新《准备框架》:强化 AI 安全,应对高风险能力

早报2个月前发布 小马良
106 0

随着 AI 技术的快速发展,其带来的潜在风险也日益受到关注。OpenAI 今天宣布更新其“准备框架”,旨在更有效地衡量和防范前沿 AI 能力可能造成的严重伤害。此次更新引入了更明确的高风险能力优先级标准、更清晰的能力类别、明确的能力水平、可扩展的评估机制以及其他重要改进,以确保 AI 的安全性和可靠性。

OpenAI 更新《准备框架》:强化 AI 安全,应对高风险能力

更新的核心内容

1. 明确高风险能力的优先标准

OpenAI 引入了一个结构化的风险评估流程,用于判断前沿 AI 能力是否可能导致严重危害,并根据定义的标准将其分配到相应类别。OpenAI 专注于五个关键标准:风险应为可信的、可测量的、严重的、新的且即时或不可逆的。这些标准帮助 OpenAI 衡量相关能力的进展,并构建针对性的防护措施。

2. 更清晰的能力类别

OpenAI 更新了能力分类,以更好地应用这些标准并反映当前的理解。能力被分为两大类:

  • 跟踪类别:这些是已经建立成熟评估和持续防护的领域,包括生物与化学能力、网络安全能力以及 AI 自我改进能力。OpenAI 认为,AI 在科学、工程和研究中的应用将带来一些最具变革性的益处,因此尽早投资于这些双重用途类别的测量和防护措施至关重要。
  • 研究类别:这是一组可能带来严重危害风险的新兴能力,尚未满足成为跟踪类别的标准。OpenAI 正在为这些类别开发威胁模型和高级能力评估,重点关注长期自主性、故意低估、自主复制与适应、破坏防护措施以及核与辐射等领域。

此外,OpenAI 将“说服风险”单独处理,包括通过《模型规范》限制其工具用于政治竞选或游说,并持续调查产品的滥用情况。

3. 明确的能力级别

OpenAI 将能力级别简化为两个清晰的阈值,分别对应具体的运营承诺:

  • 高能力:可能放大现有严重危害路径的能力。达到这一级别的受控系统在部署前必须具备充分最小化相关严重危害风险的防护措施。
  • 关键能力:可能引入前所未有的新严重危害路径的能力。达到这一级别的系统在开发期间也需具备充分最小化相关风险的防护措施。

安全顾问小组(SAG),一个由内部安全领导者组成的跨职能团队,负责审查防护措施是否充分最小化严重风险,并提出针对性建议,包括批准部署、要求进一步评估或加强防护措施。他们的指导意见将提交给 OpenAI 领导层进行最终决策,并承诺如果出现新证据,将持续重新评估防护措施。

4. 可扩展的评估以支持更频繁的测试

推理的进步使得模型能够更频繁地改进,有时无需进行重大的新训练。因此,评估也必须能够扩展。OpenAI 构建了一套不断增长的自动化评估工具,以跟上这种更快的节奏,同时继续进行专家主导的“深度探究”,以确保可扩展评估测量的是正确的内容。

5. 应对前沿格局的变化

如果其他前沿 AI 开发者发布了高风险系统但缺乏可比的防护措施,OpenAI 可能会调整其要求。然而,OpenAI 将首先严格确认风险格局确实发生了变化,公开承认正在进行调整,评估调整不会显著增加总体严重危害风险,并仍保持更高水平的防护措施。

6. 定义的防护措施报告

OpenAI 专注于生成能力报告(原称为“准备计分卡”),评估模型是否跨越了构成风险的阈值。现在,OpenAI 增加了更多细节,说明将如何设计强大的防护措施并在专用防护措施报告中验证其有效性。这与 OpenAI 的深度防御原则一致,将指导部署决策。SAG 审查这两份报告,评估剩余风险,并向 OpenAI 领导层提出是否安全部署的建议。

透明度与持续改进

OpenAI 承诺将继续在每次前沿模型发布时公布其准备发现,正如对 GPT-4o、OpenAI o1、Operator、o3-mini、深度研究和 GPT-4.5 所做的那样,并分享新的基准以支持整个领域的更广泛安全努力。

OpenAI 表示,此次更新反映了从自身测试、外部专家的见解以及实践经验中学到的很多内容。根据其核心安全原则,OpenAI 将继续深入投入这一过程,通过使准备工作更具可操作性、严谨性和透明度来应对技术进步。

© 版权声明

相关文章

暂无评论

none
暂无评论...