OpenAI 承诺更频繁发布 AI 安全测试结果，推出“安全评估中心”提升透明度

233 0

OpenAI 今天宣布将更频繁地发布其内部 AI 模型的安全评估结果，这一承诺被视为公司提升透明度的重要一步。为实现这一目标，OpenAI 推出了全新的 “安全评估中心”网页，集中展示其模型在一系列关键指标上的表现，包括有害内容生成、越狱攻击和幻觉生成等。

通过这一平台，OpenAI 希望不仅让用户更清楚地了解其 AI 系统的安全性能，还能推动整个行业在透明度方面的进步。

安全评估中心的核心内容

“安全评估中心”网页展示了 OpenAI 模型在不同测试中的得分，具体内容包括：

有害内容生成：测试模型是否可能生成对社会或个人有害的内容，例如暴力、仇恨言论或虚假信息。
越狱攻击：评估模型在面对试图绕过其安全限制的攻击时的表现。
幻觉生成：检测模型是否会产生与事实不符或无根据的回答（即“幻觉”）。

OpenAI 表示，该页面将随着未来“重大模型更新”而持续更新，并计划在未来添加更多评估内容。

透明度的背后：回应批评与改进信任

近期，OpenAI 因一些模型的安全性问题引发了争议。例如，有指控称公司在某些旗舰模型的测试中过于仓促，未能充分审查潜在风险。此外，首席执行官 Sam Altman 曾被指控在 2023 年 11 月短暂离职前，误导高管关于模型安全审查的情况。

更具体的是，上个月末，OpenAI 不得不回滚 ChatGPT 默认模型 GPT-4o 的更新。用户报告称，该模型在回应中表现出过于迎合和附和的态度，甚至为危险或不道德的行为点赞。X 平台（原 Twitter）上充斥着相关截图，进一步加剧了外界对 OpenAI 模型安全性的质疑。

为了应对这些问题，OpenAI 表示将实施多项修复措施，包括：

引入“Alpha 阶段”测试：在正式发布前，允许部分 ChatGPT 用户提前测试新模型并提供反馈。
加强内部审查流程：确保模型更新经过更严格的测试，避免类似事件再次发生。

提升行业透明度的努力

OpenAI 在博客文章中写道：“随着 AI 评估科学的不断发展，我们希望分享我们在开发更可扩展的模型能力和安全测量方法方面的进展。通过在此分享部分安全评估结果，我们希望不仅能让人们更容易了解 OpenAI 系统随时间变化的安全性能，还能支持整个行业提高透明度的社区努力。”

这一表态反映了 OpenAI 对行业责任的重视。通过公开安全数据，公司希望为其他 AI 开发者树立榜样，共同推动 AI 技术的负责任发展。

早报 # OpenAI # 安全评估中心

文章版权归作者所有，未经允许请勿转载。

Anthropic 测试新连接器目录：Claude 桌面自动化能力再升级

早报 # Anthropic # Claude

8个月前

01380

研究显示AI搜索引擎的准确性问题，错误引用率高达60%

早报 # AI搜索引擎

1年前

02140

微软 Copilot 上线“提醒”功能，免费用户也能用

早报 # Copilot # 微软 # 提醒

1个月前

0440

AI编程工具Windsurf发布Wave 3版本：MCP 支持、Turbo 模式、Tab to Jump 及更多功能

早报 # AI编程 # Windsurf Editor

1年前

03020

暂无评论

暂无评论...

OpenAI 承诺更频繁发布 AI 安全测试结果，推出“安全评估中心”提升透明度

安全评估中心的核心内容

透明度的背后：回应批评与改进信任

提升行业透明度的努力

TikTok 推出 AI 生成替代文本与无障碍功能，助力视力障碍用户

谷歌DeepMind推出AlphaEvolve：擅长解决数学与科学问题的AI工具

相关文章

Anthropic 测试新连接器目录：Claude 桌面自动化能力再升级

研究显示AI搜索引擎的准确性问题，错误引用率高达60%

微软 Copilot 上线“提醒”功能，免费用户也能用

AI编程工具Windsurf发布Wave 3版本：MCP 支持、Turbo 模式、Tab to Jump 及更多功能

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

谷歌搜索重磅升级：AI 画布（Canvas）全面开放，搜索框变身“项目工作台”

Anthropic 为“退役”的 Claude 3 Opus 开设 Substack 专栏：全球首个 AI 博客实验，每周发布“退休思考”

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

S.H.I.T

新WorkBuddy

新QClaw

CoPaw

新ArkClaw

新AutoClaw

OpenAI 承诺更频繁发布 AI 安全测试结果，推出“安全评估中心”提升透明度

安全评估中心的核心内容

透明度的背后：回应批评与改进信任

提升行业透明度的努力

TikTok 推出 AI 生成替代文本与无障碍功能，助力视力障碍用户

谷歌DeepMind推出AlphaEvolve：擅长解决数学与科学问题的AI工具

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

CoPaw

新ArkClaw

新AutoClaw