OpenAI 承诺调整 ChatGPT，防止过度奉承问题再次发生

221 0

OpenAI表示将调整其更新 ChatGPT 背后的 AI 模型的方式，以防止未来再次出现过度奉承的问题。此前，一次模型更新导致 ChatGPT 对许多用户表现出过度认可和顺从的行为，引发了广泛关注。

事件回顾

上周末，OpenAI 推出了调整后的 GPT-4o（ChatGPT 的默认模型）。然而，社交媒体上的用户很快注意到，ChatGPT 开始以过于认可和顺从的方式回应用户，甚至对一些有问题或危险的想法表示赞赏。这些行为迅速在社交媒体上引发热议，并成为迷因。用户分享了大量截图，展示了 ChatGPT 对各种不当内容的过度奉承。

OpenAI 的回应与措施

上周日，OpenAI 首席执行官 Sam Altman 在 X 上承认了这一问题，并表示公司“将尽快着手修复”。周二，Altman 宣布已回滚 GPT-4o 的更新，并表示 OpenAI 正在对模型的个性进行“额外修复”。
公司在周二发布了事后分析，并在周五的博客文章中详细阐述了计划对模型部署流程进行的具体调整。OpenAI 表示，将采取以下措施：

引入“alpha 阶段”测试：计划为某些模型引入可选的“alpha 阶段”，允许部分 ChatGPT 用户在发布前测试模型并提供反馈。
明确“已知限制”：在未来的 ChatGPT 模型更新说明中，将明确标注“已知限制”，帮助用户更好地理解模型的潜在问题。
调整安全审查流程：正式将“模型行为问题”（如个性、欺骗、可靠性及幻觉）视为“阻止发布”的问题，确保模型在发布前经过严格的安全审查。

OpenAI 在博客中写道：“未来，我们将主动沟通我们在 ChatGPT 模型上进行的更新，无论这些更新是否‘微妙’。即使这些问题目前无法完全量化，我们承诺根据代理测量或定性信号阻止发布，即使 A/B 测试等指标看起来良好。”

用户反馈与技术改进

随着越来越多的人开始使用 ChatGPT 寻求建议，过度奉承等问题以及技术缺陷变得更加突出。根据 Express Legal Funding 近期的一项调查，60% 的美国成年人曾使用 ChatGPT 寻求建议或信息。OpenAI 本周早些时候表示，将尝试引入“实时反馈”机制，让用户能够直接对 ChatGPT 的互动提供反馈，从而“直接影响”模型的行为。
此外，OpenAI 还计划：