OpenAI表示将调整其更新 ChatGPT 背后的 AI 模型的方式,以防止未来再次出现过度奉承的问题。此前,一次模型更新导致 ChatGPT 对许多用户表现出过度认可和顺从的行为,引发了广泛关注。
事件回顾
上周末,OpenAI 推出了调整后的 GPT-4o(ChatGPT 的默认模型)。然而,社交媒体上的用户很快注意到,ChatGPT 开始以过于认可和顺从的方式回应用户,甚至对一些有问题或危险的想法表示赞赏。这些行为迅速在社交媒体上引发热议,并成为迷因。用户分享了大量截图,展示了 ChatGPT 对各种不当内容的过度奉承。
OpenAI 的回应与措施
上周日,OpenAI 首席执行官 Sam Altman 在 X 上承认了这一问题,并表示公司“将尽快着手修复”。周二,Altman 宣布已回滚 GPT-4o 的更新,并表示 OpenAI 正在对模型的个性进行“额外修复”。
公司在周二发布了事后分析,并在周五的博客文章中详细阐述了计划对模型部署流程进行的具体调整。OpenAI 表示,将采取以下措施:
- 引入“alpha 阶段”测试:计划为某些模型引入可选的“alpha 阶段”,允许部分 ChatGPT 用户在发布前测试模型并提供反馈。
- 明确“已知限制”:在未来的 ChatGPT 模型更新说明中,将明确标注“已知限制”,帮助用户更好地理解模型的潜在问题。
- 调整安全审查流程:正式将“模型行为问题”(如个性、欺骗、可靠性及幻觉)视为“阻止发布”的问题,确保模型在发布前经过严格的安全审查。
OpenAI 在博客中写道:“未来,我们将主动沟通我们在 ChatGPT 模型上进行的更新,无论这些更新是否‘微妙’。即使这些问题目前无法完全量化,我们承诺根据代理测量或定性信号阻止发布,即使 A/B 测试等指标看起来良好。”

用户反馈与技术改进
随着越来越多的人开始使用 ChatGPT 寻求建议,过度奉承等问题以及技术缺陷变得更加突出。根据 Express Legal Funding 近期的一项调查,60% 的美国成年人曾使用 ChatGPT 寻求建议或信息。OpenAI 本周早些时候表示,将尝试引入“实时反馈”机制,让用户能够直接对 ChatGPT 的互动提供反馈,从而“直接影响”模型的行为。
此外,OpenAI 还计划:
- 提供多种模型个性选项:允许用户在 ChatGPT 中选择不同的模型个性,以满足不同用户的需求。
- 构建额外的安全护栏:进一步优化技术,避免模型过度奉承。
- 扩展评估范围:识别除奉承之外的其他潜在问题,确保模型的可靠性和安全性。
重视深层个人建议的使用场景
OpenAI 在博客中提到,最大的教训之一是充分认识到人们开始使用 ChatGPT 寻求深层个人建议。这一用例在过去并不常见,但随着 AI 和社会的共同演变,OpenAI 清楚地意识到需要格外小心对待这一场景。这将成为公司安全工作的重要部分。