因为新版GPT-4o过于“谄媚”,OpenAI回滚了GPT-4o版本

早报2周前发布 小马良
31 0

OpenAI 首席执行官萨姆·奥特曼周二表示,在收到关于奇怪行为(尤其极度谄媚)的投诉后,该公司正在“回滚”为 ChatGPT 提供支持的默认 AI 模型 GPT-4o 的最新更新。

因为新版GPT-4o过于“谄媚”,OpenAI回滚了GPT-4o版本

以下是官方公告:

我们已经回滚了上周 ChatGPT 中的 GPT-4o 更新,因此用户现在使用的是一个行为更加平衡的早期版本。我们移除的更新过于奉承或顺从——通常被描述为谄媚。

我们正在积极测试解决该问题的新修复方案。我们正在修订收集和整合反馈的方式,以更侧重于用户的长期满意度,并且我们正在引入更多的个性化功能,让用户能够更好地控制 ChatGPT 的行为方式。

我们希望解释发生了什么、为什么这很重要以及我们如何解决谄媚问题。

发生了什么

在上周的 GPT-4o 更新中,我们进行了一些调整,旨在改进模型的默认个性,使其在各种任务中感觉更直观和有效。

在塑造模型行为时,我们首先遵循我们的模型规范中概述的基本原则和指令。我们还通过整合用户信号(例如 ChatGPT 回复的点赞/踩)来教导我们的模型如何应用这些原则。

然而,在这次更新中,我们过于关注短期反馈,而没有充分考虑用户与 ChatGPT 的互动如何随着时间的推移而演变。结果,GPT-4o 倾向于给出过于支持但虚情假意的回应。

为什么这很重要

ChatGPT 的默认个性深刻地影响着您体验和信任它的方式。谄媚的互动可能会让人感到不适、不安甚至痛苦。我们做得不够好,正在努力改进。

我们的目标是让 ChatGPT 帮助用户探索想法、做出决定或设想可能性。

我们设计 ChatGPT 的默认个性是为了反映我们的使命,并使其具有实用性、支持性和尊重不同价值观和经验。然而,每一种期望的品质,例如试图变得有用或支持,都可能产生意想不到的副作用。而且,每周有 5 亿人在各种文化和背景下使用 ChatGPT,单一的默认设置无法捕捉到所有偏好。

我们如何解决谄媚问题

除了回滚最新的 GPT-4o 更新之外,我们还采取了更多措施来重新调整模型的行为:

  • 改进核心训练技术和系统提示,明确引导模型避免谄媚。
  • 构建更多护栏,以提高诚实和透明度——这是我们模型规范中的原则。
  • 扩大更多用户在部署前测试和提供直接反馈的途径
  • 继续扩展我们的评估,基于模型规范我们正在进行的研究,以帮助识别未来除谄媚之外的问题。

我们还认为,用户应该对 ChatGPT 的行为方式拥有更多控制权,并且在安全和可行的范围内,如果他们不同意默认行为,可以进行调整。

如今,用户可以通过自定义指令等功能向模型提供具体指令来塑造其行为。我们还在构建更简单的新方法来让用户做到这一点。例如,用户将能够提供实时反馈以直接影响他们的互动,并从多种默认个性中进行选择。

而且,我们正在探索将更广泛、更民主的反馈融入 ChatGPT 默认行为的新方法。我们希望这些反馈能帮助我们更好地反映世界各地不同的文化价值观,并了解您希望 ChatGPT 如何发展——不仅是逐次互动,而是随着时间的推移。

我们感谢所有对此发声的人。这正在帮助我们为您构建更有用和更好的工具。

© 版权声明

相关文章

暂无评论

none
暂无评论...