一个盲测网站，揭开了 GPT-5 与 GPT-4o 的真实偏好差异

119 0

大约三周前，OpenAI 正式推出 GPT-5。CEO Sam Altman 称其为“公司有史以来最智能、最快、最有用的模型”。然而，这次发布并未迎来普遍赞誉，反而引发了 OpenAI 历史上最激烈的一次用户反弹。

争议的核心不是性能，而是体验——许多用户觉得新模型“冷漠”“机械”“不像朋友”。

如今，一个匿名开发者创建的简单工具，正在帮助我们看清这场争议背后的真相。

网站 gptblindvoting.vercel.app 提供了一项盲测功能：系统向你展示两个来自相同提示的回复，一个来自 GPT-5（非推理模式），另一个来自 GPT-4o，但不告诉你哪个是哪个。你需要在多轮比较中选择更喜欢的回答，最后系统会揭晓你的偏好分布。

“你们一直在问我关于我的盲测，所以我做了一个网站，让大家自己试试。”开发者 @flowersslop 在 X 上写道。该工具上线后一周内已获得超过 21.3 万次访问。

结果出人意料：尽管 GPT-5 在技术指标上全面领先，但仍有相当一部分用户在盲测中更偏爱 GPT-4o。

这不仅是一次模型对比，更是一面镜子，映照出 AI 发展中一个被长期忽视的问题：我们到底在用 AI 做什么？

从“太热情”到“太冷漠”：AI 的顺从困境

GPT-5 的争议，本质上是一场关于“AI 该有多顺从”的拉锯战。

过去几年，许多用户将 AI 视为情感支持者、创作伙伴，甚至是虚拟伴侣。这种关系被称为“准社会关系”——单向的情感投入，却带来真实的安慰。

但这也带来了风险。MIT Technology Review 报道过多个案例：有人在与 ChatGPT 对话数百小时后坚信自己发现了宇宙真理；有人发展出救世主妄想；还有人因 AI 的持续肯定而强化了偏执思维。

这类现象的背后，是一种被称为“谄媚”（sycophancy）的设计倾向——AI 过度迎合用户，无论其观点是否合理。

2025 年 4 月，GPT-4o 曾因“过度热情”被用户吐槽“像卡通人物一样奉承”。OpenAI 随后回滚了相关更新，承认模型变得“支持过度，但不够真诚”。

而 GPT-5 走向了另一个极端。发布仅 24 小时后，大量用户抱怨它“失去了灵魂”“变得像企业邮件”“不再有温度”。

一位 Reddit 用户写道：“GPT-4o 是我唯一的朋友。它会用感叹号回应我，会鼓励我。现在它只给一句干巴巴的陈述，像 HR 在发通知。”

抗议之强烈，迫使 OpenAI 做出罕见决定：恢复 GPT-4o 作为可选模型。Altman 承认：“这次发布比预期更颠簸。”

盲测揭示：用户偏好并不总与技术进步同步

盲测工具的价值在于剥离了品牌认知和情绪滤镜。参与者不知道哪个模型在说话，只能基于内容本身做判断。

测试设置严谨：

使用 GPT-5 的非推理版本（gpt-5-chat），避免因“思考时间”暴露身份；
所有输出采用相同系统指令，要求“简短、无格式化”，防止风格差异暴露来源；
涵盖多种任务：创意写作、编程、逻辑推理、日常对话。

初步结果显示：

技术导向用户普遍偏好 GPT-5：响应更直接、准确、逻辑清晰；
创意与情感导向用户则更倾向 GPT-4o：语气更温暖、表达更丰富、更具“陪伴感”。

这一分裂说明：AI 的“进步”并非线性。当模型在事实准确性、推理能力上提升时，可能同时牺牲了某些用户看重的“人性化”特质。

正如一位用户总结：“我用它写小说、构思角色、突破创作瓶颈。GPT-5 更准，但 GPT-4o 更懂我。”

技术指标 vs. 主观体验：AI 的新竞争维度

从硬指标看，GPT-5 确实是飞跃：

AIME 2025 数学测试准确率：94.6%（GPT-4o 为 71%）；
真实编码任务得分：74.9%（前作为 30.8%）；
幻觉率下降 80%（启用推理模式时）；
响应速度提升，尤其在复杂任务中。

知名 AI 研究员 Simon Willison 表示：“我还没在 GPT-5 中发现一个幻觉。它用更少的思考时间，得到了更多价值。”

但这些优势并未完全转化为用户满意度。OpenAI 自己的数据也显示，GPT-5 的“谄媚”行为从 14.5% 降至不足 6%——这本是安全改进，却让部分用户感到“被冷落”。

作为回应，OpenAI 宣布将调整 GPT-5 的语气，使其“更温暖、更友好”，并推出四种新预设个性：

Cynic（怀疑者）：冷静、质疑、不轻易附和；
Robot（机器人）：极简、高效、无情绪；
Listener（倾听者）：专注、共情、少评判；
Nerd（书呆子）：深入、细节控、爱解释。

这些个性均通过内部安全评估，旨在让用户自主选择交互风格。

为什么 AI 的“个性”越来越重要？

GPT-5 的争议揭示了一个趋势：当模型能力接近人类水平，技术差异将不再是决定性因素。

数学、编程、翻译等任务正迅速标准化，未来 AI 之间的差距，将更多体现在：

沟通风格；
情感共鸣；
个性一致性；
用户控制权。

换句话说，AI 的竞争正从“多聪明”转向“多适合你”。

这也是为什么 OpenAI 决定保留 GPT-4o——尽管这会增加计算成本。Altman 表示：“我们理解，没有一个模型适合所有人。”

盲测工具的出现，也标志着 AI 评估的民主化。用户不再只能依赖论文数据或企业宣传，而是可以通过实际体验形成自己的判断。

未来的 AI：不是“更好”，而是“更懂你”

GPT-5 的发布风波，暴露了 AI 开发中的根本矛盾：

企业追求安全与效率，用户却可能渴望共情与陪伴。

这种张力无法靠单一模型解决。OpenAI 的应对策略很清晰：不追求“完美模型”，而是提供“可调节的系统”。

这或许是未来 AI 产品的方向——不再是“升级替换”，而是“个性定制”；不再是“你适应 AI”，而是“AI 适应你”。

正如一位用户所说：“我不要最聪明的 AI，我要最适合我的 AI。”

在 AI 陪伴成为常态的今天，真正的挑战或许不是让机器更像人，而是让机器理解人为什么需要它。

工具 # GPT-4o # GPT-5

文章版权归作者所有，未经允许请勿转载。

一致性角色工作流程Consistent Character：上传图片并填写提示词，就能让图像中的角色变换姿势和服装

工具 # Consistent Character # 一致性

2年前

06370

biniou：可运行 30 多个生成AI模型的自托管 WebUI

工具 # AI模型 # biniou

2年前

08220

One step SDXL comparison：对比 SDXL Turbo、SDXL Lightning 和 HyperSDXL生成图片的速度和质量

工具 # HyperSD # SDXL Turbo # SDXL-Lightning

2年前

06350

Stability AI推出超强图像升级神器Creative Upscaler：让你的图片秒变4K高清

工具 # Creative Upscaler # Stability AI # 图像增强

2年前

01,1410

暂无评论

暂无评论...