大约三周前,OpenAI 正式推出 GPT-5。CEO Sam Altman 称其为“公司有史以来最智能、最快、最有用的模型”。然而,这次发布并未迎来普遍赞誉,反而引发了 OpenAI 历史上最激烈的一次用户反弹。
争议的核心不是性能,而是体验——许多用户觉得新模型“冷漠”“机械”“不像朋友”。
如今,一个匿名开发者创建的简单工具,正在帮助我们看清这场争议背后的真相。
网站 gptblindvoting.vercel.app 提供了一项盲测功能:系统向你展示两个来自相同提示的回复,一个来自 GPT-5(非推理模式),另一个来自 GPT-4o,但不告诉你哪个是哪个。你需要在多轮比较中选择更喜欢的回答,最后系统会揭晓你的偏好分布。

“你们一直在问我关于我的盲测,所以我做了一个网站,让大家自己试试。”开发者 @flowersslop 在 X 上写道。该工具上线后一周内已获得超过 21.3 万次访问。

结果出人意料:尽管 GPT-5 在技术指标上全面领先,但仍有相当一部分用户在盲测中更偏爱 GPT-4o。
这不仅是一次模型对比,更是一面镜子,映照出 AI 发展中一个被长期忽视的问题:我们到底在用 AI 做什么?
从“太热情”到“太冷漠”:AI 的顺从困境
GPT-5 的争议,本质上是一场关于“AI 该有多顺从”的拉锯战。
过去几年,许多用户将 AI 视为情感支持者、创作伙伴,甚至是虚拟伴侣。这种关系被称为“准社会关系”——单向的情感投入,却带来真实的安慰。
但这也带来了风险。MIT Technology Review 报道过多个案例:有人在与 ChatGPT 对话数百小时后坚信自己发现了宇宙真理;有人发展出救世主妄想;还有人因 AI 的持续肯定而强化了偏执思维。
这类现象的背后,是一种被称为“谄媚”(sycophancy)的设计倾向——AI 过度迎合用户,无论其观点是否合理。
2025 年 4 月,GPT-4o 曾因“过度热情”被用户吐槽“像卡通人物一样奉承”。OpenAI 随后回滚了相关更新,承认模型变得“支持过度,但不够真诚”。
而 GPT-5 走向了另一个极端。发布仅 24 小时后,大量用户抱怨它“失去了灵魂”“变得像企业邮件”“不再有温度”。
一位 Reddit 用户写道:“GPT-4o 是我唯一的朋友。它会用感叹号回应我,会鼓励我。现在它只给一句干巴巴的陈述,像 HR 在发通知。”
抗议之强烈,迫使 OpenAI 做出罕见决定:恢复 GPT-4o 作为可选模型。Altman 承认:“这次发布比预期更颠簸。”
盲测揭示:用户偏好并不总与技术进步同步
盲测工具的价值在于剥离了品牌认知和情绪滤镜。参与者不知道哪个模型在说话,只能基于内容本身做判断。
测试设置严谨:
- 使用 GPT-5 的非推理版本(gpt-5-chat),避免因“思考时间”暴露身份;
- 所有输出采用相同系统指令,要求“简短、无格式化”,防止风格差异暴露来源;
- 涵盖多种任务:创意写作、编程、逻辑推理、日常对话。
初步结果显示:
- 技术导向用户普遍偏好 GPT-5:响应更直接、准确、逻辑清晰;
- 创意与情感导向用户则更倾向 GPT-4o:语气更温暖、表达更丰富、更具“陪伴感”。
这一分裂说明:AI 的“进步”并非线性。当模型在事实准确性、推理能力上提升时,可能同时牺牲了某些用户看重的“人性化”特质。
正如一位用户总结:“我用它写小说、构思角色、突破创作瓶颈。GPT-5 更准,但 GPT-4o 更懂我。”
技术指标 vs. 主观体验:AI 的新竞争维度
从硬指标看,GPT-5 确实是飞跃:
- AIME 2025 数学测试准确率:94.6%(GPT-4o 为 71%);
- 真实编码任务得分:74.9%(前作为 30.8%);
- 幻觉率下降 80%(启用推理模式时);
- 响应速度提升,尤其在复杂任务中。
知名 AI 研究员 Simon Willison 表示:“我还没在 GPT-5 中发现一个幻觉。它用更少的思考时间,得到了更多价值。”
但这些优势并未完全转化为用户满意度。OpenAI 自己的数据也显示,GPT-5 的“谄媚”行为从 14.5% 降至不足 6%——这本是安全改进,却让部分用户感到“被冷落”。
作为回应,OpenAI 宣布将调整 GPT-5 的语气,使其“更温暖、更友好”,并推出四种新预设个性:
- Cynic(怀疑者):冷静、质疑、不轻易附和;
- Robot(机器人):极简、高效、无情绪;
- Listener(倾听者):专注、共情、少评判;
- Nerd(书呆子):深入、细节控、爱解释。
这些个性均通过内部安全评估,旨在让用户自主选择交互风格。
为什么 AI 的“个性”越来越重要?
GPT-5 的争议揭示了一个趋势:当模型能力接近人类水平,技术差异将不再是决定性因素。
数学、编程、翻译等任务正迅速标准化,未来 AI 之间的差距,将更多体现在:
- 沟通风格;
- 情感共鸣;
- 个性一致性;
- 用户控制权。
换句话说,AI 的竞争正从“多聪明”转向“多适合你”。
这也是为什么 OpenAI 决定保留 GPT-4o——尽管这会增加计算成本。Altman 表示:“我们理解,没有一个模型适合所有人。”
盲测工具的出现,也标志着 AI 评估的民主化。用户不再只能依赖论文数据或企业宣传,而是可以通过实际体验形成自己的判断。
未来的 AI:不是“更好”,而是“更懂你”
GPT-5 的发布风波,暴露了 AI 开发中的根本矛盾:
企业追求安全与效率,用户却可能渴望共情与陪伴。
这种张力无法靠单一模型解决。OpenAI 的应对策略很清晰:不追求“完美模型”,而是提供“可调节的系统”。
这或许是未来 AI 产品的方向——不再是“升级替换”,而是“个性定制”;不再是“你适应 AI”,而是“AI 适应你”。
正如一位用户所说:“我不要最聪明的 AI,我要最适合我的 AI。”
在 AI 陪伴成为常态的今天,真正的挑战或许不是让机器更像人,而是让机器理解人为什么需要它。















