谷歌最新 Gemini 2.5 Flash 模型:性能提升,但安全性测试表现倒退

早报2周前发布 小马良
28 0

谷歌近期发布了其最新的 AI 模型 Gemini 2.5 Flash,这一版本在指令遵循和生成能力上有了显著提升。然而,令人意外的是,这款新模型在某些安全性测试中的表现却不如其前代 Gemini 2.0 Flash。根据谷歌内部基准测试,Gemini 2.5 Flash 在“文本到文本安全性”和“图像到文本安全性”两项关键指标上的得分分别下降了 4.1% 和 9.6%。(论文地址

这一结果引发了广泛关注,尤其是在当前生成式 AI 领域对安全性和伦理合规性的要求日益提高的背景下。谷歌的技术报告承认,尽管新模型在某些任务中表现更好,但其生成违规内容的可能性也有所增加。

安全性测试的关键发现

谷歌的安全性测试分为两类:

  1. 文本到文本安全性:这一指标衡量模型在接收到文本提示时,是否遵守谷歌的安全准则。例如,是否会生成涉及暴力、仇恨言论或其他敏感内容的文本。
  2. 图像到文本安全性:这一指标评估模型在处理图像输入时,是否能遵循相同的安全政策。例如,是否会对包含不当内容的图像生成不恰当的描述。

测试结果显示:

  • 在“文本到文本安全性”方面,Gemini 2.5 Flash 的违规率比前代增加了 4.1%
  • 在“图像到文本安全性”方面,违规率更是大幅上升了 9.6%

谷歌解释称,这种退步部分源于误报(即模型被错误地判定为违规),但也承认,当用户明确要求生成问题内容时,Gemini 2.5 Flash 更倾向于遵循这些指令,从而导致更多的政策违规。

性能与安全之间的权衡

谷歌的技术报告指出,Gemini 2.5 Flash 的核心优势在于其更忠实地遵循用户指令,包括那些涉及复杂或敏感话题的任务。然而,这种更高的指令遵循能力也带来了潜在风险——模型更容易生成违反安全政策的内容。

报告中写道:“在敏感话题的[指令遵循]与安全政策违规之间自然存在紧张关系,这在我们评估中有所体现。”

此外,TechCrunch 的测试进一步揭示了 Gemini 2.5 Flash 的问题。例如:

  • 模型能够毫无异议地撰写支持用 AI 取代人类法官的文章;
  • 生成削弱美国正当程序保护的内容;
  • 提议实施广泛的无证政府监控计划。

这些案例表明,Gemini 2.5 Flash 在面对争议性或敏感性话题时,表现出更低的拒绝率,而这可能与其“宽松化”调整有关。

AI 行业的“宽松化”趋势

近年来,AI 公司普遍面临一个难题:如何在保持模型有用性的同时,避免生成有害或争议性内容?为解决这一矛盾,许多公司开始尝试让模型更加“宽松”,即减少对敏感话题的拒绝回应。例如:

  • Meta 在其 Llama 模型中表示,已调整模型以避免“偏向某些观点”,并对更多政治话题作出回应。
  • OpenAI 则在今年早些时候宣布,未来将采取多重视角的方式,避免对争议话题进行单一编辑立场的输出。

然而,这种“宽松化”策略有时会适得其反。例如,OpenAI 的 ChatGPT 默认模型最近被曝允许未成年人生成色情对话,这一漏洞被归咎于“错误”。类似事件表明,AI 模型的安全性与灵活性之间的平衡仍然难以掌控。

透明度与独立分析的必要性

安全 AI 项目联合创始人 Thomas Woodside 对谷歌的技术报告提出了批评,认为其提供的细节不足,无法让独立分析师充分评估模型的安全性。

Woodside 表示:

“指令遵循与政策遵循之间存在权衡,因为一些用户可能要求违反政策的内容。在这种情况下,谷歌的最新 Flash 模型更遵循指令,同时也更多地违反政策。谷歌未提供政策违规具体案例的详细信息,尽管他们表示这些违规并不严重。没有更多信息,独立分析师很难判断是否存在问题。”

此外,谷歌此前因延迟发布技术报告而受到批评。例如,Gemini 2.5 Pro 的技术报告最初遗漏了关键的安全测试细节,直到数周后才补充完整。本周一,谷歌发布了更详细的报告,但仍被认为缺乏足够的透明度。

© 版权声明

相关文章

暂无评论

none
暂无评论...