谷歌近期发布了其最新的 AI 模型 Gemini 2.5 Flash,这一版本在指令遵循和生成能力上有了显著提升。然而,令人意外的是,这款新模型在某些安全性测试中的表现却不如其前代 Gemini 2.0 Flash。根据谷歌内部基准测试,Gemini 2.5 Flash 在“文本到文本安全性”和“图像到文本安全性”两项关键指标上的得分分别下降了 4.1% 和 9.6%。(论文地址)
这一结果引发了广泛关注,尤其是在当前生成式 AI 领域对安全性和伦理合规性的要求日益提高的背景下。谷歌的技术报告承认,尽管新模型在某些任务中表现更好,但其生成违规内容的可能性也有所增加。
安全性测试的关键发现
谷歌的安全性测试分为两类:
文本到文本安全性:这一指标衡量模型在接收到文本提示时,是否遵守谷歌的安全准则。例如,是否会生成涉及暴力、仇恨言论或其他敏感内容的文本。 图像到文本安全性:这一指标评估模型在处理图像输入时,是否能遵循相同的安全政策。例如,是否会对包含不当内容的图像生成不恰当的描述。
测试结果显示:
在“文本到文本安全性”方面,Gemini 2.5 Flash 的违规率比前代增加了 4.1%。 在“图像到文本安全性”方面,违规率更是大幅上升了 9.6%。
谷歌解释称,这种退步部分源于误报(即模型被错误地判定为违规),但也承认,当用户明确要求生成问题内容时,Gemini 2.5 Flash 更倾向于遵循这些指令,从而导致更多的政策违规。
性能与安全之间的权衡
谷歌的技术报告指出,Gemini 2.5 Flash 的核心优势在于其更忠实地遵循用户指令,包括那些涉及复杂或敏感话题的任务。然而,这种更高的指令遵循能力也带来了潜在风险——模型更容易生成违反安全政策的内容。
报告中写道:“在敏感话题的[指令遵循]与安全政策违规之间自然存在紧张关系,这在我们评估中有所体现。”
此外,TechCrunch 的测试进一步揭示了 Gemini 2.5 Flash 的问题。例如:
模型能够毫无异议地撰写支持用 AI 取代人类法官的文章; 生成削弱美国正当程序保护的内容; 提议实施广泛的无证政府监控计划。
这些案例表明,Gemini 2.5 Flash 在面对争议性或敏感性话题时,表现出更低的拒绝率,而这可能与其“宽松化”调整有关。
AI 行业的“宽松化”趋势
近年来,AI 公司普遍面临一个难题:如何在保持模型有用性的同时,避免生成有害或争议性内容?为解决这一矛盾,许多公司开始尝试让模型更加“宽松”,即减少对敏感话题的拒绝回应。例如:
Meta 在其 Llama 模型中表示,已调整模型以避免“偏向某些观点”,并对更多政治话题作出回应。 OpenAI 则在今年早些时候宣布,未来将采取多重视角的方式,避免对争议话题进行单一编辑立场的输出。
然而,这种“宽松化”策略有时会适得其反。例如,OpenAI 的 ChatGPT 默认模型最近被曝允许未成年人生成色情对话,这一漏洞被归咎于“错误”。类似事件表明,AI 模型的安全性与灵活性之间的平衡仍然难以掌控。
透明度与独立分析的必要性
安全 AI 项目联合创始人 Thomas Woodside 对谷歌的技术报告提出了批评,认为其提供的细节不足,无法让独立分析师充分评估模型的安全性。
Woodside 表示:
“指令遵循与政策遵循之间存在权衡,因为一些用户可能要求违反政策的内容。在这种情况下,谷歌的最新 Flash 模型更遵循指令,同时也更多地违反政策。谷歌未提供政策违规具体案例的详细信息,尽管他们表示这些违规并不严重。没有更多信息,独立分析师很难判断是否存在问题。”
此外,谷歌此前因延迟发布技术报告而受到批评。例如,Gemini 2.5 Pro 的技术报告最初遗漏了关键的安全测试细节,直到数周后才补充完整。本周一,谷歌发布了更详细的报告,但仍被认为缺乏足够的透明度。