谷歌最新 Gemini 2.5 Flash 模型：性能提升，但安全性测试表现倒退

早报10个月前发布小马良

279 0

谷歌近期发布了其最新的 AI 模型 Gemini 2.5 Flash，这一版本在指令遵循和生成能力上有了显著提升。然而，令人意外的是，这款新模型在某些安全性测试中的表现却不如其前代 Gemini 2.0 Flash。根据谷歌内部基准测试，Gemini 2.5 Flash 在“文本到文本安全性”和“图像到文本安全性”两项关键指标上的得分分别下降了 4.1% 和 9.6%。（论文地址）

这一结果引发了广泛关注，尤其是在当前生成式 AI 领域对安全性和伦理合规性的要求日益提高的背景下。谷歌的技术报告承认，尽管新模型在某些任务中表现更好，但其生成违规内容的可能性也有所增加。

安全性测试的关键发现

谷歌的安全性测试分为两类：

文本到文本安全性：这一指标衡量模型在接收到文本提示时，是否遵守谷歌的安全准则。例如，是否会生成涉及暴力、仇恨言论或其他敏感内容的文本。
图像到文本安全性：这一指标评估模型在处理图像输入时，是否能遵循相同的安全政策。例如，是否会对包含不当内容的图像生成不恰当的描述。

测试结果显示：

在“文本到文本安全性”方面，Gemini 2.5 Flash 的违规率比前代增加了 4.1%。
在“图像到文本安全性”方面，违规率更是大幅上升了 9.6%。

谷歌解释称，这种退步部分源于误报（即模型被错误地判定为违规），但也承认，当用户明确要求生成问题内容时，Gemini 2.5 Flash 更倾向于遵循这些指令，从而导致更多的政策违规。

性能与安全之间的权衡

谷歌的技术报告指出，Gemini 2.5 Flash 的核心优势在于其更忠实地遵循用户指令，包括那些涉及复杂或敏感话题的任务。然而，这种更高的指令遵循能力也带来了潜在风险——模型更容易生成违反安全政策的内容。

报告中写道：“在敏感话题的[指令遵循]与安全政策违规之间自然存在紧张关系，这在我们评估中有所体现。”

此外，TechCrunch 的测试进一步揭示了 Gemini 2.5 Flash 的问题。例如：

模型能够毫无异议地撰写支持用 AI 取代人类法官的文章；
生成削弱美国正当程序保护的内容；
提议实施广泛的无证政府监控计划。

这些案例表明，Gemini 2.5 Flash 在面对争议性或敏感性话题时，表现出更低的拒绝率，而这可能与其“宽松化”调整有关。

AI 行业的“宽松化”趋势

近年来，AI 公司普遍面临一个难题：如何在保持模型有用性的同时，避免生成有害或争议性内容？为解决这一矛盾，许多公司开始尝试让模型更加“宽松”，即减少对敏感话题的拒绝回应。例如：

Meta 在其 Llama 模型中表示，已调整模型以避免“偏向某些观点”，并对更多政治话题作出回应。
OpenAI 则在今年早些时候宣布，未来将采取多重视角的方式，避免对争议话题进行单一编辑立场的输出。

然而，这种“宽松化”策略有时会适得其反。例如，OpenAI 的 ChatGPT 默认模型最近被曝允许未成年人生成色情对话，这一漏洞被归咎于“错误”。类似事件表明，AI 模型的安全性与灵活性之间的平衡仍然难以掌控。

透明度与独立分析的必要性

安全 AI 项目联合创始人 Thomas Woodside 对谷歌的技术报告提出了批评，认为其提供的细节不足，无法让独立分析师充分评估模型的安全性。

Woodside 表示：

“指令遵循与政策遵循之间存在权衡，因为一些用户可能要求违反政策的内容。在这种情况下，谷歌的最新 Flash 模型更遵循指令，同时也更多地违反政策。谷歌未提供政策违规具体案例的详细信息，尽管他们表示这些违规并不严重。没有更多信息，独立分析师很难判断是否存在问题。”

此外，谷歌此前因延迟发布技术报告而受到批评。例如，Gemini 2.5 Pro 的技术报告最初遗漏了关键的安全测试细节，直到数周后才补充完整。本周一，谷歌发布了更详细的报告，但仍被认为缺乏足够的透明度。

早报 # Gemini 2.5 Flash # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

路透社报道，Meta 首款 RISC-V AI 训练芯片启动测试，推动硬件独立性摆脱对英伟达的依赖

路透社报道，Meta 首款 RISC-V AI 训练芯片启动测试，推动硬件独立性摆脱对英伟达的依赖

早报 # AI芯片 # Meta # RISC-V

1年前

02630

OpenAI 推出 ChatGPT Pulse 预览版：每天一次主动推送的个性化简报

OpenAI 推出 ChatGPT Pulse 预览版：每天一次主动推送的个性化简报

早报 # ChatGPT Pulse # OpenAI

6个月前

02390

微软 Copilot Think Deeper 功能升级：由OpenAI 的 o3-mini-high 模型驱动，无限制免费用

微软 Copilot Think Deeper 功能升级：由OpenAI 的 o3-mini-high 模型驱动，无限制免费用

早报 # Copilot # o3-mini-high # OpenAI

1年前

03760

OpenAI 推出 ChatGPT 学习模式：用提问代替答案，重塑 AI 辅导体验

OpenAI 推出 ChatGPT 学习模式：用提问代替答案，重塑 AI 辅导体验

早报 # ChatGPT # OpenAI # 学习模式

7个月前

01980

暂无评论

none

暂无评论...