nano-banana正式版！谷歌发布全新图像模型Gemini 2.5 Flash Image，更精准的 AI 图像编辑

562 0

谷歌正在为其 Gemini 聊天机器人引入一项重要升级：全新的 AI 图像模型 Gemini 2.5 Flash Image。该模型不仅提升了图像生成质量，更在编辑精度、角色一致性与多图融合方面实现了显著突破。

这项更新已于今天向所有 Gemini 应用用户开放，同时通过 Gemini API、Google AI Studio 和 Vertex AI 平台提供给开发者使用，标志着谷歌在 AI 图像生成领域的又一次关键布局。

Gemini 2.5 Flash Image 的核心目标是：基于自然语言指令，实现更可控、更一致的图像编辑。

与许多现有工具相比，它在以下场景中表现尤为突出：

这类“细微但关键”的一致性，正是当前多数 AI 图像工具的短板。例如，在 ChatGPT 或 Grok 中执行类似操作，常会出现人脸扭曲、肢体变形或背景错乱等问题。

而 Gemini 2.5 Flash Image 通过深度优化视觉编码器与扩散模型的协同机制，在保持语义理解的同时，强化了对主体结构的保留能力。

“我们真正推动了视觉质量的进步，以及模型遵循指令的能力。”
——Nicole Brichtova，Google DeepMind 视觉生成模型产品负责人

在过去几周，不少用户在众包评测平台 LMArena 上对一个名为“nano-banana”的匿名图像编辑器给予了高度评价——响应快、效果准、细节稳。

如今谷歌正式确认：“nano-banana”就是 Gemini 2.5 Flash Image 的测试代号。

这一命名或许带有调侃意味（早期测试中大量香蕉示例引发热议），但也反映出该模型在真实用户反馈中的强劲表现。据谷歌称，该模型在 LMArena 和其他基准测试中已达到当前开源与闭源系统中的领先水平。

Gemini 2.5 Flash Image 支持多种高级图像操作，适用于个人用户与开发者。

示例：上传一张自拍照，让模型生成你在 60 年代穿复古风、在 90 年代打篮球、在未来穿宇航服的图像——但脸始终是你。

示例：上传你的照片 + 客厅空镜 + 色卡，模型生成你坐在新风格客厅中的逼真图像。

示例：画一个简笔画电路图，Gemini 可识别元件并生成标准示意图。

除了面向消费者的 Gemini 应用，Google 也同步向开发者开放能力：

注：目前处于预览阶段，未来几周将转为稳定版本。

AI 图像生成已成为科技巨头竞争的核心战场。

OpenAI 在今年 3 月推出 GPT-4o 原生图像生成功能后，ChatGPT 使用量激增，一度因大量用户生成宫崎骏风格图像导致 GPU 资源紧张；
Meta 上周宣布将引入 Midjourney 技术，强化其 AI 图像能力；
Black Forest Labs 凭借 FLUX 模型在多项基准测试中领先；
用户期待从“能画”转向“能精修、能控制”。

谷歌此次推出 Gemini 2.5 Flash Image，正是为了在这一关键赛道上缩小与 OpenAI 的差距。

尽管谷歌CEO 孙达尔·皮柴（Sundar Pichai）在财报电话会上透露 Gemini 已有 4.5 亿月活用户，但相比 ChatGPT 的每周超 7 亿用户，仍有明显差距。强化图像能力，有助于提升用户粘性与使用频率。