Gemini 2.5 实现对话式图像分割，用语言精准“圈出”图像中的目标

386 0

AI在视觉理解领域正不断突破边界。从最初的物体检测，到像素级语义分割，再到开放词汇识别，AI 对图像的理解能力持续进化。如今，谷歌 Gemini 2.5 带来了一个更具交互性的能力——对话式图像分割（Conversational Image Segmentation），让人类可以用自然语言直接与图像内容进行深度交互。

这项技术的核心，不只是识别“汽车”或“狗”，而是理解如“最远的那辆汽车”或“拿着伞、没戴帽子的人”这类包含上下文、关系与逻辑的复杂描述。它与学术界所称的“指代表达式分割”（Referring Expression Segmentation）高度相关，标志着视觉语言模型在空间与语义理解上的新高度。

什么是对话式图像分割？

传统图像分割模型依赖预定义类别（如“猫”、“桌子”）或简单标签进行识别。而对话式图像分割允许用户通过自然语言描述，精准定位图像中符合复杂条件的区域，并返回对应的像素级掩码（mask）。

这意味着，你可以像和助手对话一样，告诉 Gemini：

“请框出画面中最左边那朵凋谢的花。”
“标出所有没有系安全带的乘客。”
“分割出写着‘有机’字样的商品标签。”

Gemini 能理解这些指令中的空间关系、属性比较、抽象概念、文本内容与逻辑条件，并准确完成分割任务。

五大核心查询能力

Gemini 2.5 支持多种复杂语义的分割请求，显著扩展了视觉理解的应用边界：

1. 物体关系理解

基于物体之间的空间或逻辑关系进行识别：

“拿着雨伞的人”
“从左边数第三个书架”
“停在红色汽车后面的那辆自行车”

2. 条件与逻辑判断

支持包含“是/否”、“如果/则”、“排除”等逻辑的查询：

“未佩戴安全帽的工人”
“菜单上标注为‘素食’的食物”
“画面中除了门以外的所有物体”

3. 抽象概念识别

借助模型的世界知识，识别难以通过外观直接定义的抽象状态：

“看起来最混乱的桌面”
“有损坏痕迹的墙壁”
“显得最有希望的区域”（如灾后救援场景）

4. 图像内文本识别与定位

结合 OCR 能力，根据图像中的文字内容进行分割：

“标有‘20% off’的促销标签”
“包装上写着‘Gluten Free’的产品”

5. 多语言标签支持

支持多种语言的输入描述，适用于全球化应用：

中文：“最右边那扇窗户”
西班牙语：“el libro abierto”
日语：“開いている傘”

实际应用场景

这一能力正在多个领域催生新的工作方式和产品形态。

🎨 创意设计：交互式媒体编辑

设计师不再需要手动套索或魔棒工具选择复杂区域。只需输入“选中建筑物在地面上的影子”或“圈出所有穿蓝色衣服的人”，即可快速完成选区，极大提升图像/视频编辑效率。

🛡️ 安全监控：智能合规检测

在工厂、工地等场景中，可通过提示词实现自动化合规检查：

“高亮显示未佩戴安全帽或未穿反光背心的员工”
系统可自动生成精确掩码，用于告警或记录，提升安全管理效率。

🏦 保险理赔：自动化损害评估

理算员可直接请求：

“分割出因冰雹受损的屋顶区域”
Gemini 结合其对“天气损坏”外观特征的理解（如凹陷、漆面剥落），可区分真实损伤与普通反光或污渍，辅助快速定损。

🛒 零售与电商：智能商品识别

在货架图像中，通过描述文字标签或商品状态进行精准定位：

“找出所有标有‘新品’且价格低于100元的商品”

对开发者的意义

无需训练专用模型
开发者无需收集数据、标注样本或训练独立的分割模型。只需调用 Gemini API，即可获得强大的分割能力。
单一接口，多能力集成
对话式分割、OCR、视觉推理、语言理解等功能统一由 Gemini 2.5 提供，简化技术栈。
快速集成，灵活扩展
支持 JSON 输出格式，便于与其他系统对接。适合构建行业定制化应用，如医疗影像标注、工业质检、AR交互等。

如何开始使用？

推荐使用以下配置以获得最佳效果：

Give the segmentation masks for the objects. 
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label". 
Use descriptive labels.