Gemini 2.5 实现对话式图像分割,用语言精准“圈出”图像中的目标

新技术5个月前发布 小马良
227 0

AI在视觉理解领域正不断突破边界。从最初的物体检测,到像素级语义分割,再到开放词汇识别,AI 对图像的理解能力持续进化。如今,谷歌 Gemini 2.5 带来了一个更具交互性的能力——对话式图像分割(Conversational Image Segmentation),让人类可以用自然语言直接与图像内容进行深度交互。

这项技术的核心,不只是识别“汽车”或“狗”,而是理解如“最远的那辆汽车”或“拿着伞、没戴帽子的人”这类包含上下文、关系与逻辑的复杂描述。它与学术界所称的“指代表达式分割”(Referring Expression Segmentation)高度相关,标志着视觉语言模型在空间与语义理解上的新高度。

什么是对话式图像分割?

传统图像分割模型依赖预定义类别(如“猫”、“桌子”)或简单标签进行识别。而对话式图像分割允许用户通过自然语言描述,精准定位图像中符合复杂条件的区域,并返回对应的像素级掩码(mask)。

这意味着,你可以像和助手对话一样,告诉 Gemini:

“请框出画面中最左边那朵凋谢的花。”
“标出所有没有系安全带的乘客。”
“分割出写着‘有机’字样的商品标签。”

Gemini 能理解这些指令中的空间关系、属性比较、抽象概念、文本内容与逻辑条件,并准确完成分割任务。

五大核心查询能力

Gemini 2.5 支持多种复杂语义的分割请求,显著扩展了视觉理解的应用边界:

1. 物体关系理解

基于物体之间的空间或逻辑关系进行识别:

  • “拿着雨伞的人”
  • “从左边数第三个书架”
  • “停在红色汽车后面的那辆自行车”

2. 条件与逻辑判断

支持包含“是/否”、“如果/则”、“排除”等逻辑的查询:

  • “未佩戴安全帽的工人”
  • “菜单上标注为‘素食’的食物”
  • “画面中除了门以外的所有物体”

3. 抽象概念识别

借助模型的世界知识,识别难以通过外观直接定义的抽象状态:

  • “看起来最混乱的桌面”
  • “有损坏痕迹的墙壁”
  • “显得最有希望的区域”(如灾后救援场景)

4. 图像内文本识别与定位

结合 OCR 能力,根据图像中的文字内容进行分割:

  • “标有‘20% off’的促销标签”
  • “包装上写着‘Gluten Free’的产品”

5. 多语言标签支持

支持多种语言的输入描述,适用于全球化应用:

  • 中文:“最右边那扇窗户”
  • 西班牙语:“el libro abierto”
  • 日语:“開いている傘”

实际应用场景

这一能力正在多个领域催生新的工作方式和产品形态。

🎨 创意设计:交互式媒体编辑

设计师不再需要手动套索或魔棒工具选择复杂区域。只需输入“选中建筑物在地面上的影子”或“圈出所有穿蓝色衣服的人”,即可快速完成选区,极大提升图像/视频编辑效率。

🛡️ 安全监控:智能合规检测

在工厂、工地等场景中,可通过提示词实现自动化合规检查:

“高亮显示未佩戴安全帽或未穿反光背心的员工”
系统可自动生成精确掩码,用于告警或记录,提升安全管理效率。

🏦 保险理赔:自动化损害评估

理算员可直接请求:

“分割出因冰雹受损的屋顶区域”
Gemini 结合其对“天气损坏”外观特征的理解(如凹陷、漆面剥落),可区分真实损伤与普通反光或污渍,辅助快速定损。

🛒 零售与电商:智能商品识别

在货架图像中,通过描述文字标签或商品状态进行精准定位:

“找出所有标有‘新品’且价格低于100元的商品”

对开发者的意义

  1. 无需训练专用模型
    开发者无需收集数据、标注样本或训练独立的分割模型。只需调用 Gemini API,即可获得强大的分割能力。
  2. 单一接口,多能力集成
    对话式分割、OCR、视觉推理、语言理解等功能统一由 Gemini 2.5 提供,简化技术栈。
  3. 快速集成,灵活扩展
    支持 JSON 输出格式,便于与其他系统对接。适合构建行业定制化应用,如医疗影像标注、工业质检、AR交互等。

如何开始使用?

推荐使用以下配置以获得最佳效果:

Give the segmentation masks for the objects. 
Output a JSON list of segmentation masks where each entry contains the 2D bounding box in the key "box_2d", the segmentation mask in key "mask", and the text label in the key "label". 
Use descriptive labels.

推荐最佳实践:

  • 使用 gemini-2.5-flash 模型(兼顾速度与能力)
  • 设置 thinkingBudget=0 以减少延迟,适用于大多数分割任务
  • 请求 JSON 格式输出,便于程序解析
  • 提示语尽量清晰、具体,避免歧义

立即体验

  • 🔗 交互式演示:访问 Google AI Studio 尝试“空间理解”演示
  • 📘 Colab 示例:通过 Google Colab 运行交互式代码示例
  • 📚 开发者指南:查阅官方文档,了解 API 详细用法
  • 💬 加入社区:参与开发者论坛,与团队和其他开发者交流用例与问题
© 版权声明

相关文章

暂无评论

none
暂无评论...