Meta AI发布SAM 3：支持文本/图像双提示，图像视频分割性能翻

24 0

Meta 近日推出 Segment Anything 系列新一代模型——SAM 3，首次实现文本、图像示例双提示驱动的开放式概念分割，可精准识别并分割“带红色条纹的雨伞”等细粒度概念，在图像与视频分割任务上性能较现有系统提升 2 倍。此次发布同步开源模型权重、评估数据集与微调代码，推出零门槛交互式平台，并落地于 Meta 多款产品及科学研究场景，进一步巩固其在计算机视觉分割领域的领先地位。

项目主页：https://ai.meta.com/sam3
GitHub：https://github.com/facebookresearch/sam3
模型：https://huggingface.co/facebook/sam3
Demo：https://segment-anything.com

核心亮点：不止于分割，多模态+低门槛+广落地

多模态提示能力：支持文本提示（开放词汇短名词短语）、图像示例提示，结合 SAM 1/2 已有的掩码、框、点等视觉提示，突破固定标签集限制，实现“万物可分割”；
性能阶跃式提升：在自研 SA-Co 基准测试中，图像与视频的概念分割性能较现有系统翻倍，30 毫秒内可处理含 100+ 对象的单图像，视频跟踪支持近实时性能；
全链路开源生态：开源模型检查点、SA-Co 评估基准、微调代码，与 Roboflow 合作简化数据标注、微调与部署流程；
零门槛交互体验：推出 Segment Anything 交互式平台，支持上传图像/视频或使用模板，一键实现创意编辑与数据标注；
多场景产品落地：赋能 Facebook Marketplace“室内实景查看”、Meta AI 应用 Vibes 功能、Edits 视频特效工具，同时应用于野生动物监测、海洋探索等科学领域。

技术突破：解决开放式概念分割核心痛点

1. 提示式概念分割：打破固定标签限制

传统分割模型仅能识别预设标签（如“人”“车”），无法处理细粒度、个性化需求（如“坐着的人但手里没拿礼品盒”）。SAM 3 通过“提示式概念分割”技术，实现：

文本提示：支持开放词汇短名词短语（如“带红色条纹的雨伞”“精装书”），直接分割用户描述的概念；
图像示例提示：通过上传示例图像，分割场景中所有同类物体，适配难以用文本描述的罕见概念；
多模态组合：可作为大语言模型的感知工具，处理复杂推理类提示，例如“图片中用于控制和引导马的物体”。

2. 数据引擎创新：AI+人类协同，效率提升 2 倍+

为解决高质量标注数据稀缺的行业痛点，Meta 构建了“AI+人类”闭环数据引擎：

自动化预处理：通过 SAM 3 与 Llama 3.2V 模型流水线，自动挖掘图像/视频、生成标题、解析标签、创建初始分割掩码；
AI 标注员校验：由 Llama 3.2V 训练的 AI 标注员验证掩码质量、过滤简单样本，匹配人类准确性；
人类聚焦难点：仅将复杂、模型失败的案例交给人类标注，负提示标注速度比人类快 5 倍，正提示快 36%；
概念本体扩展：基于 Wikipedia 构建概念关系字典，覆盖 400 万+ 独特概念，提升罕见概念的覆盖度。

通过这一模式，数据标注吞吐量较纯人工提升 2 倍，同时保证数据多样性与高质量，为模型泛化能力奠定基础。

3. 模型架构：多模态融合+高效推理

SAM 3 整合 Meta 多项前沿技术，实现性能与效率的平衡：

编码器基础：采用 Meta Perception Encoder（开源多模态编码器），提升语言与视觉的对齐能力；
检测器组件：基于 DETR 模型，优化目标检测与分割的端到端流程；
跟踪器模块：复用 SAM 2 的记忆库与记忆编码器，支持视频中对象的连续跟踪；
推理优化：单图像处理仅需 30 毫秒（H200 GPU），视频跟踪随对象数量线性缩放，5 个并发对象可保持近实时。

性能表现：多项指标刷新行业基准

测试场景	核心表现	优势亮点
SA-Co 图像/视频分割	较现有系统性能提升 2 倍（cgF1 分数）	超越 Gemini 2.5 Pro、OWLv2 等主流模型
用户偏好测试	对最强基线 OWLv2 的偏好度达 3:1	分割效果更贴合人类直觉
交互式视觉分割	匹配/超越 SAM 2 最先进性能	兼容原有视觉提示（点、框、掩码）
复杂推理分割（ReasonSeg）	未专门训练却超越先前工作	与大语言模型联动，支持推理类需求
推理速度	单图像 30 毫秒（100+ 对象），视频近实时	适配高并发、低延迟场景