Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

Meta 近日推出 Segment Anything 系列新一代模型——SAM 3,首次实现文本、图像示例双提示驱动的开放式概念分割,可精准识别并分割“带红色条纹的雨伞”等细粒度概念,在图像与视频分割任务上性能较现有系统提升 2 倍。此次发布同步开源模型权重、评估数据集与微调代码,推出零门槛交互式平台,并落地于 Meta 多款产品及科学研究场景,进一步巩固其在计算机视觉分割领域的领先地位。

核心亮点:不止于分割,多模态+低门槛+广落地

  1. 多模态提示能力:支持文本提示(开放词汇短名词短语)、图像示例提示,结合 SAM 1/2 已有的掩码、框、点等视觉提示,突破固定标签集限制,实现“万物可分割”;
  2. 性能阶跃式提升:在自研 SA-Co 基准测试中,图像与视频的概念分割性能较现有系统翻倍,30 毫秒内可处理含 100+ 对象的单图像,视频跟踪支持近实时性能;
  3. 全链路开源生态:开源模型检查点、SA-Co 评估基准、微调代码,与 Roboflow 合作简化数据标注、微调与部署流程;
  4. 零门槛交互体验:推出 Segment Anything 交互式平台,支持上传图像/视频或使用模板,一键实现创意编辑与数据标注;
  5. 多场景产品落地:赋能 Facebook Marketplace“室内实景查看”、Meta AI 应用 Vibes 功能、Edits 视频特效工具,同时应用于野生动物监测、海洋探索等科学领域。
Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

技术突破:解决开放式概念分割核心痛点

1. 提示式概念分割:打破固定标签限制

传统分割模型仅能识别预设标签(如“人”“车”),无法处理细粒度、个性化需求(如“坐着的人但手里没拿礼品盒”)。SAM 3 通过“提示式概念分割”技术,实现:

  • 文本提示:支持开放词汇短名词短语(如“带红色条纹的雨伞”“精装书”),直接分割用户描述的概念;
  • 图像示例提示:通过上传示例图像,分割场景中所有同类物体,适配难以用文本描述的罕见概念;
  • 多模态组合:可作为大语言模型的感知工具,处理复杂推理类提示,例如“图片中用于控制和引导马的物体”。

2. 数据引擎创新:AI+人类协同,效率提升 2 倍+

为解决高质量标注数据稀缺的行业痛点,Meta 构建了“AI+人类”闭环数据引擎:

  • 自动化预处理:通过 SAM 3 与 Llama 3.2V 模型流水线,自动挖掘图像/视频、生成标题、解析标签、创建初始分割掩码;
  • AI 标注员校验:由 Llama 3.2V 训练的 AI 标注员验证掩码质量、过滤简单样本,匹配人类准确性;
  • 人类聚焦难点:仅将复杂、模型失败的案例交给人类标注,负提示标注速度比人类快 5 倍,正提示快 36%;
  • 概念本体扩展:基于 Wikipedia 构建概念关系字典,覆盖 400 万+ 独特概念,提升罕见概念的覆盖度。

通过这一模式,数据标注吞吐量较纯人工提升 2 倍,同时保证数据多样性与高质量,为模型泛化能力奠定基础。

3. 模型架构:多模态融合+高效推理

SAM 3 整合 Meta 多项前沿技术,实现性能与效率的平衡:

  • 编码器基础:采用 Meta Perception Encoder(开源多模态编码器),提升语言与视觉的对齐能力;
  • 检测器组件:基于 DETR 模型,优化目标检测与分割的端到端流程;
  • 跟踪器模块:复用 SAM 2 的记忆库与记忆编码器,支持视频中对象的连续跟踪;
  • 推理优化:单图像处理仅需 30 毫秒(H200 GPU),视频跟踪随对象数量线性缩放,5 个并发对象可保持近实时。
Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

性能表现:多项指标刷新行业基准

测试场景核心表现优势亮点
SA-Co 图像/视频分割较现有系统性能提升 2 倍(cgF1 分数)超越 Gemini 2.5 Pro、OWLv2 等主流模型
用户偏好测试对最强基线 OWLv2 的偏好度达 3:1分割效果更贴合人类直觉
交互式视觉分割匹配/超越 SAM 2 最先进性能兼容原有视觉提示(点、框、掩码)
复杂推理分割(ReasonSeg)未专门训练却超越先前工作与大语言模型联动,支持推理类需求
推理速度单图像 30 毫秒(100+ 对象),视频近实时适配高并发、低延迟场景
Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

开源与生态:降低开发门槛,支持个性化适配

1. 开源资源清单

  • 模型资产:SAM 3 模型检查点(支持文本/图像提示);
  • 评估基准:SA-Co 数据集(图像/视频提示式概念分割,词汇量更大、难度更高);
  • 开发工具:微调代码、部署教程,支持快速适配新场景;
  • 合作生态:与 Roboflow 合作,提供数据标注、微调、部署一站式服务。

2. 个性化适配方案

针对细粒度、专业领域(如医学影像“血小板”识别),SAM 3 支持少量标注数据微调,快速适应新领域;同时提供完整的微调指南,帮助社区拓展模型能力边界。

Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

应用场景:从创意工具到科学研究

1. 消费级产品落地

  • Facebook Marketplace“室内实景查看”:结合 SAM 3D 技术,可视化家居用品在真实空间的摆放效果;
  • Edits 视频特效:一键对视频中特定人物/物体应用动态特效,简化复杂编辑流程;
  • Meta AI 应用 Vibes:支持 AI 视觉创作与视频混音,提升创意表达效率;
  • 可穿戴设备适配:在 Aria Gen 2 研究眼镜的第一人称镜头中,实现动态场景的鲁棒分割与跟踪。

2. 科学与公益领域

  • 野生动物监测:与 Conservation X Labs 合作推出 SA-FARI 数据集,含 10,000+ 相机陷阱视频,100+ 物种的分割标注;
  • 海洋探索:为 FathomNet 数据库提供水下影像分割掩码与实例分割基准,助力海洋研究;
  • 机器人与情境 AI:从人类视角理解世界,为机器感知、机器人交互提供技术支撑。

交互式平台:零门槛体验尖端分割技术

Segment Anything 交互式平台是 SAM 3 的核心体验入口,无需技术背景即可上手:

  • 核心功能:上传图像/视频,通过文本/示例提示实现分割、添加特效(聚光灯、运动轨迹)、数据标注(像素化面部/车牌);
  • 模板支持:提供实用编辑模板与创意特效模板,同时支持压力测试模型性能;
  • 特色展示:集成 Aria Gen 2 试点数据集的第一人称镜头,展示 SAM 3 在动态场景中的表现。

现有局限与未来方向

已知限制

  1. 零样本泛化能力:对医学、科学等专业领域的细粒度概念(如“血小板”)泛化不足,需微调适配;
  2. 复杂提示支持:暂不直接支持长文本、空间描述类提示(如“顶层书架从右数第二本书”),需与大语言模型联动;
  3. 视频跟踪效率:跟踪成本随对象数量线性缩放,缺乏对象间上下文通信,复杂场景中性能待优化。

未来探索

  1. 扩展复杂提示理解:增强长文本、推理类提示的直接处理能力;
  2. 优化视频跟踪架构:引入对象级共享上下文,提升多相似对象场景的效率与精度;
  3. 深化跨领域适配:推动模型在更多专业领域的落地,拓展科学研究与工业应用场景。
© 版权声明

相关文章

暂无评论

none
暂无评论...