Meta推出图像和视频分割模型SAM 2：图像和视频中的可提示视觉分割

图像模型2个月前更新小马良

370 0

Meta在去年推出了图像分割模型Segment Anything，今年它们又推出了升级版Segment Anything Model 2 (SAM 2)，这是一种用于图像和视频中可提示视觉分割的基础模型，旨在解决图像和视频中的可提示视觉分割问题。Meta将 SAM 适应于视频领域，通过将图像当作只有单帧的视频来处理。模型设计采用了一种具备流式内存的简单 Transformer 架构，用于实时视频处理。Meta构建了一个模型-数据循环引擎，通过用户互动不断优化模型和数据，以此来构建了Meta的 SA-V 数据集——截至目前为止规模最大的视频分割数据集。在Meta的数据上训练的 SAM 2 在多种任务和不同的视觉领域中展现出了强大的性能。

项目主页：https://ai.meta.com/sam2
GitHub：https://github.com/facebookresearch/segment-anything-2
Demo：https://sam2.metademolab.com
HF Demo：https://huggingface.co/spaces/SkalskiP/segment-anything-model-2

例如，你手里有一堆照片和视频，你想要从中把某个特定的物体或人物单独“抠”出来，就像是用剪刀剪出来一样。这个过程在计算机视觉领域被称为“图像和视频分割”，SAM 2就是专门干这个活儿的一个智能模型。

Meta推出图像和视频分割模型SAM 2：图像和视频中的可提示视觉分割

主要功能

图像分割：SAM 2能够识别并分割出图片中的单个物体，比如从风景照片中分割出一棵树或一只动物。
视频分割：更厉害的是，它还能处理视频，跟踪并分割视频中移动的物体，比如在一系列连续的汽车追逐镜头中，始终识别并分割出同一辆车。

Meta推出图像和视频分割模型SAM 2：图像和视频中的可提示视觉分割

主要特点

实时处理：SAM 2设计得非常高效，能够实时处理视频，这意味着它不需要花很长时间就能给出结果。
用户交互：它可以通过用户的简单提示（比如点击或画框）来学习和改进其分割结果，这使得它非常灵活和用户友好。
数据驱动：SAM 2的训练依赖于大量的视频数据，这些数据通过一个智能的“数据引擎”收集和生成，这个引擎能够与标注者互动，生成高质量的训练数据。

工作原理

SAM 2的核心是一个“变压器”架构，这是一种在深度学习中常用的模型类型。它利用一种叫做“流式记忆”的技术来处理视频。简单来说，它就像是一个有记忆的智能体，能够记住之前看到的内容，并用这些记忆来帮助理解新的视频帧。

图像编码器：首先，模型会分析每一帧图像，提取出关键的视觉特征。
记忆注意力：然后，模型会利用之前帧的记忆来增强当前帧的理解，这就像是它在看视频时能够记住之前发生的事情。
提示编码器和掩码解码器：用户可以通过点击或画框来提供提示，模型会根据这些提示来生成分割掩码，即物体的轮廓。
记忆编码器和记忆库：模型会将预测的掩码存储在记忆库中，以便在处理后续帧时使用，这有助于保持物体跟踪的连续性。

具体应用场景

增强现实/虚拟现实：在这些应用中，SAM 2可以帮助识别和分割虚拟环境中的物体，提供更自然的交互体验。
自动驾驶：在自动驾驶系统中，SAM 2可以用来实时识别和跟踪道路上的其他车辆或行人，提高安全性。
视频编辑：在视频制作中，SAM 2可以快速分割出视频中的特定物体，方便进行特效添加或内容编辑。
医学成像：在医学领域，SAM 2可以帮助医生从复杂的医学图像中分割出感兴趣的区域，比如肿瘤或器官。

图像模型 # Meta # SAM 2 # 分割模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Meta 的 Llama 4 模型可能升级语音功能

Meta 的 Llama 4 模型可能升级语音功能

早报 # Llama 4 # Meta # 语音

4周前

0550

新型框架 EliGen：用于实现图像生成中的实体级控制

新新型框架 EliGen：用于实现图像生成中的实体级控制

图像模型 # EliGen # 图像生成

7小时前

040

SD3.5M-Booster ：专门为 SD3.5 Medium 模型设计的增强 LoRA

SD3.5M-Booster ：专门为 SD3.5 Medium 模型设计的增强 LoRA

图像模型 # SD3.5 Medium # SD3.5M-Booster

2个月前

01910

基于 GenAI 的视觉内容创作控制框架ZenCtrl：利用单张主体图像生成多视角、多样化场景的高分辨率图像，无需额外微调

基于 GenAI 的视觉内容创作控制框架ZenCtrl：利用单张主体图像生成多视角、多样化场景的高分辨率图像，无需额外微调

图像模型 # ZenCtrl # 图像控制框架

6天前

0330

暂无评论

none

暂无评论...