新颖图像和视频处理框架MaGGIe:用于实现人类图像的精确分割,从图像和视频中提取人物前景

来自马里兰大学和Adob​​e的研究人员推出新的图像和视频处理技术MaGGIe(Masked Guided Gradual Human Instance Matting),它用于实现人类图像的精确分割,也就是我们常说的“抠图”。这项技术特别关注于从图像和视频中提取人物前景像素,并且能够处理多个人在同一场景中的情况。

MaGGIe能够在保持计算效率、输出精确度以及逐帧一致性的同时,逐步为每个独立的人体实例生成Alpha蒙版。该方法巧妙地运用了现代深度学习架构,如Transformer注意力机制和稀疏卷积,能够在避免内存和延迟急剧增长的前提下,同步输出所有实例的蒙版。尽管在面对包含多个实例的场景时,MaGGIe依然保持恒定的推理成本,但其在开发人员所设计的合成基准测试中展现了强大且普适的性能。为进一步提升模型在真实场景中的泛化能力,开发人员引入了一种创新的多实例合成方法,利用公开可用的数据源构建了更高品质的图像和视频抠图基准。

通俗介绍: 想象一下,你有多张一群人的合影,你想要将每个人从背景中分离出来,变成独立的图层。这在照片编辑或者视频制作中是非常常见的需求。MaGGIe技术能够智能地识别每个人,并为他们生成一个透明度图层(也就是我们说的alpha matte),这样就可以将每个人无痕迹地从照片中抠出来,并且保持细节的完整性,如头发丝等。

主要功能:

  1. 渐进式预测: MaGGIe逐步预测每个人物实例的透明度图层。
  2. 计算成本控制: 在保持计算成本、精度和一致性的同时,处理多个人实例。
  3. 现代架构利用: 使用包括变换器注意力机制和稀疏卷积在内的现代架构。

主要特点:

  • 效率: 能够同时输出所有实例的透明度图层,而不会显著增加内存和延迟。
  • 灵活性: 能够适应不同的输入,包括合成数据和真实世界场景。
  • 鲁棒性: 对于输入中的噪声和错误具有较好的鲁棒性。

工作原理: MaGGIe的工作原理包括以下几个步骤:

  1. 输入构建: 将输入图像与通过ID嵌入层从引导掩码构建的引导嵌入相结合。
  2. 特征提取: 使用特征金字塔网络从输入图像中提取特征。
  3. 粗略预测: 使用变换器风格的注意力机制来预测粗略的实例透明度图层。
  4. 细节细化: 从粗略图层开始,逐步提高细节,使用稀疏卷积来节省计算成本。
  5. 粗到细融合: 结合不同尺度的透明度图层,以获得最终的alpha matte。

具体应用场景:

  • 电影制作: 在电影后期制作中,用于将演员从复杂的背景中分离出来。
  • 照片编辑: 用于创建合成照片,如将人物放置在不同的背景中。
  • 增强现实(AR): 在AR应用中,用于实时将用户从其背景中分离出来。
  • 视频编辑: 用于视频内容的编辑,比如在制作音乐视频或者游戏视频时,需要将特定的人物或物体从原始视频中分离出来。

总的来说,MaGGIe技术通过其创新的框架和方法,提供了一种高效、精确的方式来处理图像和视频中的多人物抠图任务。

0

评论0

没有账号?注册  忘记密码?