来自马里兰大学和Adobe的研究人员推出新的图像和视频处理技术MaGGIe(Masked Guided Gradual Human Instance Matting),它用于实现人类图像的精确分割,也就是我们常说的“抠图”。这项技术特别关注于从图像和视频中提取人物前景像素,并且能够处理多个人在同一场景中的情况。
MaGGIe能够在保持计算效率、输出精确度以及逐帧一致性的同时,逐步为每个独立的人体实例生成Alpha蒙版。该方法巧妙地运用了现代深度学习架构,如Transformer注意力机制和稀疏卷积,能够在避免内存和延迟急剧增长的前提下,同步输出所有实例的蒙版。尽管在面对包含多个实例的场景时,MaGGIe依然保持恒定的推理成本,但其在开发人员所设计的合成基准测试中展现了强大且普适的性能。为进一步提升模型在真实场景中的泛化能力,开发人员引入了一种创新的多实例合成方法,利用公开可用的数据源构建了更高品质的图像和视频抠图基准。
通俗介绍: 想象一下,你有多张一群人的合影,你想要将每个人从背景中分离出来,变成独立的图层。这在照片编辑或者视频制作中是非常常见的需求。MaGGIe技术能够智能地识别每个人,并为他们生成一个透明度图层(也就是我们说的alpha matte),这样就可以将每个人无痕迹地从照片中抠出来,并且保持细节的完整性,如头发丝等。
主要功能:
- 渐进式预测: MaGGIe逐步预测每个人物实例的透明度图层。
- 计算成本控制: 在保持计算成本、精度和一致性的同时,处理多个人实例。
- 现代架构利用: 使用包括变换器注意力机制和稀疏卷积在内的现代架构。
主要特点:
- 效率: 能够同时输出所有实例的透明度图层,而不会显著增加内存和延迟。
- 灵活性: 能够适应不同的输入,包括合成数据和真实世界场景。
- 鲁棒性: 对于输入中的噪声和错误具有较好的鲁棒性。
工作原理: MaGGIe的工作原理包括以下几个步骤:
- 输入构建: 将输入图像与通过ID嵌入层从引导掩码构建的引导嵌入相结合。
- 特征提取: 使用特征金字塔网络从输入图像中提取特征。
- 粗略预测: 使用变换器风格的注意力机制来预测粗略的实例透明度图层。
- 细节细化: 从粗略图层开始,逐步提高细节,使用稀疏卷积来节省计算成本。
- 粗到细融合: 结合不同尺度的透明度图层,以获得最终的alpha matte。
具体应用场景:
- 电影制作: 在电影后期制作中,用于将演员从复杂的背景中分离出来。
- 照片编辑: 用于创建合成照片,如将人物放置在不同的背景中。
- 增强现实(AR): 在AR应用中,用于实时将用户从其背景中分离出来。
- 视频编辑: 用于视频内容的编辑,比如在制作音乐视频或者游戏视频时,需要将特定的人物或物体从原始视频中分离出来。
总的来说,MaGGIe技术通过其创新的框架和方法,提供了一种高效、精确的方式来处理图像和视频中的多人物抠图任务。
评论0