来自Meta、伦敦大学的研究人员推出一种基于文本引导的3D场景编辑方法ReplaceAnything3D(RAM3D),它允许用户通过文本提示在3D场景中替换特定的物体。这种方法结合了预训练的文本引导图像修复模型和组合场景结构,能够生成与原始场景无缝融合的新物体,同时保持多视角的一致性。
主要特点:
- 文本引导的3D场景编辑:用户可以通过简单的文本描述来指定要替换的物体和新物体,实现场景中物体的替换。
- 多阶段处理:RAM3D包含擦除(Erase)和替换(Replace)两个阶段,首先移除指定物体,然后生成新物体并将其融入场景。
- 多视角一致性:通过结合预训练的图像修复模型和3D场景表示,RAM3D能够在多个视角下保持场景的一致性。
- 高分辨率编辑:支持高分辨率的场景编辑,能够处理复杂的3D场景,包括正向面对和360度全景场景。
工作原理:
该方法主要包括两个阶段:擦除阶段和替换阶段。
- 擦除阶段:使用文本提示和图像分割模型(如LangSAM)来检测和分割要移除的物体,然后通过文本引导的3D修复技术填充被遮挡的背景区域。
- 替换阶段:在擦除的背景上,使用类似的文本引导3D修复技术生成与文本描述相符的新物体,确保新物体与背景和谐融合。
- 训练最终的NeRF:将编辑后的多视角图像和相机姿态用于训练新的NeRF模型,以获得编辑后场景的3D表示,用于新视角的合成。
应用场景:
- 虚拟现实(VR)和增强现实(AR):用户可以在虚拟环境中修改现实场景,例如更换家具或添加装饰物。
- 游戏和电影制作:在游戏或电影的场景设计中,可以快速替换或添加物体,无需手动建模。
- 3D内容创作:艺术家和设计师可以利用RAM3D快速实现创意,如在3D模型中添加新元素或改变现有元素的外观。
- 教育和培训:在模拟环境中,可以轻松地替换或移除物体,用于教学目的,如安全培训或历史场景重建。
实验结果表明,ReplaceAnything3D方法在多个场景中都取得了良好的效果,包括室内和室外场景。此外,该方法还可以用于替换场景中的特定对象,例如替换场景中的椅子或桌子。
评论0