Twelvelabs和韩国科学技术研究院的研究人员推出新型框架SplatFlow,它用于3D高斯绘制(3D Gaussian Splatting,简称3DGS)的合成和编辑。SplatFlow通过结合多视图修正流(Multi-View Rectified Flow,简称RF)模型和高斯绘制解码器(Gaussian Splatting Decoder,简称GSDecoder),实现了从文本提示直接生成和编辑复杂的3D内容。
例如,给定文本提示“一个银笔记本电脑放在木制桌子上”,SplatFlow能够生成一个3D场景,其中包含笔记本电脑的详细图像,并能够从多个视角渲染这一场景。此外,SplatFlow还能够进行3D编辑,比如在3D场景中替换或编辑对象,或者估计相机姿态和合成新视角的场景。
主要功能:
- 直接3DGS生成:从文本提示直接生成3D场景。
- 3D编辑:在3D场景中进行对象替换和其他编辑操作。
- 相机姿态估计:确定3D场景中相机的位置和方向。
- 新视角合成:从单一或多个视角合成新的视角视图。
主要特点:
- 统一框架:SplatFlow提供了一个统一的框架,用于3D生成和编辑,无需额外的复杂流程。
- 训练免费技术:利用训练免费反演和修复技术,SplatFlow能够在无需额外训练的情况下进行3D编辑和任务。
- 多视图一致性:通过联合建模多视图图像、深度和相机姿态,SplatFlow能够生成一致的3D场景。
- 实时渲染:基于3DGS的高效渲染技术,SplatFlow能够实现实时的3D场景渲染。
工作原理:
SplatFlow的工作原理基于两个主要组件:
- 多视图RF模型:在潜在空间中操作,同时生成多视图图像、深度和相机姿态,这些生成是基于文本提示的条件。
- GSDecoder:将这些潜在输出有效地转换成3DGS表示,通过前馈3DGS方法实现。
具体应用场景:
- 虚拟现实(VR)和增强现实(AR):在VR/AR应用中创建和编辑3D环境。
- 游戏开发:生成游戏中的3D场景和对象。
- 机器人视觉:用于机器人导航和环境理解的3D场景生成。
- 3D设计和建模:辅助设计师从文本描述中快速创建3D模型。
- 教育和培训:创建3D教学材料和模拟环境。
评论0