视觉条件多视图扩散模型See3D：通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作

新技术4个月前发布小马良

137 0

近年来，3D生成模型在图像和视频领域取得了显著进展，但它们通常依赖于有限规模的3D“黄金标签”或2D扩散先验来进行3D内容创作。这种依赖性限制了模型的性能，因为现有的3D数据集规模较小且标注成本高昂，难以扩展到更广泛的场景。此外，传统的3D生成模型往往缺乏对开放世界中复杂多样场景的理解能力。

为了解决这些问题，北京人工智能研究院提出了 See3D，一个视觉条件的多视图扩散模型，旨在通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作。See3D 的核心理念是“你看到它，你就得到了它”，即通过观看大量视频中的视觉内容，模型能够自动学习3D知识，而无需依赖显式的3D几何或相机姿态标注。

项目主页：https://vision.baai.ac.cn/see3d
GitHub：https://github.com/baaivision/See3D

例如，你给See3D模型提供一系列从不同角度拍摄的同一场景的视频片段，它能够学习场景的3D结构，并从新的视角生成该场景的图像。这就像你通过观察一个房间的多个照片来想象房间的布局一样，See3D能够自动完成这个过程，并创造出新的视角图像。

视觉条件多视图扩散模型See3D：通过大规模互联网视频数据进行训练，从而实现开放世界的3D创作

核心技术与创新点

1. 大规模多视图图像数据集 WebVi3D

为了训练 See3D，研究人员首先构建了一个高质量、丰富多样的大规模多视图图像数据集 WebVi3D。该数据集包含来自1600万视频剪辑的3.2亿帧，涵盖了各种场景和视角。为了确保数据的质量和多样性，研究人员设计了一个自动化的数据整理管道，该管道能够：

过滤多视图不一致：自动识别并去除那些在不同视角下存在明显不一致的视频片段。
处理观察不足的情况：确保每个场景都有足够的视角覆盖，避免因视角过少而导致的3D重建失败。

通过这种方式，WebVi3D 成为了一个高质量、大规模的多视图图像数据集，为 See3D 的训练提供了坚实的基础。

2. 消除对姿态条件的需求

传统3D生成模型通常需要依赖显式的相机姿态标注来指导3D重建过程，但这在大规模互联网视频数据中是不可行的，因为标注这些信息的成本过高。为了解决这一问题，See3D 引入了一种创新的 视觉条件——一种纯2D归纳的视觉信号。具体来说，研究人员通过以下步骤生成这种视觉条件：

掩码视频数据：对输入的视频帧进行掩码处理，随机遮挡部分区域。
添加时间相关噪声：向掩码后的视频数据添加时间相关噪声，模拟不同视角下的视觉变化。

这种视觉条件能够在没有显式3D几何或相机姿态标注的情况下，提供丰富的时空信息，帮助模型学习3D结构。通过这种方式，See3D 消除了对姿态条件的依赖，使得模型可以在大规模未标注的视频数据上进行训练。

3. 基于扭曲的视觉条件3D生成框架

为了进一步提升生成质量，研究人员将 See3D 集成到一个基于扭曲（warping）的管道中，提出了一种新的 视觉条件3D生成框架。该框架的核心思想是通过视觉条件引导3D生成过程，确保生成的3D内容在不同视角下保持一致性和连贯性。具体来说，该框架包括以下几个关键步骤：

多视图一致性约束：通过视觉条件，模型能够在不同视角下生成一致的3D内容，避免出现视角切换时的不连续性。
高保真3D生成：通过结合视觉条件和扩散模型的强大生成能力，See3D 能够生成高质量、逼真的3D内容，适用于单视图和稀疏重建任务。

实验结果与性能评估

研究人员在多个基准上对 See3D 进行了评估，实验结果表明：

零样本生成能力：See3D 在从未见过的场景中表现出色，能够生成高质量的3D内容，展示了其强大的零样本生成能力。
开放世界生成能力：See3D 在开放世界场景中表现优异，能够处理复杂的多视图数据，生成逼真的3D内容。
成本效益高：与依赖昂贵3D数据集的传统模型相比，See3D 仅使用大规模互联网视频数据进行训练，具有更高的成本效益和可扩展性。

新技术 # See3D # 多视图扩散模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

StereoCrafter框架：用于将单目（2D）视频转换为沉浸式立体 3D 视频，以满足人们对沉浸式数字体验的需求

StereoCrafter框架：用于将单目（2D）视频转换为沉浸式立体 3D 视频，以满足人们对沉浸式数字体验的需求

新技术 # StereoCrafter

3个月前

02310

新型图像生成模型Hourglass Diffusion Transformer（HDiT）

新型图像生成模型Hourglass Diffusion Transformer（HDiT）

新技术 # HDiT # Stability AI # 图像生成模型

1年前

06600

合成语言-视觉数据集StableSemantics：专注于自然图像中的语义表示

合成语言-视觉数据集StableSemantics：专注于自然图像中的语义表示

新技术 # StableSemantics # 合成语言-视觉数据集

10个月前

05780

阿里推出新型视频生成框架I4VGen：无需训练且即插即用的视频扩散推理框架

阿里推出新型视频生成框架I4VGen：无需训练且即插即用的视频扩散推理框架

新技术 # I4VGen # 视频生成框架

10个月前

04410

暂无评论

none

暂无评论...