谷歌推出CamViG：控制视频生成过程中的相机视角，从而生成具有精确相机运动的视频

新技术10个月前发布小马良

515 0

Google Research推出CamViG（Camera Aware Image-to-Video Generation），它能够根据单一图像和三维相机运动信号生成视频。这项技术的核心在于，它能够控制视频生成过程中的相机视角，从而生成具有精确相机运动的视频。例如，你有一张静态的风景照片，但你想要一个视频，展示你在这风景中四处走动的场景。使用CamViG，你只需指定相机应该如何移动（比如向上、向下、左右移动或者推进、拉远），它就能根据这些指令生成一段视频，其中相机视角的变化就像真的有人在场景中移动一样。

论文地址：https://arxiv.org/abs/2405.13195

总的来说，CamViG提供了一种强大的工具，可以在视频生成中精确控制相机视角，这在以往的技术中是很难实现的。这项技术的应用前景非常广泛，可以极大地丰富视频内容的创作和生成方式。

谷歌推出CamViG：控制视频生成过程中的相机视角，从而生成具有精确相机运动的视频

主要功能：

三维相机运动控制：能够根据指定的三维相机路径生成视频。
场景动态保持：在控制相机视角的同时，保持场景中的动态元素。
自动绘制和填充：自动处理生成视频中所有新露出和不可见区域的绘制和填充。

主要特点：

无需文本提示：与常见的基于文本的视频生成方法不同，CamViG通过非文本输入（三维相机路径）来控制视频生成。
使用多模态变换器：将三维相机运动作为条件信号，结合到多模态变换器中。
利用NeRF生成训练数据：使用Neural Radiance Fields（NeRF）技术生成训练视频和相机路径数据。

工作原理：

CamViG的工作原理可以分为以下几个步骤：

数据生成：使用NeRF技术生成具有真实感光照和细节的合成视频数据。
视频和相机路径的标记化：将视频和相机路径转换成离散的标记，以便用于变换器模型。
变换器模型训练：在视频延续任务上预训练模型，然后在此基础上训练相机运动任务。
相机路径的表示：将相机路径数据转换为适合变换器架构的标记序列。
视频生成：给定输入图像和相机路径，生成一系列视频帧，其中第一帧是输入图像，后续帧跟随相机路径。

具体应用场景：

虚拟现实和增强现实：在VR和AR中生成具有真实相机运动的视频内容。
电影和视频制作：用于生成复杂场景的相机运动，减少实际拍摄需要。
游戏开发：为游戏环境创造动态的背景视频。
室内设计和可视化：展示室内设计在不同视角和光照条件下的效果。

新技术 # CamViG # 相机运动 # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

SOLAMI：为3D自主角色提供社交智能，使其能够感知、理解和与人类进行交互。

SOLAMI：为3D自主角色提供社交智能，使其能够感知、理解和与人类进行交互。

新技术 # SOLAMI

4个月前

01250

1.58-bit FLUX：将FLUX.1-dev量化到1.58位权重的方法

1.58-bit FLUX：将FLUX.1-dev量化到1.58位权重的方法

新技术 # 1.58-bit FLUX

3个月前

01260

运动引导扩散模型Pix2Gif：用于图像到GIF（视频）的生成

运动引导扩散模型Pix2Gif：用于图像到GIF（视频）的生成

新技术 # GIF # Pix2Gif

1年前

05530

Meta推出局部图像水印的深度学习模型WAM

Meta推出局部图像水印的深度学习模型WAM

新技术 # WAM # 图像水印

5个月前

03960

暂无评论

none

暂无评论...