视频生成框架ReCamMaster：能够根据新的相机轨迹重新渲染输入视频的动态场景

60 0

浙江大学、快手科技、中国香港中文大学、华中科技大学的研究人员推出一种创新的视频生成框架ReCamMaster，能够根据新的相机轨迹重新渲染输入视频的动态场景。该技术的核心在于通过预训练的文本到视频（text-to-video）模型，利用一种简单而强大的视频条件机制，实现对视频内容的相机控制生成。

项目主页：https://jianhongbai.github.io/ReCamMaster
GitHub：https://github.com/KwaiVGI/ReCamMaster

例如，它可以将一个普通的视频片段重新渲染为具有复杂相机运动（如平移、旋转、变焦等）的视频，同时保持视频内容的一致性和动态同步性。

视频生成框架ReCamMaster：能够根据新的相机轨迹重新渲染输入视频的动态场景

主要功能

相机轨迹重拍：ReCamMaster 能够根据指定的相机轨迹重新生成视频，使视频内容呈现出不同的拍摄视角和运动效果。
视频稳定化：通过调整相机轨迹，ReCamMaster 可以将不稳定的视频（如手持拍摄的视频）转换为稳定的视频，同时保留原始场景和动作。
视频超分辨率：通过输入变焦轨迹，ReCamMaster 可以实现视频的局部超分辨率，生成更清晰的细节。
视频外扩：通过输入拉远轨迹，ReCamMaster 可以生成超出原始视频视野范围的内容，实现视频外扩效果。

主要特点

高质量多相机同步视频数据集：为了训练模型，作者构建了一个包含 136K 视频的大规模多相机同步数据集，覆盖了 40 个高质量 3D 环境中的 13.6K 不同动态场景和 122K 不同的相机轨迹。这些数据集模拟了真实世界的拍摄特征，有助于模型更好地泛化到实际视频。
创新的视频条件机制：ReCamMaster 提出了一种新的视频条件注入机制——帧维度条件（frame-dimension conditioning），通过将源视频和目标视频的 token 在帧维度上拼接，实现了更好的时空同步和内容一致性。
强大的预训练模型利用：该框架充分利用了预训练的文本到视频模型的生成能力，通过简单的条件机制实现了对视频内容的可控生成，而无需复杂的 4D 重建或逐视频优化。
多任务支持：ReCamMaster 不仅支持视频到视频（V2V）的相机控制生成，还支持文本到视频（T2V）和图像到视频（I2V）的生成任务，具有广泛的适用性。

工作原理

ReCamMaster 的工作原理可以分为以下几个关键步骤：

数据集构建：使用 Unreal Engine 5 渲染出多视角同步的视频数据集，包含多样化的场景和相机运动轨迹。这些数据集用于训练模型，使其能够理解不同视角下的视频内容。
视频条件注入：ReCamMaster 提出了一种新的视频条件注入机制，将源视频和目标视频的特征在帧维度上进行拼接，使模型能够更好地理解和同步视频内容。
相机姿态条件：为了实现相机控制生成，模型通过一个可学习的相机编码器将目标相机轨迹编码到视频特征中，从而指导生成过程。
训练策略：为了提高模型的泛化能力和生成能力，ReCamMaster 在训练过程中采用了多种策略，如仅微调 3D 注意力层、随机丢弃源视频的潜在表示等。

应用场景

视频内容创作：创作者可以利用 ReCamMaster 重新渲染视频，添加复杂的相机运动效果，提升视频的艺术感和吸引力。
视频后期制作：在后期制作中，ReCamMaster 可以用于视频稳定化、超分辨率和外扩等任务，提升视频质量。
教育与培训：通过生成不同视角的视频，ReCamMaster 可以帮助教育者更生动地展示复杂的场景和动作，增强学习体验。
虚拟现实与增强现实：ReCamMaster 可以生成与虚拟环境相匹配的视频内容，为 VR 和 AR 应用提供更丰富的视觉体验。

总结

ReCamMaster 通过创新的视频条件机制和高质量的数据集，显著提升了视频生成的性能和多样性。它不仅能够实现相机轨迹的可控生成，还在视频稳定化、超分辨率和外扩等任务中表现出色。尽管存在一些局限性（如对小物体生成效果不佳），但 ReCamMaster 为视频生成领域带来了新的可能性，有望在多个领域得到广泛应用。