Bringing Objects to Life：将静态的3D对象转换成4D动画（即动态的3D对象），这个过程是通过文本提示来控制的

新技术1年前发布小马良

302 0

巴伊兰大学和英伟达的研究人员推出一种名为3to4D的方法，它能够将静态的3D对象转换成4D动画（即动态的3D对象），这个过程是通过文本提示来控制的。这种方法允许用户为提供的3D模型添加动态行为，模拟对象的运动，使得3D对象“活”起来。

项目主页：https://3-to-4d.github.io/3-to-4d
GitHub：https://github.com/ohad204/3to4D

主要功能

3to4D的主要功能是将静态的3D模型根据文本提示转换成具有动态行为的4D场景。这意味着，用户可以提供一个3D模型和一个描述期望动作的文本提示，3to4D将生成一个视频，展示这个3D模型按照文本提示进行的动作。

主要特点

文本驱动的动画生成：用户可以通过文本提示来指导3D对象的动作，实现高度定制化的动画效果。
保持原始对象特征：在添加动态的同时，3to4D能够保持3D对象的原始外观和特征。
视角选择协议：为了提高动作的真实性，3to4D引入了增量视角选择协议，通过在优化过程中逐步改变观察角度来增强动作的动态感。
注意力掩码的得分蒸馏采样（SDS）损失：利用注意力图来优化与对象相关的区域，提高对象特征的保持度。

工作原理

3to4D的工作原理可以分为以下几个步骤：

初始化静态4D表示：首先，将输入的3D网格转换成一个“静态”的4D神经辐射场（NeRF），这个表示在每个时间点t捕获的都是输入对象的静态形态。
添加动态：然后，使用图像到视频的扩散模型，根据文本提示来为静态的4D对象添加动态。
视角采样：在优化过程中，采用增量视角选择协议，逐步扩大视角范围，以增强动画的效果。
注意力掩码SDS：通过使用注意力掩码来优化与对象相关的区域，减少背景的干扰，提高动画质量。

新技术 # 3to4D

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

可控人类图像生成的新框架BootComp：特别适用于包含多个参考服装的情况

可控人类图像生成的新框架BootComp：特别适用于包含多个参考服装的情况

新技术 # BootComp

1年前

03000

字节跳动推出新型视频生成技术CamTrol：为现有的视频扩散模型增添摄像机运动操控功能

字节跳动推出新型视频生成技术CamTrol：为现有的视频扩散模型增添摄像机运动操控功能

新技术 # CamTrol # 字节跳动 # 视频生成

2年前

08810

基于注意力的运动扩散模型MotionCLR：无需额外的训练实现人体动作生成

基于注意力的运动扩散模型MotionCLR：无需额外的训练实现人体动作生成

新技术 # MotionCLR # 人体动作生成

1年前

03400

基于多模态token的新型基础模型MIO：能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

基于多模态token的新型基础模型MIO：能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

新技术 # MIO # 多模态

2年前

06330

暂无评论

none

暂无评论...