巴伊兰大学和英伟达的研究人员推出一种名为3to4D的方法,它能够将静态的3D对象转换成4D动画(即动态的3D对象),这个过程是通过文本提示来控制的。这种方法允许用户为提供的3D模型添加动态行为,模拟对象的运动,使得3D对象“活”起来。
主要功能
3to4D的主要功能是将静态的3D模型根据文本提示转换成具有动态行为的4D场景。这意味着,用户可以提供一个3D模型和一个描述期望动作的文本提示,3to4D将生成一个视频,展示这个3D模型按照文本提示进行的动作。
主要特点
- 文本驱动的动画生成:用户可以通过文本提示来指导3D对象的动作,实现高度定制化的动画效果。
- 保持原始对象特征:在添加动态的同时,3to4D能够保持3D对象的原始外观和特征。
- 视角选择协议:为了提高动作的真实性,3to4D引入了增量视角选择协议,通过在优化过程中逐步改变观察角度来增强动作的动态感。
- 注意力掩码的得分蒸馏采样(SDS)损失:利用注意力图来优化与对象相关的区域,提高对象特征的保持度。
工作原理
3to4D的工作原理可以分为以下几个步骤:
- 初始化静态4D表示:首先,将输入的3D网格转换成一个“静态”的4D神经辐射场(NeRF),这个表示在每个时间点t捕获的都是输入对象的静态形态。
- 添加动态:然后,使用图像到视频的扩散模型,根据文本提示来为静态的4D对象添加动态。
- 视角采样:在优化过程中,采用增量视角选择协议,逐步扩大视角范围,以增强动画的效果。
- 注意力掩码SDS:通过使用注意力掩码来优化与对象相关的区域,减少背景的干扰,提高动画质量。
评论0