香港中文大学和上海人工智能实验室的研究人员推出HumanVid,它旨在揭开用于生成逼真人物视频动画的训练数据的神秘面纱。HumanVid是首个为人物图像动画量身定制的大规模、高质量的数据集,它结合了精心制作的现实世界数据和合成数据。例如,你是一位电影制作人,你想要在电影中重现一个经典场景,但原始演员已经不在或者无法参与拍摄。使用HumanVid,你只需一张演员的照片,就可以生成高质量的视频动画,让角色在新的视频中栩栩如生。这不仅节省了高昂的制作成本,还能够创造出前所未有的视觉体验。
HumanVid是第一个专为人体图像动画设计的大规模高质量数据集,它结合了精心挑选的真实世界数据和合成数据。对于真实世界的数据,研究团队从互联网上收集了大量的无版权真实世界视频。通过精心设计的基于规则的筛选策略,研究团队确保了高质量视频的收录,最终形成了包含2万个人物为中心的1080P分辨率视频集合。人体和摄像机运动的标注是通过2D姿态估计器和基于SLAM的方法实现的。对于合成数据,研究团队收集了2,300个无版权的3D虚拟形象资源来增强现有的3D资源。
值得注意的是,研究团队引入了一种基于规则的摄像机轨迹生成方法,使合成流程能够融合多样且精确的摄像机运动标注,这是在真实世界数据中很少见的。为了验证HumanVid的有效性,研究团队建立了一个名为CamAnimate(即“可控制摄像机的人体动画”)的基础模型,该模型考虑了人体和摄像机的动作作为条件。
主要功能和特点:
- 高质量数据集:HumanVid包含20K以人物为中心的1080P分辨率视频,以及精确的人物和摄像机运动注释。
- 合成数据管道:通过合成数据,HumanVid能够扩展人物视频的多样性和真实感,包括精确的摄像机轨迹注释。
- 摄像机控制:与以往主要关注2D人体动作的方法不同,HumanVid还重视视频中摄像机运动的重要性,提供更全面的控制能力。
- 基线模型CamAnimate:这是一个简单的相机可控人物动画模型,考虑了人体和摄像机运动作为条件,展示了HumanVid数据集的有效性。
工作原理:
- HumanVid数据集从互联网上收集了大量版权免费的现实世界视频,并通过规则基过滤策略确保视频质量。
- 使用2D姿态估计器和基于SLAM(同步定位与地图构建)的方法完成人体和摄像机运动注释。
- 对于合成数据,收集了2300个版权免费的3D头像资产,并引入了基于规则的摄像机轨迹生成方法,以增加训练数据中摄像机运动的多样性。
具体应用场景:
- 视频和电影制作:HumanVid可以用于从单张照片生成人物视频,为视频和电影制作提供新的制作手段。
- 角色动画:利用HumanVid,可以重现电影中的经典表演,只需一张角色的照片,就可以从任何想要的角度捕捉他们的动作。
- 虚拟现实和增强现实:在VR和AR应用中,HumanVid可以用于创建更加逼真和可控的虚拟角色。
评论0