专为人体图像动画设计的大规模高质量数据集HumanVid：结合了精心挑选的真实世界数据和合成数据

新技术2年前发布小马良

917 0

香港中文大学和上海人工智能实验室的研究人员推出HumanVid，它旨在揭开用于生成逼真人物视频动画的训练数据的神秘面纱。HumanVid是首个为人物图像动画量身定制的大规模、高质量的数据集，它结合了精心制作的现实世界数据和合成数据。例如，你是一位电影制作人，你想要在电影中重现一个经典场景，但原始演员已经不在或者无法参与拍摄。使用HumanVid，你只需一张演员的照片，就可以生成高质量的视频动画，让角色在新的视频中栩栩如生。这不仅节省了高昂的制作成本，还能够创造出前所未有的视觉体验。

项目主页：https://humanvid.github.io
GitHub：https://github.com/zhenzhiwang/HumanVid

HumanVid是第一个专为人体图像动画设计的大规模高质量数据集，它结合了精心挑选的真实世界数据和合成数据。对于真实世界的数据，研究团队从互联网上收集了大量的无版权真实世界视频。通过精心设计的基于规则的筛选策略，研究团队确保了高质量视频的收录，最终形成了包含2万个人物为中心的1080P分辨率视频集合。人体和摄像机运动的标注是通过2D姿态估计器和基于SLAM的方法实现的。对于合成数据，研究团队收集了2,300个无版权的3D虚拟形象资源来增强现有的3D资源。

值得注意的是，研究团队引入了一种基于规则的摄像机轨迹生成方法，使合成流程能够融合多样且精确的摄像机运动标注，这是在真实世界数据中很少见的。为了验证HumanVid的有效性，研究团队建立了一个名为CamAnimate（即“可控制摄像机的人体动画”）的基础模型，该模型考虑了人体和摄像机的动作作为条件。

主要功能和特点：

高质量数据集：HumanVid包含20K以人物为中心的1080P分辨率视频，以及精确的人物和摄像机运动注释。
合成数据管道：通过合成数据，HumanVid能够扩展人物视频的多样性和真实感，包括精确的摄像机轨迹注释。
摄像机控制：与以往主要关注2D人体动作的方法不同，HumanVid还重视视频中摄像机运动的重要性，提供更全面的控制能力。
基线模型CamAnimate：这是一个简单的相机可控人物动画模型，考虑了人体和摄像机运动作为条件，展示了HumanVid数据集的有效性。

工作原理：

HumanVid数据集从互联网上收集了大量版权免费的现实世界视频，并通过规则基过滤策略确保视频质量。
使用2D姿态估计器和基于SLAM（同步定位与地图构建）的方法完成人体和摄像机运动注释。
对于合成数据，收集了2300个版权免费的3D头像资产，并引入了基于规则的摄像机轨迹生成方法，以增加训练数据中摄像机运动的多样性。

具体应用场景：

视频和电影制作：HumanVid可以用于从单张照片生成人物视频，为视频和电影制作提供新的制作手段。
角色动画：利用HumanVid，可以重现电影中的经典表演，只需一张角色的照片，就可以从任何想要的角度捕捉他们的动作。
虚拟现实和增强现实：在VR和AR应用中，HumanVid可以用于创建更加逼真和可控的虚拟角色。

新技术 # HumanVid

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

LaTCoder：将网页设计图像自动转换为代码

LaTCoder：将网页设计图像自动转换为代码

新技术 # LaTCoder

6个月前

02660

AI视频编辑工具LAVE：利用大语言模型（LLMs）来辅助用户进行视频编辑

AI视频编辑工具LAVE：利用大语言模型（LLMs）来辅助用户进行视频编辑

新技术 # AI视频编辑 # LAVE

2年前

08870

图像修补任务Reflecting Reality：专门用于创建逼真的镜面反射

图像修补任务Reflecting Reality：专门用于创建逼真的镜面反射

新技术 # Reflecting Reality # 镜面反射

1年前

05930

新型文生图风格迁移技术InstantStyle-Plus：在生成图像的同时保留原始图像的内容和风格

新型文生图风格迁移技术InstantStyle-Plus：在生成图像的同时保留原始图像的内容和风格

新技术 # InstantStyle-Plus # 风格迁移

2年前

09440

暂无评论

none

暂无评论...