肖像图像动画Hallo系列再次更新！Hallo3框架引入Cogvidex模型，生成的肖像动画动作更自然、画面更逼真

123 0

复旦大学、百度的研究人员对再次对Hallo 进行了更新，提出了 Hallo3框架，在通过预训练的基于变换器的视频生成模型（Cogvidex），解决现有肖像图像动画技术在处理非正面视角、渲染肖像周围动态对象以及生成沉浸式、逼真背景方面的挑战，能让静态肖像在各种场景下动起来，而且动作自然、画面逼真。它不仅能处理正面肖像，还能应对各种角度和姿态，甚至能让肖像与周围物体互动。

项目主页：https://fudan-generative-vision.github.io/hallo3
GitHub：https://github.com/fudan-generative-vision/hallo3
模型：https://huggingface.co/fudan-generative-ai/hallo3

例如，与传统的动画技术相比，Hallo3能够从不同的角度生成动画肖像，同时保持肖像的身份，并且能够处理复杂的前景和背景元素，如人物手持智能手机或背景中有动态的街景。与之前的 Hallo2 相比，Hallo3 在生成动态场景和沉浸式背景方面有了显著提升，让肖像动画不再局限于简单的表情变化，而是能将角色也融入到场景中。

肖像图像动画Hallo系列再次更新！Hallo3框架引入Cogvidex模型，生成的肖像动画动作更自然、画面更逼真

主要功能

多角度肖像动画生成：能依据给定的参考图像、音频序列和文本提示，生成从正面或不同视角的动画肖像，如在实验中对包含各种头部比例、姿势、场景及配饰的图像都能有效处理，且在 HDTF 和 Celeb-V 等数据集上展现出良好性能，FID 和 FVD 指标表现优异，证明其生成图像与真实数据具有较高相似度。
音频驱动面部动作：通过精心设计的音频条件机制，特别是采用 wav2vec 提取音频特征并利用交叉注意力策略将音频嵌入整合到视频生成模型中，实现语音音频与面部表情动态的高度对齐，有效控制嘴唇同步等面部动作，不过在一些复杂场景下嘴唇同步精度仍有提升空间。
身份一致性保持：借助由因果 3D VAE 和一系列变压器层组成的身份参考网络，将身份信息嵌入到去噪潜在代码中，在长时间视频序列中确保面部身份的连贯性，避免面部特征模糊或失真，实验中不同身份条件策略对比凸显了其优势。
动态背景融合：突破以往方法在背景处理上的局限，可生成包含动态前景和背景元素的视频，使肖像在复杂场景下（如篝火前、拥挤街道背景等）的动画效果更逼真，在自定义的野生数据集上，其生成视频的前景和背景动态程度指标良好。

主要特点

基于先进模型架构：采用预训练的基于扩散变压器（DiT）的视频生成模型作为基础架构，如以 CogVideoX 模型为基准，利用 3D VAE 压缩视频数据，并结合 T5 编码文本输入，通过专家变压器网络处理，引入多种条件机制提升模型性能和生成效果。
多模态信息融合：有效整合视觉（参考图像）、听觉（音频序列）和文本（文本提示）多模态信息，通过专门的模块和机制对不同模态信息进行处理和融合，充分发挥各模态在肖像动画生成中的作用，实现更丰富和可控的动画效果。
创新性策略应用：在音频条件、身份保持和视频外推等方面提出创新性策略。如在音频条件中对比多种融合策略确定交叉注意力最优；身份保持上设计有效身份参考网络；视频外推利用运动帧作为条件信息实现长视频生成，这些策略显著提升了模型能力。

工作原理

基线网络与条件设置：以 CogVideoX 模型为基础构建变压器扩散网络，将视频潜在变量与文本嵌入组合后经专家变压器网络处理，利用 3D Rotational Positional Encoding 增强时间维度关系捕捉能力，同时引入语音音频条件和身份外观条件，并主要通过交叉注意力和自适应层归一化机制实现条件作用。
音频驱动机制：用 wav2vec 框架提取音频特征并转换为特定帧表示，通过三种融合策略（自注意力、自适应归一化、交叉注意力）实验确定交叉注意力在整合音频到视频生成模型中的最佳效果，在去噪网络中按特定方式利用音频嵌入增强输出相关性。
身份保持机制：将参考图像经因果 3D VAE 处理后再通过 42 层变压器网络得到身份特征，融入去噪网络增强面部动画身份一致性；同时引入运动帧作为额外条件，经 3D VAE 处理后参与到视频生成过程，保障长视频推理的连贯性。
训练与推理过程：训练分身份一致性和音频驱动视频生成两个阶段，分别固定和更新特定组件参数；推理时接收参考图像、音频、文本提示和运动帧输入，生成具有身份一致和唇同步的视频，通过重复利用前一视频的最后几帧实现长视频生成。

具体应用场景

影视与动画制作：为角色动画创作提供高效工具，可快速生成不同角度、表情丰富且与音频同步的角色面部动画，融入复杂背景和动态元素，增强视觉效果与真实感，如在动画电影中为角色创建生动形象和动作。
游戏开发：使游戏角色面部表情和语音交互更自然，提升玩家沉浸感，比如在角色扮演游戏中，角色可根据剧情和玩家语音指令做出逼真反应。
社交媒体内容创作：方便用户生成有趣的动态肖像视频，如在短视频平台上，用户能通过上传照片、添加音频和文本，快速获得个性化动画内容，用于分享生活点滴或创意表达。
在线教育与培训：在虚拟教师或培训助手形象创建方面有应用潜力，可实现教师讲解时面部动画与语音同步，增强教学的生动性和吸引力，提高学习效果。