AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

工作流1周前更新 小马良
86 0

去年12月,我们曾介绍过FLOAT——一款基于人物图像和语音生成唇部同步视频的AI肖像动画技术。这类技术在当下并不少见,例如SadTalker、Hallo、Sonic和FantasyTalking等,但FLOAT在生成效率、稳定性和情感表达方面表现尤为出色。今年2月,开发团队释出了代码及模型,经过测试,FLOAT在本地生成时对显存的要求较低,生成速度快。不过,目前输出视频的尺寸限定为512x512,且模型仅限非商业用途(遵循CC BY-NC 4.0许可)。

近期,又有开发者打造了ComfyUI-FLOAT这款插件,让大家可以在ComfyUI中轻松实现FLOAT的功能。接下来,我们将重点讲解如何在ComfyUI中配置和使用FLOAT,帮助你快速上手。

AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

安装 ComfyUI-FLOAT 插件

1、 通过 Comfy Manager 安装

  • 打开 ComfyUI 的插件管理器(Comfy Manager)。
  • 搜索 ComfyUI-FLOAT 并安装。
  • 安装完成后,重启 ComfyUI。
AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

2、解决依赖项冲突

  • FLOAT 的依赖项中有一个关键限制:av==12.0.0 必须是特定版本。
  • 安装过程中可能会出现依赖项冲突,不过经本人测试,不是12.0.0版本似乎也没影响,大家可以直接在requirements.txt里将av==12.0.0改为av
AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

准备输入素材

1、图像选择

  • 准备一张正面视角、清晰度高的肖像图像,建议比例为 1:1。
  • 图像风格会影响最终效果,尽量选择与音频氛围相符的图片。
  • 图像的背景不要太复杂,建议使用纯色背景
AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

2、音频处理

  • 如果音频包含复杂背景音乐,建议使用工具(如 ClearVoice 或其他音频提取工具)提取人声。(PS:因为肖像会因非人声的音效而产生动作)
  • 提取人声后,音频将更精准地驱动唇部同步效果,避免非人声音效导致异常动作。
AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

地址:https://modelscope.cn/studios/iic/ClearerVoice-Studio

执行生成

1、FLOAT 工作流样例

  • 将工作流文件直接拖入ComfyUI即可使用。
AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!
  • 官方工作流加载音频,如果音频时长过长会有爆显存的问题,可以参考下图,修改其中一些节点,就可以做到控制生成时长
AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

2、 加载素材

  • 在 ComfyUI 中加载准备好的肖像图像和音频文件。
  • 确保工作流中的节点已正确连接(例如,图像输入节点和音频输入节点)。

3、设置情感参数(可选)

  • FLOAT 支持通过 emotion 参数微调生成角色的表情。
  • 注意:由于语音音调对表情影响更大,emotion 设置的效果相对有限。
AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!

4、 运行工作流

  • 点击运行按钮,FLOAT 将根据输入的图像和音频生成唇部同步视频。
  • 生成速度取决于硬件性能。例如,在 RTX 4070(12GB 显存)上,生成 30 秒视频约需110秒。

5、首次运行时自动下载模型

  • 当你第一次运行 FLOAT 工作流时,FLOAT 模型会自动下载到ComfyUI\models目录下。
  • 下载的文件包括编码器在内,总计约 3GB,属于较小的生成 AI 模型。

显存优化与注意事项

  1. 显存占用问题
    • 随着视频时长增加,FLOAT 的显存占用会逐渐升高。
    • 如果你的显卡显存不足(例如本人生成 1 分钟视频时爆显存),可以尝试启用共享显存功能,但生成速度会有所下降。
  2. 输出分辨率限制
    • FLOAT 的输出视频尺寸固定为 512x512。如果需要更高分辨率,可以通过后期处理工具进行放大。
  3. 多语言支持
    • FLOAT 是以英语为中心训练的,但在多语言生成中表现依然出色。
    • 使用非英语语种时,偶尔会出现一些偏差(如咬舌现象),但整体效果优于许多同类工具。

常见问题与解决方法

  1. 生成速度慢:如果生成速度较慢,可能是显存不足或启用了共享显存。尝试降低视频时长或优化硬件配置。
  2. 音频质量差导致效果不佳:复杂背景音效可能导致唇部同步不准确。建议提前提取人声,并确保音频清晰。

通过以上步骤和注意事项,你可以在ComfyUI中高效地使用FLOAT生成高质量的AI肖像动画。无论是准备输入素材、调整参数,还是优化显存占用,本文都为你提供了详细的指导。

现在,打开 ComfyUI,加载你的图像和音频,开始生成属于你的 AI 肖像动画吧!


更新(6月13日)

前面说了生成视频过长会存在爆显存的问题,开发者florestefano1975通过优化显著降低了显存使用量,开发者可在RTX 4060Ti 16GB上成功生成了2分钟的视频,显存使用率从98%降至28%!

这意味着ComfyUI-FLOAT将变得更加易用和高效,尤其是对于显存有限的用户以及希望创作更长动画的用户。如果你还没有安装ComfyUI-FLOAT,那么就可以直接安装修改版,如果已经安装,可以直接下载FLOAT.py替换文件即可。

AI 肖像动画神器!用 FLOAT+ ComfyUI,3分钟让你的照片开口说话!
© 版权声明

相关文章

暂无评论

none
暂无评论...