AI 肖像动画神器！用 FLOAT+ ComfyUI，3分钟让你的照片开口说话！

588 0

去年12月，我们曾介绍过FLOAT——一款基于人物图像和语音生成唇部同步视频的AI肖像动画技术。这类技术在当下并不少见，例如SadTalker、Hallo、Sonic和FantasyTalking等，但FLOAT在生成效率、稳定性和情感表达方面表现尤为出色。今年2月，开发团队释出了代码及模型，经过测试，FLOAT在本地生成时对显存的要求较低，生成速度快。不过，目前输出视频的尺寸限定为512x512，且模型仅限非商业用途（遵循CC BY-NC 4.0许可）。

近期，又有开发者打造了ComfyUI-FLOAT这款插件，让大家可以在ComfyUI中轻松实现FLOAT的功能。接下来，我们将重点讲解如何在ComfyUI中配置和使用FLOAT，帮助你快速上手。

GitHub：https://github.com/yuvraj108c/ComfyUI-FLOAT
网盘下载：https://www.123865.com/s/hyQyTd-MFHDv 提取码:hlmN

安装 ComfyUI-FLOAT 插件

1、 通过 Comfy Manager 安装

打开 ComfyUI 的插件管理器（Comfy Manager）。
搜索 ComfyUI-FLOAT 并安装。
安装完成后，重启 ComfyUI。

2、解决依赖项冲突

FLOAT 的依赖项中有一个关键限制：av==12.0.0 必须是特定版本。
安装过程中可能会出现依赖项冲突，不过经本人测试，不是12.0.0版本似乎也没影响，大家可以直接在requirements.txt里将av==12.0.0改为av

准备输入素材

1、图像选择

准备一张正面视角、清晰度高的肖像图像，建议比例为 1:1。
图像风格会影响最终效果，尽量选择与音频氛围相符的图片。
图像的背景不要太复杂，建议使用纯色背景

2、音频处理

如果音频包含复杂背景音乐，建议使用工具（如 ClearVoice 或其他音频提取工具）提取人声。（PS：因为肖像会因非人声的音效而产生动作）
提取人声后，音频将更精准地驱动唇部同步效果，避免非人声音效导致异常动作。

地址：https://modelscope.cn/studios/iic/ClearerVoice-Studio

执行生成

1、FLOAT 工作流样例

将工作流文件直接拖入ComfyUI即可使用。

官方工作流加载音频，如果音频时长过长会有爆显存的问题，可以参考下图，修改其中一些节点，就可以做到控制生成时长

2、 加载素材

在 ComfyUI 中加载准备好的肖像图像和音频文件。
确保工作流中的节点已正确连接（例如，图像输入节点和音频输入节点）。

3、设置情感参数（可选）

FLOAT 支持通过 emotion 参数微调生成角色的表情。
注意：由于语音音调对表情影响更大，emotion 设置的效果相对有限。

4、 运行工作流

点击运行按钮，FLOAT 将根据输入的图像和音频生成唇部同步视频。
生成速度取决于硬件性能。例如，在 RTX 4070（12GB 显存）上，生成 30 秒视频约需110秒。

5、首次运行时自动下载模型

当你第一次运行 FLOAT 工作流时，FLOAT 模型会自动下载到ComfyUI\models目录下。
下载的文件包括编码器在内，总计约 3GB，属于较小的生成 AI 模型。

显存优化与注意事项

显存占用问题
- 随着视频时长增加，FLOAT 的显存占用会逐渐升高。
- 如果你的显卡显存不足（例如本人生成 1 分钟视频时爆显存），可以尝试启用共享显存功能，但生成速度会有所下降。
输出分辨率限制
- FLOAT 的输出视频尺寸固定为 512x512。如果需要更高分辨率，可以通过后期处理工具进行放大。
多语言支持
- FLOAT 是以英语为中心训练的，但在多语言生成中表现依然出色。
- 使用非英语语种时，偶尔会出现一些偏差（如咬舌现象），但整体效果优于许多同类工具。