AnyTalker：用单人数据生成自然互动的多人对话视频

21 0

多人对话视频的自动生成，长期以来受限于两个关键难题：一是高质量多人视频数据极难获取，二是多个角色之间的互动行为难以建模。为解决这些问题，来自香港科技大学、Video Rebirth、浙江大学和北京交通大学的研究团队提出了 AnyTalker —— 一个支持任意身份数量扩展、仅需单人数据训练、并能生成自然互动的音频驱动多人视频生成框架。

项目主页：https://hkust-c4g.github.io/AnyTalker-homepage
GitHub：https://github.com/HKUST-C4G/AnyTalker
模型：https://huggingface.co/zzz66/AnyTalker-1.3B
Demo：https://huggingface.co/spaces/C4G-HKUST/AnyTalker

核心目标

AnyTalker 的设计初衷非常明确：

降低数据成本：不依赖大规模真实多人视频数据集；
提升互动真实性：让多个角色在对话中表现出眼神交流、头部微动等自然反应；
实现身份可扩展：支持两人、四人甚至更多角色的对话视频生成，无需重新训练模型。

关键技术

1. 身份感知注意力机制（Audio-Face Cross Attention, AFCA）

AnyTalker 在 Diffusion Transformer 的基础上，引入了一种音频-人脸交叉注意力机制（AFCA）。该机制能够迭代式地处理身份-音频对，将每个角色的人脸图像与其对应的语音信号动态对齐。

这一设计使得模型在推理时可接收任意数量的身份-音频输入组合，真正实现了“可扩展”的多人生成能力。

2. 两阶段训练策略

为绕过多人数据稀缺的瓶颈，AnyTalker 采用了一种高效的两阶段训练流程：

第一阶段（预训练）：仅使用单人视频数据（如 HDTF、VFHQ），通过水平拼接多个单人视频的方式，模拟多人对话场景，学习基础的唇音同步与表情生成能力。
第二阶段（微调）：引入少量真实多人视频片段（例如团队自建的 InteractiveEyes 数据集），专门优化角色间的互动行为建模，如倾听时的眼神偏移、点头等。

这种策略大幅降低了对标注数据的依赖，同时保留了高质量的生成效果。

3. 互动性量化评估

为了客观衡量生成视频的“自然互动”程度，团队还提出了新的评估方法：

通过眼睛关键点的运动幅度，量化角色在非说话状态（即“倾听”）下的反应强度；
发布了 InteractiveEyes 数据集，包含多视角、高帧率的真实多人对话视频，专用于评估互动性。

实验结果

单人任务表现：在 HDTF 和 VFHQ 等标准单人基准上，AnyTalker 在唇音同步准确率、视觉质量、身份保真度等指标上达到 SOTA 或接近 SOTA 水平。
多人任务优势：在 InteractiveEyes 数据集上，AnyTalker 在互动性指标上显著优于现有方法（如 Bind-Your-Avatar、MultiTalk）。
扩展性验证：成功生成四人对话视频，各角色口型、表情、互动行为协调一致，未出现身份混淆或动作僵硬问题。