WILDACTOR:告别 AI 视频“变脸”噩梦,港科大团队实现任意视角下的全身身份严格一致

新技术2天前发布 小马良
12 0

“现在的 AI 视频生成越来越逼真,但往往‘见光死’:镜头一转,主角换了张脸;动作一大,身体变了模样。这种‘身份漂移’让 AI 视频难以真正用于影视制作。”

WILDACTOR 的出现,就是为了让数字演员在任何镜头、任何角度、任何动作下,都能保持‘表里如一’。”

由 香港科技大学、美团和新加坡国立大学 联合研究团队推出的 WILDACTOR 系统,正式向 AI 视频生成的终极难题发起挑战:如何在无约束的视角变化和大幅动作中,保持人物全身身份的严格一致?

  • 项目主页:https://wildactor.github.io
  • GitHub:https://github.com/WildActor/WildActor

实验表明,WILDACTOR 在身体一致性指标上大幅超越现有开源及商业模型(包括 Vidu、可灵等),真正实现了“任意视角、全程一致”的电影级人物视频生成。

WILDACTOR:告别 AI 视频“变脸”噩梦,港科大团队实现任意视角下的全身身份严格一致

核心痛点:为什么 AI 视频总爱“变脸”?

现有的主流视频生成模型(如 Sora、可灵、Runway 等)虽然能生成流畅的画面,但在处理长视频复杂镜头时,常面临两大顽疾:

  1. 面部为中心偏差:过度关注脸部一致性,导致身体、服装、体型随镜头变化而“漂移”。出现“脸是对的,身体却换了个人”的尴尬。
  2. 姿态锁定伪影:为了保持身份,强行复制参考图的姿态,导致人物动作僵硬,像被“冻结”了一样,无法自然运动。

WILDACTOR 的解决思路:不再依赖单一的正面照,而是让 AI 学习多视角、全身性的身份特征。无论镜头如何切换,AI 都能理解“这是同一个人”,并让其自然表演。

四大核心能力:重新定义数字演员

1. 📸 任意视角参考 (Arbitrary View Reference)

  • 无需 3D 扫描:只需提供普通的正面、侧面、背面照片(甚至只有其中一两张),AI 即可构建完整的 3D 身份认知。
  • 智能补全:即使缺少某个角度的照片,模型也能基于已有信息推断出该角度下的身份特征。

2. 🧍 全身身份严格保持 (Full-Body Identity Consistency)

  • 拒绝“漂浮的头”:不仅脸部不变,身材比例、肌肉线条、服装纹理、发型细节均全程保持一致。
  • 动态适应:在奔跑、跳跃、转身等大幅动作下,身份特征依然稳固,不会出现肢体扭曲或衣物突变。

3. 🎥 长视频叙事生成 (Long-Form Narrative)

  • 多镜头连贯:支持生成包含多个场景、多个镜头切换的连续故事。
  • 复杂运镜:完美适配推拉摇移、环绕拍摄等复杂镜头语言,人物在画面中始终如一。

4. 🌍 开放环境适应 (Open-World Adaptation)

  • 全场景通用:人物可在森林、城市、室内等各种环境中活动。
  • 光影鲁棒性:适应白天、夜晚、逆光、霓虹灯等各种光照条件,身份特征不受光线干扰。

🧠 技术揭秘:WILDACTOR 是如何做到的?

WILDACTOR 的成功源于其独特的数据构建架构设计双轮驱动。

1. 📊 Actor-18M:迄今最大人体视频数据集

为了训练出真正的“全能演员”,团队构建了包含 160 万段视频 和 1800 万张图像 的 Actor-18M 数据集:

  • 视角增强 (Subset A):利用 AI 编辑技术,将大量正面视角数据扩展为侧面、背面等多角度数据,解决训练数据视角分布不均的问题。
  • 属性增强 (Subset B):在不同环境、光照、动作下生成同一人的参考图,防止模型过拟合背景线索。
  • 标准锚点 (Subset C):精选正面、侧面、背面三视图作为“身份锚点”,确保身份认知的完整性。

2. ⚙️ 两大核心技术引擎

A. 非对称身份保留注意力机制 (Asymmetric Identity-Preserving Attention)

  • 原理:视频画面可以“关注”参考照片以获取身份信息,但参考照片不能“关注”视频画面。
  • 效果:这就像演员可以参考定妆照来化妆,但定妆照不会受拍摄现场动作的影响而变形。从而避免了参考图的静态姿态“污染”视频的动态运动,解决了“姿态锁定”问题。

B. 视角自适应蒙特卡洛采样 (View-Adaptive Monte Carlo Sampling)

  • 原理:在训练过程中,智能地选择互补的视角组合。如果已选了正面照,就优先采样侧面或背面照作为参考。
  • 效果:强迫模型学习真正的“视角无关”身份理解,而不是偷懒只依赖正面图。实验显示,该策略将背面视角的生成质量得分从 0.680 提升至 0.937

C. 身份感知位置编码 (Identity-Aware Positional Encoding)

  • 原理:给参考照片和视频帧打上不同的“时空标签”,明确区分“这是静态参考”和“这是动态视频”。
  • 效果:防止两者在特征空间中混淆,确保身份信息与运动信息解耦。

📈 实测表现:全面超越竞品

研究团队建立了专用基准 Actor-Bench 进行严格测试:

指标WILDACTOR最佳商业模型 (Vidu/可灵)最佳开源模型优势分析
脸部一致性0.5590.565~0.520与顶级商业模型持平
身体一致性0.952 🏆0.905~0.850大幅领先,解决核心痛点
文本对齐度0.920 🏆0.880~0.840动作指令执行更精准
视角鲁棒性极高中等背面/侧面视角生成质量质变

直观案例

  • 攀岩场景:竞品在大幅度肢体伸展时出现手臂变粗、衣服变色;WILDACTOR 全程稳定。
  • 服装店试衣:竞品在转身时脸部特征丢失;WILDACTOR 在 360 度旋转中依然保持完美身份。

💡 局限与未来

尽管表现卓越,WILDACTOR 仍有进步空间:

  • 多人交互:目前主要优化单人场景,多人互动时的身份区分需进一步研究。
  • 极端视角:如完全俯视(上帝视角)或极度仰视,生成质量偶有波动。
  • 未来规划:团队计划扩展至多人场景、更复杂的物理交互及更长时程的叙事生成。
© 版权声明

相关文章

暂无评论

none
暂无评论...