腾讯混元推出新型框架 Hunyuan-GameCraft:为游戏环境生成高动态、交互式的视频内容

新技术6个月前发布 小马良
293 0

腾讯混元项目组和华中科技大学的研究人员推出新型框架 Hunyuan-GameCraft,为游戏环境生成高动态、交互式的视频内容。Hunyuan-GameCraft 能够从单张图像和对应的提示出发,生成具有时间连贯性和视觉丰富性的游戏视频,支持实时交互和长期视频生成。

例如,给定一张描述“阳光照耀的庭院,白色土坯建筑,拱形门窗,周围环绕着郁郁葱葱的绿植和棕榈树,营造出宁静的地中海氛围”的图像,Hunyuan-GameCraft 可以根据用户的输入(如键盘方向键和鼠标操作),生成一系列与用户交互信号一致的视频内容。

主要功能

  1. 高动态交互式视频生成:能够根据用户的实时输入(如键盘和鼠标操作)生成高质量、时间连贯的游戏视频。
  2. 长期视频生成:支持生成长时间的视频序列,同时保持场景信息的一致性和连贯性。
  3. 动作控制:将标准键盘和鼠标输入统一到一个共享的相机表示空间中,支持复杂的交互输入,如速度和角度控制。
  4. 实时部署:通过模型蒸馏技术,显著提高了推理速度,适合在复杂交互环境中实时部署。

主要特点

  1. 统一的动作表示:将多种键盘和鼠标操作统一到一个连续的动作空间中,支持更复杂的交互输入。
  2. 混合历史条件训练策略:通过自回归方式扩展视频序列,同时保留游戏场景信息,有效解决了长期生成中的错误累积问题。
  3. 模型蒸馏:通过模型蒸馏技术,显著提高了推理速度,降低了计算开销,适合实时交互。
  4. 大规模数据集训练:模型在超过100款AAA游戏的超过100万段游戏记录上进行训练,确保了广泛的覆盖和多样性。

工作原理

  1. 动作空间和注入:将键盘和鼠标操作统一到一个共享的相机表示空间中,通过轻量级的动作编码器将输入的相机轨迹编码为特征,然后将这些特征与图像特征融合,注入到模型中。
  2. 混合历史条件训练:在训练过程中,使用历史上下文信息和掩码指示器,通过自回归方式扩展视频序列,同时保留场景信息,有效解决了长期生成中的错误累积问题。
  3. 模型蒸馏:采用Phased Consistency Model (PCM)技术,将原始扩散过程和无分类器引导蒸馏到一个紧凑的八步一致性模型中,显著提高了推理速度。

测试结果

  1. 定量比较:在多个关键指标上,Hunyuan-GameCraft 显著优于现有的模型,包括生成质量、动态能力、控制精度和时间连贯性。例如,与Matrix-Game相比,Hunyuan-GameCraft在动态性能上表现更好,同时在跨域测试中将交互错误减少了55%。
  2. 用户研究:在用户研究中,Hunyuan-GameCraft在多个维度上获得了最高的评分,表明用户对其生成的视频质量和交互体验非常满意。
  3. 定性比较:在多个场景下,Hunyuan-GameCraft展示了优越的交互能力和长期一致性,能够准确映射输入的交互信号,同时保持视频的质量和空间连贯性。
© 版权声明

相关文章

暂无评论

none
暂无评论...