香港科技大学、中国科学技术大学和腾讯光子工作室的研究人员推出一个专为生成开放世界游戏量身定制的DiT模型GameGen-O,该模型通过模拟各种游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,促进了高质量、开放领域的生成。此外,它还提供了交互可控性,从而允许游戏玩法模拟。简单来说,可以用操控游戏角色的方式控制视频模型的角色运动。
GameGen-O 经历了包括基础模型预训练和指令调整在内的两阶段训练过程。在第一阶段,模型通过文本到视频和视频延续对 OGameData 进行预训练,赋予 GameGen-O 开放领域视频游戏生成的能力。在第二阶段,预训练模型被冻结,研究团队使用可训练的 InstructNet 进行微调,这使得基于多模态结构指令产生后续帧成为可能。这一整个训练过程赋予了模型生成和交互控制内容的能力。
主要特点
- 交互可控性:允许玩家与游戏内容进行互动,实现更丰富的游戏体验。
- 全面的数据集:研究团队构建了首个开放世界游戏数据集 OGameData,包含了一百多个下一代开放世界游戏的大量数据。
工作原理
- 数据收集与处理:从互联网收集原始视频,经过精心筛选和处理,构建出 OGameData 数据集。
- 基础预训练:使用 2+1D VAE 对视频片段进行压缩,并通过混合训练策略,使模型能够适应不同的帧率和分辨率。
- 指令调整:通过 InstructNet 进行微调,使模型能够根据多模态结构指令产生后续帧,实现交互可控性。
OGameData 构建
研究团队通过从互联网收集 32,000 个原始视频开始构建 OGameData。经过人类专家的精心识别和过滤,最终得到约 15,000 个可用视频。这些视频经过场景检测、剪辑、排序和过滤,最终形成了一个丰富、多样化的开放世界游戏数据集。
具体应用场景
- 游戏开发:游戏设计师可以利用 DiTGameGen-O 快速生成游戏原型,测试和迭代新的想法。
- 玩家体验:玩家可以通过与游戏内容的互动,获得更加个性化和沉浸式的游戏体验。
- 教育与研究:在教育和研究领域,DiTGameGen-O 可以作为研究游戏设计和玩家行为的工具。
评论0