腾讯推出AnimeGamer：通过多模态大语言模型实现无限动漫生活模拟

42 0

近年来，图像和视频合成技术的发展为生成游戏带来了新的可能性。特别是将动漫电影中的角色转化为可互动、可玩的实体，让玩家能够以自己喜爱的角色身份沉浸在动态的动漫世界中，通过语言指令进行生活模拟。这种游戏被称为“无限游戏”，因为它没有预设的边界和固定的玩法规则，玩家可以通过开放式的语言指令与游戏世界互动，体验不断演变的故事线和环境。

腾讯 PCG ARC 实验室和香港城市大学的研究人员推出AnimeGamer ，它通过多模态大语言模型（MLLM）实现无限动漫生活模拟（Infinite Anime Life Simulation）。AnimeGamer 允许用户通过开放式的语言指令与动漫角色互动，生成连贯的多轮游戏状态，包括动态动画片段和角色状态更新。这种模拟游戏被称为“无限游戏”，因为它消除了预设的边界和固定的玩法规则，允许玩家通过语言指令与游戏世界互动，体验不断演变的故事线和环境。

项目主页：https://howe125.github.io/AnimeGamer.github.io
GitHub：https://github.com/TencentARC/AnimeGamer
模型：https://huggingface.co/TencentARC/AnimeGamer

例如，玩家可以扮演宫崎骏电影中的角色，通过语言指令与游戏世界互动，如“让主角在森林中奔跑”或“让主角与另一个角色交谈”。AnimeGamer 能够生成连贯的多轮游戏状态，包括动态动画片段和角色状态更新（如体力、社交和娱乐值）。

主要功能

动态动画生成：AnimeGamer 能够生成动态动画片段，展示角色的动作和行为。
角色状态更新：系统会根据游戏状态更新角色的体力、社交和娱乐值。
多轮交互：支持多轮游戏状态生成，玩家可以通过语言指令与游戏世界进行持续互动。
上下文一致性：生成的游戏状态在视觉和语义上保持一致性，确保玩家的沉浸感。

主要特点

动作感知的多模态表示：AnimeGamer 引入了一种新的动作感知多模态表示方法，能够将动画片段编码为高质量的视频片段。
多模态大语言模型（MLLM）：利用 MLLM 预测每个游戏状态的多模态表示，确保生成的动画片段在上下文上具有一致性。
视频扩散模型：通过视频扩散模型将多模态表示解码为高质量的视频片段，支持动态角色动作和运动范围的控制。
自适应解码器训练：通过自适应训练阶段，优化解码器以生成高质量的视频片段，减少生成视频中的伪影。

工作原理

动画片段编码与解码：AnimeGamer 使用一个动画片段编码器（Ea）将动画片段编码为动作感知的多模态表示，然后通过一个基于视频扩散模型的解码器（Da）将这些表示解码为高质量的视频片段。
游戏状态预测：利用 MLLM 预测每个游戏状态的多模态表示，输入包括历史动画片段表示和当前指令。MLLM 输出包括动态动画片段和角色状态更新。
解码器自适应训练：通过自适应训练阶段，优化解码器以生成高质量的视频片段，减少生成视频中的伪影。
多轮交互：玩家通过语言指令与游戏世界互动，系统生成连贯的多轮游戏状态，包括动态动画片段和角色状态更新。