微软生成式AI模型WHAMM,让你现在可以在浏览器中玩实时AI渲染的《雷神之锤2》

早报3天前发布 小马良
24 0

微软昨天推出了一项令人瞩目的技术——WHAMM(World and Human Action MaskGIT Model),这是一个专门用于实时游戏的生成式AI模型。为了展示其强大功能,微软选择了28年前的经典游戏《雷神之锤2》进行演示。通过WHAMM,玩家可以在浏览器中体验到由AI实时渲染的游戏画面,尽管目前的帧率还较低,但这一技术的潜力已经引起了广泛关注。

微软生成式AI模型WHAMM,让你现在可以在浏览器中玩实时AI渲染的《雷神之锤2》

WHAMM技术亮点

WHAMM是微软在2月推出的WHAM-1.6B模型的升级版本,旨在提供更快的视觉输出和更流畅的实时体验。与传统的自回归模型(逐个令牌预测)不同,WHAMM采用了MaskGIT风格的设置,能够并行生成图像的所有令牌,从而减少依赖性和所需的前向传递次数。这种技术改进使得游戏画面的生成更加高效,为实时互动提供了可能。

训练与性能提升

在训练方面,WHAMM仅用了一周多的时间就完成了对《雷神之锤2》的学习,相较于WHAM-1.6B所需的七年时间,效率大幅提升。同时,游戏的分辨率也从300×180提升到了640×360,虽然仍有提升空间,但已经能够提供更清晰的画面体验。

微软生成式AI模型WHAMM,让你现在可以在浏览器中玩实时AI渲染的《雷神之锤2》

实际体验与局限性

尽管WHAMM在实时生成游戏画面方面取得了显著进展,但目前的体验仍存在一些局限性。例如,帧率较低,输入延迟较为明显,这可能会对玩家的游戏体验造成一定影响。此外,模型在与敌人的交互上表现得较为模糊,上下文长度有限,无法正确存储生命值和伤害等关键数据,且目前仅限于单一关卡。

然而,WHAMM在跟踪现有环境并实时适应用户输入方面的能力仍然令人印象深刻。玩家可以进行射击、移动、跳跃、蹲下、环顾四周等操作,甚至可以与敌人进行互动。尽管这些功能还不够完美,但已经展示了生成式AI在实时游戏领域的巨大潜力。

未来展望

微软强调,WHAMM目前的重点在于分析模型的特性,而不是将其作为最终的游戏体验来评判。这项技术仍处于早期阶段,未来还有很大的改进空间。随着技术的不断进步,我们可以期待WHAMM在帧率、分辨率、交互性和上下文管理等方面取得更大的突破。

体验地址

如果你对这项技术感兴趣,可以在Copilot Labs上亲自尝试这个演示,感受生成式AI如何重新定义经典游戏。

© 版权声明

相关文章

暂无评论

none
暂无评论...