FlexGen框架：能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像

281 0

来自香港科技大学（广州）、香港科技大学和趣玩的研究人员开发了一个名为FlexGen的框架，它能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像。想象一下，你给FlexGen一张某个物体的照片或者一个描述这个物体的文本，比如“一个穿着学校制服、站着的年轻女孩”，它就能生成这个物体从不同角度（正面、侧面、背面和顶面）看起来的样子。

GitHub：https://xxu068.github.io/flexgen.github.io

研究人员利用 GPT-4V 的强大推理能力来生成 3D 感知的文本注释。通过分析排列为平铺多视图图像的对象的四个正交视图，GPT-4V 可以生成包含 3D 感知信息和空间关系的文本注释。通过将控制信号与提出的自适应双控制模块集成，FlexGen可以生成与指定文本相对应的多视图图像。FlexGen 支持多种可控能力，允许用户修改文本提示以生成合理且相应的新部分。此外，用户可以影响外观和材料属性，包括金属性和粗糙度。广泛的实验证明，FlexGen提供了增强的多重可控性，标志着对现有多视图扩散模型的显著进步。这项工作对需要快速和灵活的 3D 内容创建的领域具有重大意义，包括游戏开发、动画和虚拟现实。

FlexGen框架：能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像

主要功能和特点

多视图生成：FlexGen可以生成一个物体的四个视角（正面、左侧、背面和右侧）的图像，这些图像被排列成一个2x2的布局。
文本和图像输入：它可以接受文本提示或单视图图像作为输入，甚至可以同时使用两者来生成多视图图像。
3D感知文本注释：利用GPT-4V的强大推理能力，FlexGen能够生成包含3D信息和空间关系的文本注释。
自适应双控模块：这个模块允许模型同时根据图像和文本提示进行条件化，实现更精确和灵活的多视图图像生成。

工作原理

FlexGen的工作原理包括以下几个步骤：

3D感知文本注释：通过分析物体的四个正交视图，GPT-4V生成包含全局上下文和局部特征的详细描述，这些描述被用来指导图像生成。
自适应双控模块：这个模块整合了参考图像和文本提示，通过交叉注意力机制实现图像和文本之间的信息交互，使得生成的多视图图像既忠实于输入图像，又与文本描述一致。
训练和推理：在训练阶段，FlexGen可以处理单模态或双模态输入，增加了模型的灵活性。在推理阶段，如果提供了图像和文本，模型会结合这两种信息生成多视图图像；如果只提供了其中一种，模型会根据提供的信息生成相应的多视图图像。