IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

29 0

传统的文生图模型（如 Stable Diffusion）能够根据文本描述生成高质量的 RGB 图像，但这些图像通常包含固定的光照效果（如反射、阴影、高光），这限制了它们在需要 PBR 地图（如游戏、VR 应用）中的使用。

慕尼黑工业大学研究人员推出 IntrinsiX，它能够直接从文本描述生成高质量的物理基础渲染（Physically-Based Rendering, PBR）图像。与现有的文本到图像（Text-to-Image, T2I）模型不同，IntrinsiX 生成的输出是 PBR 地图（包括反照率、粗糙度、金属度和法线图），这些地图可以用于核心图形应用中的重新照明、编辑和纹理生成任务。

项目主页：https://peter-kocsis.github.io/IntrinsiX

例如，如果需要在不同的光照条件下重新渲染图像，或者对材质进行编辑，传统的 RGB 图像就无法满足需求。IntrinsiX 通过直接生成 PBR 地图，解决了这一问题，使得生成的图像可以用于物理基础渲染，从而支持重新照明和材质编辑等高级功能。

主要功能

直接生成 PBR 地图：IntrinsiX 能够从文本描述直接生成高质量的反照率、粗糙度、金属度和法线图。
支持重新照明和材质编辑：生成的 PBR 地图可以用于物理基础渲染，支持在不同光照条件下的重新渲染，以及对材质属性（如粗糙度和金属度）的编辑。
场景纹理生成：IntrinsiX 可以生成整个 3D 场景的 PBR 纹理，适用于游戏和 VR 应用。
多样性和泛化能力：IntrinsiX 生成的 PBR 地图不仅质量高，而且能够处理多样化的、分布外的文本描述。

主要特点

利用图像先验：IntrinsiX 利用预训练的文本到图像模型的强大图像先验，将其转换为 PBR 地图生成器。
跨内在属性注意力机制：通过跨内在属性注意力（Cross-Intrinsic Attention），IntrinsiX 能够在生成过程中交换不同输出模态之间的信息，从而获得语义上一致的 PBR 预测。
渲染损失：IntrinsiX 引入了一种新的渲染损失，通过图像空间信号约束模型，从而在输出的 BRDF 属性中实现清晰的细节。
重要性采样：在渲染过程中，IntrinsiX 使用基于重要性的光照采样策略，以增强生成的 PBR 地图的细节和语义一致性。

工作原理

PBR 先验训练：首先，IntrinsiX 分别为每个 PBR 属性（反照率、粗糙度、金属度、法线）训练单独的模型。这些模型通过 LoRA（Low-Rank Adaptation）层进行微调，以学习每个属性的分布。
跨内在属性注意力：在第二阶段，IntrinsiX 将这些单独训练的模型联合微调，并引入跨内在属性注意力机制，允许不同 PBR 地图之间进行信息交换，从而生成语义上一致的 PBR 地图。
渲染损失：IntrinsiX 使用渲染损失来进一步优化生成的 PBR 地图。通过渲染生成的 PBR 地图并计算与真实 RGB 图像的差异，模型能够学习如何生成更接近真实物理属性的 PBR 地图。
重要性采样：在渲染过程中，IntrinsiX 使用基于重要性的光照采样策略，优先采样粗糙度较低的像素，从而增强生成的 PBR 地图的细节和语义一致性。

应用场景

游戏和 VR 应用：IntrinsiX 可以生成高质量的 PBR 纹理，适用于游戏和 VR 应用中的场景纹理生成。例如，可以生成一个具有复杂材质和光照的虚拟房间，并在不同的光照条件下重新渲染。
重新照明和材质编辑：生成的 PBR 地图可以用于物理基础渲染，支持在不同光照条件下的重新渲染，以及对材质属性（如粗糙度和金属度）的编辑。例如，可以将一个物体的材质从金属改为塑料，或者改变光照方向。
内容创作：IntrinsiX 可以生成高质量的 PBR 地图，支持艺术家在内容创作中进行更精细的调整。例如，可以手动编辑反照率图，改变物体的颜色，或者调整粗糙度图，改变物体的光泽度。
3D 场景生成：IntrinsiX 可以生成整个 3D 场景的 PBR 纹理，适用于游戏和 VR 应用。例如，可以生成一个具有复杂材质和光照的虚拟房间，并在不同的光照条件下重新渲染。