Science-T2I框架：通过整合科学知识，提升图像合成模型生成图像的现实感和科学一致性

323 0

纽约大学、华盛顿大学、宾夕法尼亚大学和加州大学圣地亚哥分校介绍了一个名为 Science-T2I 的框架，旨在通过整合科学知识，提升图像合成模型生成图像的现实感和科学一致性。该研究的核心是解决现有图像合成模型在生成图像时常常缺乏对现实世界科学原理的理解，导致生成的图像虽然在视觉上可能看起来不错，但在科学上是不准确的。例如，模型可能会生成一个“不浇水的玫瑰”图像，但无法正确表现出玫瑰因缺水而枯萎的特征。

项目主页：https://jialuo-li.github.io/Science-T2I-Web
GitHub：https://github.com/Jialuo-Li/Science-T2I
模型：https://huggingface.co/Jialuo21/SciScore

论文中提到，当给定一个需要科学知识的提示（如“不浇水的玫瑰”）时，现有的图像合成模型（如 FLUX）生成的图像往往与现实相差甚远（如图 1 所示）。而 Science-T2I 框架通过引入科学知识，能够生成更接近现实的图像。

主要功能

科学知识整合：Science-T2I 提供了一个包含 20k 对抗性图像对和 9k 提示的专家标注数据集，覆盖了物理、化学和生物等多个科学领域。
科学真实性评估：提出了 SCISCORE，一个端到端的奖励模型，能够基于科学知识评估生成图像的质量。
模型优化：基于 SCIENCE-T2I 数据集，提出了一个两阶段训练框架，包括监督微调（SFT）和在线微调（OFT），以将科学知识整合到现有的生成模型中。

主要特点

专家标注数据集：SCIENCE-T2I 数据集由专家标注，确保了数据的高质量和科学准确性。
端到端奖励模型：SCISCORE 能够直接评估图像与提示之间的科学一致性，而无需依赖复杂的提示工程。
显著性能提升：通过两阶段训练框架，模型在 SCISCORE 上的性能显著提升，超过 50%。

工作原理

Science-T2I 的工作原理基于以下三个核心部分：

数据集构建：通过专家标注构建了一个包含对抗性图像对的数据集，每对图像中一个符合现实，另一个不符合。这些图像对用于训练和评估模型。
奖励模型 SCISCORE：基于 CLIP 架构，通过增强科学理解和视觉能力，对生成图像进行科学一致性评估。
两阶段训练框架：
- 监督微调（SFT）：使用 SCIENCE-T2I 数据集对预训练模型进行微调，使其更好地理解科学知识。
- 在线微调（OFT）：在 SFT 的基础上，使用 SCISCORE 作为奖励模型，进一步优化模型性能。