RankDPO

直接偏好优化（DPO）已成为一种强大的方法，用于将文本到图像（T2I）模型与人类反馈对齐。然而，成功应用DPO需要大量的资源来收集和标注大规模数据集，例如数百万张生成的人类偏好注释的配对图像。此外，随...

1年前

05230