来自中科大、字节跳动的研究人员推出新型文本到图像定制方法RealCustom。这种方法的目标是为给定的主题生成受文本驱动的图像,这在内容创作领域具有革命性的意义。
想象一下,你想要创建一张图片,其中包含了你最喜欢的玩具,而且这张图片还能根据你提供的描述(比如“在沙漠中的玩具”)来定制背景和风格。RealCustom就是这样一种技术,它能够理解你的描述,并生成符合你要求的个性化图像。
RealCustom通过精确限制主题影响范围,实现了在实时开放领域中对给定主题的高质量相似性和给定文本的高控制性的统一,为个性化图像生成提供了一种新的解决方案。
主要功能:
- 实时图像定制: RealCustom能够实时地根据用户提供的文本描述和给定的主题(如特定的人、物体或场景)生成图像。
- 高质量相似性: 生成的图像在主题上与给定的图像高度相似。
- 高控制性: 图像中与主题无关的部分能够完全按照给定文本的描述进行控制。
主要特点:
- 解耦框架: RealCustom采用了一种新颖的“训练-推理”解耦框架,这使得模型在训练时学习视觉条件与原始文本条件之间的一般对齐能力,而在推理时通过自适应掩码引导策略逐步缩小给定主题的影响范围。
- 自适应评分模块: 在训练过程中,这个模块能够根据文本和当前生成的特征来调整影响量,从而提供平滑准确的视觉条件。
- 自适应掩码引导策略: 在推理过程中,这个策略通过迭代更新给定主题的影响范围和影响量,逐步将真实文本词缩小到特定主题。
工作原理:
- 训练阶段: RealCustom通过自适应评分模块学习如何在大规模文本-图像数据集上将视觉条件与预训练模型的原始文本条件对齐。
- 推理阶段: 在生成图像时,RealCustom首先使用文本到图像(T2I)分支来确定目标真实词的影响范围,然后使用文本和图像到图像(TI2I)分支来将影响量注入到这个范围内。
评论0