基于大语言模型的新型文本编码器LI-DiT:灵活地将尖端的大语言模型融入文本转图像生成模型

商汤研究院、香港中文大学移动计算实验室和上海人工智能实验室的研究人员推出新型文本编码器LI-DiT(LLM-Infused Diffusion Transformer),旨在充分发挥大语言模型的潜力。通过精细规划的引导策略,研究团队显著提升了文本表征能力以适应提示编码需求,并校正了固有的位置偏差问题。这一方案让我们能够灵活地将尖端的大语言模型融入文本转图像生成模型中。此外,我们还引入了一种机制,便于在我们的框架中融合多个LLMs的威力。

通过实验,验证了LI-DiT在不同模型尺寸和数据集规模下的有效性。仰赖于大语言模型的固有优势与研究团队的创新设计,LI-DiT在理解并执行提示指令方面的表现,不仅轻易超越了当前顶级的开源模型,也包括像Stable Diffusion 3、DALL-E 3及Midjourney V6等主流封闭源代码商业模型。经过后续的优化和安全审核后,功能强大的LI-DiT-10B版本即将面世。

主要功能:

  • 提升文本理解能力:通过使用大型语言模型,增强模型对复杂文本提示的理解能力。
  • 改善图像生成质量:确保生成的图像与文本描述更加吻合,提高图像质量和风格多样性。

主要特点:

  1. 解决现有问题:论文中发现直接使用大型语言模型作为提示编码器会降低图像生成时遵循文本提示的能力。
  2. 创新框架:提出了一种新的框架,通过精心设计的使用指导,有效提升文本表示能力,并消除了固有的位置偏差。
  3. 灵活性:可以灵活地将最先进的大型语言模型集成到文本到图像生成模型中。

工作原理:

  • 分析问题:研究者首先分析了大型语言模型在训练目标和模型架构上与现有模型的差异。
  • 设计新框架:提出了LLM-infused Diffuser框架,通过在提示前插入指令和使用语言令牌细化器来解决信息不对齐和位置偏差问题。
  • 双向注意力机制:利用双向注意力机制进行有效的全局文本表示建模,并通过协作细化器合并和细化多个LLMs的文本表示。

具体应用场景:

  1. 艺术创作:艺术家和设计师可以使用这种技术将文本描述转换成视觉图像,加快创作过程。
  2. 社交媒体:用户可以输入文本提示,生成个性化的图像用于社交媒体分享。
  3. 广告和营销:快速生成吸引人的视觉内容,用于广告创意或营销材料。
  4. 游戏和电影制作:在游戏或电影的前期制作中生成概念艺术和场景设计。
0

评论0

没有账号?注册  忘记密码?