用于定制漫画生成的新框架DiffSensei:将多模态大语言模型和扩散模型结合起来,以实现对漫画角色形象和布局的精确控制

故事可视化,即将文本描述转化为视觉叙事的任务,近年来随着文本到图像生成模型的发展取得了显著进展。然而,现有的模型在处理多角色场景时,特别是在控制角色外观和互动方面,仍然存在局限性。具体来说,这些模型难以精确地生成多个角色,并且在角色的表情、姿势和动作上缺乏灵活性。

为了解决这些问题,北京大学、上海人工智能实验室和南洋理工大学的研究人员提出了一项新任务:定制化漫画生成,并引入了 DiffSensei,这是一个专门设计用于生成具有动态多角色控制的漫画的创新框架。DiffSensei能够将多模态大语言模型(MLLMs)和扩散模型结合起来,以实现对漫画角色形象和布局的精确控制。DiffSensei框架通过整合基于扩散的图像生成器和作为文本兼容身份适配器的MLLM,使得漫画生成能够动态适应文本提示,同时保持角色形象的一致性。

例如,我们有一个故事概要:“一个男孩在寻找一个安静的书店,并遇到了一个穿着奇怪的店员。”我们可以使用DiffSensei框架,通过提供角色图像和布局条件,生成一系列漫画面板。这些面板将根据文本提示和角色图像动态调整角色的表情、动作和姿势,同时在漫画面板中正确布局对话气泡。

主要功能:

  1. 定制漫画生成:根据文本提示和角色图像生成漫画面板。
  2. 角色和布局控制:精确控制角色在漫画中的位置和外观。
  3. 文本适应性:使漫画角色能够根据文本提示动态改变表情和动作。

    工作原理:

    DiffSensei框架首先使用CLIP和漫画图像编码器提取局部图像特征,然后通过特征提取器处理这些特征。在生成过程中,框架利用MLLM作为文本兼容的角色特征适配器,根据文本提示动态调整角色特征。此外,框架采用掩码交叉注意力注入机制来控制角色布局,并使用对话嵌入技术来编码对话布局。通过这种方式,DiffSensei能够在保持角色形象一致性的同时,根据文本提示生成具有丰富表情和动作的漫画面板。

    DiffSensei的核心技术

    1. 基于扩散的图像生成器:DiffSensei采用了基于扩散(diffusion)的图像生成器,这是一种强大的生成模型,能够逐步将噪声图像转换为高质量的图像。扩散模型的优势在于其生成的图像质量高,并且可以生成复杂的细节,适用于漫画中的人物和背景。
    2. 多模态大语言模型(MLLM)作为文本兼容的身份适配器:DiffSensei集成了一个多模态大语言模型(MLLM),该模型充当文本兼容的身份适配器。MLLM不仅能够理解文本描述,还能根据文本提示调整角色的特征,确保生成的图像与文本内容高度一致。这种适配器使得DiffSensei能够在不同的文本提示下灵活调整角色的表情、姿势和动作。
    3. 掩码交叉注意力机制:为了实现精确的角色布局控制,DiffSensei引入了掩码交叉注意力机制。这一机制允许模型在生成过程中无缝结合角色特征,而无需直接传输像素信息。通过这种方式,DiffSensei可以在保持图像整体结构的同时,精确地控制每个角色的位置和姿态,确保多角色场景中的互动更加自然和协调。
    4. 面板特定的文本提示:DiffSensei还支持面板特定的文本提示,即根据不同漫画面板的内容,调整角色的特征。例如,在一个面板中,角色可能表现出惊讶的表情,而在另一个面板中,同一角色可能表现出愤怒的表情。MLLM根据这些面板特定的提示,动态调整角色的外观,使得生成的漫画更加生动和连贯。

    MangaZero:大规模定制化漫画数据集

    为了支持定制化漫画生成任务,研究人员还引入了 MangaZero,这是一个专门为该任务定制的大规模数据集。MangaZero包含:

    • 43,264页漫画,涵盖了各种类型的漫画作品。
    • 427,147个注释面板,每个面板都标注了角色的外观、表情、姿势和动作等详细信息。

    MangaZero的数据量和多样性为DiffSensei提供了丰富的训练资源,使其能够更好地理解和生成复杂的多角色场景。此外,MangaZero还支持在连续帧中可视化各种角色互动和动作,这对于生成连贯的漫画故事至关重要。

    实验结果与优势

    广泛的实验表明,DiffSensei在定制化漫画生成任务上显著优于现有模型。具体来说:

    • 文本可适应的角色定制:DiffSensei能够根据文本提示灵活调整角色的外观、表情和动作,生成的图像与文本内容高度一致。
    • 多角色场景的精确控制:通过掩码交叉注意力机制,DiffSensei能够在多角色场景中实现精确的布局控制,确保角色之间的互动自然流畅。
    • 高质量的图像生成:基于扩散的图像生成器确保了生成的图像质量高,细节丰富,适合用于高质量的漫画创作。
    0

    评论0

    没有账号?注册  忘记密码?