用于定制漫画生成的新框架DiffSensei：将多模态大语言模型和扩散模型结合起来，以实现对漫画角色形象和布局的精确控制

163 0

故事可视化，即将文本描述转化为视觉叙事的任务，近年来随着文本到图像生成模型的发展取得了显著进展。然而，现有的模型在处理多角色场景时，特别是在控制角色外观和互动方面，仍然存在局限性。具体来说，这些模型难以精确地生成多个角色，并且在角色的表情、姿势和动作上缺乏灵活性。

为了解决这些问题，北京大学、上海人工智能实验室和南洋理工大学的研究人员提出了一项新任务：定制化漫画生成，并引入了 DiffSensei，这是一个专门设计用于生成具有动态多角色控制的漫画的创新框架。DiffSensei能够将多模态大语言模型（MLLMs）和扩散模型结合起来，以实现对漫画角色形象和布局的精确控制。DiffSensei框架通过整合基于扩散的图像生成器和作为文本兼容身份适配器的MLLM，使得漫画生成能够动态适应文本提示，同时保持角色形象的一致性。

项目主页：https://jianzongwu.github.io/projects/diffsensei
GitHub：https://github.com/jianzongwu/DiffSensei
数据集：https://huggingface.co/datasets/jianzongwu/MangaZero
模型：https://huggingface.co/jianzongwu/DiffSensei

例如，我们有一个故事概要：“一个男孩在寻找一个安静的书店，并遇到了一个穿着奇怪的店员。”我们可以使用DiffSensei框架，通过提供角色图像和布局条件，生成一系列漫画面板。这些面板将根据文本提示和角色图像动态调整角色的表情、动作和姿势，同时在漫画面板中正确布局对话气泡。

用于定制漫画生成的新框架DiffSensei：将多模态大语言模型和扩散模型结合起来，以实现对漫画角色形象和布局的精确控制

主要功能：

定制漫画生成：根据文本提示和角色图像生成漫画面板。
角色和布局控制：精确控制角色在漫画中的位置和外观。
文本适应性：使漫画角色能够根据文本提示动态改变表情和动作。

工作原理：

DiffSensei框架首先使用CLIP和漫画图像编码器提取局部图像特征，然后通过特征提取器处理这些特征。在生成过程中，框架利用MLLM作为文本兼容的角色特征适配器，根据文本提示动态调整角色特征。此外，框架采用掩码交叉注意力注入机制来控制角色布局，并使用对话嵌入技术来编码对话布局。通过这种方式，DiffSensei能够在保持角色形象一致性的同时，根据文本提示生成具有丰富表情和动作的漫画面板。

DiffSensei的核心技术

基于扩散的图像生成器：DiffSensei采用了基于扩散（diffusion）的图像生成器，这是一种强大的生成模型，能够逐步将噪声图像转换为高质量的图像。扩散模型的优势在于其生成的图像质量高，并且可以生成复杂的细节，适用于漫画中的人物和背景。
多模态大语言模型（MLLM）作为文本兼容的身份适配器：DiffSensei集成了一个多模态大语言模型（MLLM），该模型充当文本兼容的身份适配器。MLLM不仅能够理解文本描述，还能根据文本提示调整角色的特征，确保生成的图像与文本内容高度一致。这种适配器使得DiffSensei能够在不同的文本提示下灵活调整角色的表情、姿势和动作。
掩码交叉注意力机制：为了实现精确的角色布局控制，DiffSensei引入了掩码交叉注意力机制。这一机制允许模型在生成过程中无缝结合角色特征，而无需直接传输像素信息。通过这种方式，DiffSensei可以在保持图像整体结构的同时，精确地控制每个角色的位置和姿态，确保多角色场景中的互动更加自然和协调。
面板特定的文本提示：DiffSensei还支持面板特定的文本提示，即根据不同漫画面板的内容，调整角色的特征。例如，在一个面板中，角色可能表现出惊讶的表情，而在另一个面板中，同一角色可能表现出愤怒的表情。MLLM根据这些面板特定的提示，动态调整角色的外观，使得生成的漫画更加生动和连贯。