故事可视化,即将文本描述转化为视觉叙事的任务,近年来随着文本到图像生成模型的发展取得了显著进展。然而,现有的模型在处理多角色场景时,特别是在控制角色外观和互动方面,仍然存在局限性。具体来说,这些模型难以精确地生成多个角色,并且在角色的表情、姿势和动作上缺乏灵活性。
为了解决这些问题,北京大学、上海人工智能实验室和南洋理工大学的研究人员提出了一项新任务:定制化漫画生成,并引入了 DiffSensei,这是一个专门设计用于生成具有动态多角色控制的漫画的创新框架。DiffSensei能够将多模态大语言模型(MLLMs)和扩散模型结合起来,以实现对漫画角色形象和布局的精确控制。DiffSensei框架通过整合基于扩散的图像生成器和作为文本兼容身份适配器的MLLM,使得漫画生成能够动态适应文本提示,同时保持角色形象的一致性。
- 项目主页:https://jianzongwu.github.io/projects/diffsensei
- GitHub:https://github.com/jianzongwu/DiffSensei
- 数据集:https://huggingface.co/datasets/jianzongwu/MangaZero
- 模型:https://huggingface.co/jianzongwu/DiffSensei
例如,我们有一个故事概要:“一个男孩在寻找一个安静的书店,并遇到了一个穿着奇怪的店员。”我们可以使用DiffSensei框架,通过提供角色图像和布局条件,生成一系列漫画面板。这些面板将根据文本提示和角色图像动态调整角色的表情、动作和姿势,同时在漫画面板中正确布局对话气泡。
主要功能:
- 定制漫画生成:根据文本提示和角色图像生成漫画面板。
- 角色和布局控制:精确控制角色在漫画中的位置和外观。
- 文本适应性:使漫画角色能够根据文本提示动态改变表情和动作。
工作原理:
DiffSensei框架首先使用CLIP和漫画图像编码器提取局部图像特征,然后通过特征提取器处理这些特征。在生成过程中,框架利用MLLM作为文本兼容的角色特征适配器,根据文本提示动态调整角色特征。此外,框架采用掩码交叉注意力注入机制来控制角色布局,并使用对话嵌入技术来编码对话布局。通过这种方式,DiffSensei能够在保持角色形象一致性的同时,根据文本提示生成具有丰富表情和动作的漫画面板。
DiffSensei的核心技术
- 基于扩散的图像生成器:DiffSensei采用了基于扩散(diffusion)的图像生成器,这是一种强大的生成模型,能够逐步将噪声图像转换为高质量的图像。扩散模型的优势在于其生成的图像质量高,并且可以生成复杂的细节,适用于漫画中的人物和背景。
- 多模态大语言模型(MLLM)作为文本兼容的身份适配器:DiffSensei集成了一个多模态大语言模型(MLLM),该模型充当文本兼容的身份适配器。MLLM不仅能够理解文本描述,还能根据文本提示调整角色的特征,确保生成的图像与文本内容高度一致。这种适配器使得DiffSensei能够在不同的文本提示下灵活调整角色的表情、姿势和动作。
- 掩码交叉注意力机制:为了实现精确的角色布局控制,DiffSensei引入了掩码交叉注意力机制。这一机制允许模型在生成过程中无缝结合角色特征,而无需直接传输像素信息。通过这种方式,DiffSensei可以在保持图像整体结构的同时,精确地控制每个角色的位置和姿态,确保多角色场景中的互动更加自然和协调。
- 面板特定的文本提示:DiffSensei还支持面板特定的文本提示,即根据不同漫画面板的内容,调整角色的特征。例如,在一个面板中,角色可能表现出惊讶的表情,而在另一个面板中,同一角色可能表现出愤怒的表情。MLLM根据这些面板特定的提示,动态调整角色的外观,使得生成的漫画更加生动和连贯。
MangaZero:大规模定制化漫画数据集
为了支持定制化漫画生成任务,研究人员还引入了 MangaZero,这是一个专门为该任务定制的大规模数据集。MangaZero包含:
- 43,264页漫画,涵盖了各种类型的漫画作品。
- 427,147个注释面板,每个面板都标注了角色的外观、表情、姿势和动作等详细信息。
MangaZero的数据量和多样性为DiffSensei提供了丰富的训练资源,使其能够更好地理解和生成复杂的多角色场景。此外,MangaZero还支持在连续帧中可视化各种角色互动和动作,这对于生成连贯的漫画故事至关重要。
实验结果与优势
广泛的实验表明,DiffSensei在定制化漫画生成任务上显著优于现有模型。具体来说:
- 文本可适应的角色定制:DiffSensei能够根据文本提示灵活调整角色的外观、表情和动作,生成的图像与文本内容高度一致。
- 多角色场景的精确控制:通过掩码交叉注意力机制,DiffSensei能够在多角色场景中实现精确的布局控制,确保角色之间的互动自然流畅。
- 高质量的图像生成:基于扩散的图像生成器确保了生成的图像质量高,细节丰富,适合用于高质量的漫画创作。
评论0