OnomaAI 研究小组推出一个高级插图模型Illustrious,它主要用于生成动漫风格的图像。Illustrious XL是一个基于SDXL的模型,专门针对插画和动画任务进行了优化。它是基于 Kohaku XL-Beta - Revision 5 模型训练的,利用其坚实的基础来提供高质量的生成能力。
- CivitAI:https://civitai.com/models/795765
- Hugging Face:https://huggingface.co/OnomaAIResearch/Illustrious-xl-early-release-v0
为了获得高分辨率、动态色彩范围图像和高恢复能力,OnomaAI专注于三个关键的模型改进方法。首先,OnomaAI深入探讨了批量大小和dropout控制的重要性,这使得基于可控token的概念激活能够更快地学习。其次,OnomaAI增加了图像的训练分辨率,这影响了在更高分辨率下准确描绘角色解剖的能力,通过适当的方法将其生成能力扩展到超过20MP。最后,OnomaAI提出了精致的多级字幕,覆盖了所有标签和各种自然语言字幕,这是模型发展的关键因素。通过广泛的分析和实验,Illustrious在动画风格方面展示了最先进的性能,超过了插画领域广泛使用的模型,推动了开源性质的定制化和个性化。OnomaAI计划逐步公开发布更新的Illustrious模型系列,以及在HuggingFace上持续改进的计划和许可。
主要功能
- 文本到图像的生成:你只需要给Illustrious一个文字描述,比如“一个站在樱花树下的少女”,它就能生成相应的图像。
- 高分辨率图像生成:它能够生成非常清晰的高分辨率图像,即使是放大很多倍也不失真。
- 动态色彩范围:它能够根据你的描述,调整生成图像的色彩和亮度。
主要特点
- 多级别标题:它不仅理解简单的标签,还能理解复杂的自然语言描述。
- 开源:这个模型是开源的,意味着任何人都可以免费使用和改进它。
- 高恢复能力:即使输入的描述很模糊,它也能生成相对准确的图像。
工作原理
Illustrious模型的工作原理可以分为以下几个步骤:
- 理解文本:首先,它使用一个文本编码器来理解你给出的文字描述。
- 生成潜在图像:然后,它将这个描述转换成一个潜在的图像表示,这是一个数学模型,包含了图像的所有信息。
- 图像细化:接下来,它通过一个叫做U-Net的神经网络来不断优化这个潜在图像,直到生成最终的图像。
- 多级别标题处理:它使用复杂的算法来处理和理解多级别的标题,这样就能更准确地生成你想要的图像。
评论0