马里兰大学和佛罗里达州立大学推出一种针对文生图模型的新型剪枝方法APTP(Adaptive Prompt-Tailored Pruning,自适应提示定制剪枝),这是一种专门为文生图模型设计的、基于提示的剪枝方法,这种方法旨在减少文生图模型在计算资源受限的环境中部署时的计算负担,同时保持模型性能。实验结果表明,APTP在保持较低计算成本的同时,能够生成与原始未剪枝模型相媲美的图像,证明了其在实际应用中的潜力和有效性。
例如,有一个企业想要在他们的产品中集成一个能够根据用户文本描述生成定制化图像的功能,但由于资源限制,他们无法在服务器上运行完整的文生图模型。通过使用APTP,他们可以剪枝一个预训练的T2I模型,使其在保持生成图像质量的同时,减少所需的计算资源。例如,如果输入的文本提示是“一个棒球运动员在球场上”,APTP会将这个提示路由到专门处理体育相关图像的专家模型,该模型已经针对这类提示进行了优化和剪枝。
APTP的亮点在于构建了一个提示导向模型,该模型能根据给定的总体计算预算,判断输入文本提示所需资源,并将其导向一个与之匹配的架构代码。每个架构代码关联一个特化模型,该模型针对分配给它的特定类型提示优化,而架构代码的数量是一个可调节的超参数。APTP借助对比学习技术训练提示导向模型及架构代码,确保相似的提示被归类至相邻的代码下,并且利用最优传输理论避免代码简化为单一模式。通过在 Stable Diffusion(SD)V2.1 上应用APTP并以CC3M和COCO数据集作为目标测试,我们验证了APTP的有效性,它在FID、CLIP以及CMMD指标上超越了单模型剪枝基准。对APTP所形成聚类的深入分析揭示了其语义上的合理性。进一步地,我们证明了APTP能够自主识别出对SD而言历来具有挑战性的提示场景,比如生成包含文字的图像提示,并智能地将这些任务指派给更高性能配置的代码。
主要功能与特点:
- 自适应剪枝:APTP通过一个提示路由器(prompt router)模型,根据输入文本提示的内容,动态地将任务分配给不同容量的子网络(experts)。
- 效率与性能的平衡:APTP能够在保持图像生成质量的同时,显著减少模型所需的计算资源。
- 对比学习:使用对比学习训练提示路由器和架构代码,确保语义相似的提示被映射到相近的架构代码上。
- 最优传输:利用最优传输方法避免所有架构代码坍塌成一个单一的代码,确保每个子网络都有足够的样本进行训练。
工作原理:
APTP首先通过一个预训练的Sentence Transformer模型将输入的文本提示编码为语义嵌入。然后,架构预测器将这些嵌入转换为架构嵌入,这些嵌入与架构代码具有相同的维度。提示路由器随后将架构嵌入路由到一个架构代码上,每个架构代码代表一个专门化的子网络,即专家模型。这些专家模型在剪枝过程中被训练,以专门处理被分配给它的提示类型。
具体应用场景:
- 资源受限的部署环境:在需要在边缘设备或计算资源受限的云平台上部署T2I模型的场景中,APTP能够有效降低模型的计算需求。
- 定制化服务:企业或组织可以在内部数据集上微调预训练的T2I模型,并通过APTP优化模型以适应特定的应用需求。
- 图像生成应用:在需要根据文本描述生成图像的应用中,如游戏设计、虚拟现实内容创建或艺术作品生成,APTP可以提供更高效的模型。
评论0