Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

880 0

来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说，LoRA是一种可以让文本生成图像模型更准确地呈现特定元素（如独特的字符、风格或服装）的技术。论文探讨了如何更有效地结合多个LoRA，以创建更复杂的图像。

项目主页

GitHub

论文

他们提出了两种无需训练的方法来解决这个问题。第一种叫做LORA SWITCH，它在每个去噪步骤中交替使用不同的LoRA。第二种叫做LORA COMPOSITE，它同时结合所有LoRA来指导更连贯的图像合成。

通过建立一个新的测试平台ComposLoRA，并使用GPT-4V作为评估工具，展示了这两种方法在性能上的显著提升，尤其是在组合更多LoRA时。

主要特点：

这两种方法都不需要训练，可以直接应用于现有的LoRA模型。

它们能够处理任意数量的LoRA，克服了以往研究中通常只能合并两个LoRA的限制。

通过直接影响扩散过程，而不是操纵权重矩阵，这两种方法能够更好地保持生成图像的质量和细节。

工作原理：

LoRA工作的基本原理是通过调整模型中的低秩矩阵来适应特定的图像生成需求。这些低秩矩阵可以被视为模型中的“插件”，可以根据需要添加或删除，以改变模型的行为。在这篇论文中，研究者通过探索不同的LoRA组合方式，实现了更加灵活和高效的图像生成。

LORA SWITCH：在图像生成的每个去噪步骤中，选择一个LoRA来激活，然后在生成过程中循环切换不同的LoRA。

LORA COMPOSITE：在每个去噪步骤中，计算每个LoRA的无条件和条件分数估计，然后将这些分数平均，以平衡地指导图像生成。

具体应用场景：

虚拟试穿：用户可以与服装在真实感的方式中合并，例如在电子商务网站上预览服装效果。

城市景观设计：用户可以与精心设计的城市规划元素互动，例如在城市规划软件中预览建筑和街道布局。

个性化数字内容创作：用户可以定制自己的LoRA模型来生成各种个性化和真实的图像，例如创建个性化的头像或者艺术作品。

新技术 # Lora # Multi-LoRA Composition

文章版权归作者所有，未经允许请勿转载。

新型文本到图像生成系统NIRVANA：利用近似缓存技术，高效地服务基于扩散模型的文本到图像生成任务

新技术 # NIRVANA # 文生图

1年前

03810

基于视觉特征的对抗性引导方法NegToMe：利用参考图像或其他批次图像的视觉特征，而非仅依赖文本提示，来更有效地排除不希望的视觉元素

新技术 # NegToMe # 负标记合并

1年前

02890

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

新技术 # 3D内容生成框架 # DreamGaussian

2年前

05820

基于扩散模型的面部匿名化技术：匿名化后的面部与原始照片无缝融合，使其非常适合各种现实世界应用

新技术 # 面部匿名化技术

1年前

03300

暂无评论

暂无评论...

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

新框架VSP-LLM：通过观察视频中人的嘴型来理解和翻译说话内容

创新框架EMO：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

相关文章

新型文本到图像生成系统NIRVANA：利用近似缓存技术，高效地服务基于扩散模型的文本到图像生成任务

基于视觉特征的对抗性引导方法NegToMe：利用参考图像或其他批次图像的视觉特征，而非仅依赖文本提示，来更有效地排除不希望的视觉元素

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

基于扩散模型的面部匿名化技术：匿名化后的面部与原始照片无缝融合，使其非常适合各种现实世界应用

暂无评论

文章

SeedVR2 视频修复模型 ComfyUI 插件 ComfyUI-SeedVR2_VideoUpscaler发布：支持高质量视频/图像放大

ComfyUI 0.3.51重磅更新：子图功能正式落地，管理器、导航体验全面升级

fal 发布FLUX.2 Turbo：开源图像模型速度提升6倍，成本降至0.008美元/图

具有光照感知能力的扩散模型Relightful Harmonization

不可混合扩散Immiscible Diffusion：加速扩散模型的训练过程

新型多模态大语言模型PUMA：不仅能理解文本指令，还能根据这些指令创作出精细的图像，或者对现有图像进行精确的编辑

S.H.I.T

ITELLOU

DeckEdit

Server Survival

Prism

Happy

Multi-LoRA Composition：不经过训练直接融合多个 Lora 不损失效果

新框架VSP-LLM：通过观察视频中人的嘴型来理解和翻译说话内容

创新框架EMO：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

相关文章

文章

标签云

网址

S.H.I.T

ITELLOU

DeckEdit

Server Survival

Prism

Happy