一种新颖的模型微调方法DoRA:比LoRA更精细、更全面的微调策略

DoRA(Weight-Decomposed Low-Rank Adaptation)是一种用于微调(fine-tuning)大型预训练模型的新方法。DoRA的核心思想是将预训练模型的权重分解为两个部分:幅度(magnitude)和方向(direction),然后分别对这两个部分进行微调。这种方法旨在提高微调的效率和效果,同时避免增加额外的推理(inference)成本。

DoRA在LoRA的基础上进一步发展,相比LoRA,它提供了一种更精细、更全面的微调策略。

主要功能:

DoRA的主要功能是提高大型语言模型(LLM)在特定下游任务上的微调性能,同时保持与原始模型相同的推理效率。它通过分解权重,使得模型能够更有效地学习和适应新任务,而不需要重新训练整个模型。

主要特点:

  1. 权重分解: DoRA将预训练权重分为幅度和方向两个部分,这种分解有助于更精细地控制模型的学习过程。
  2. 低秩适应: 使用LoRA(Low-Rank Adaptation)技术,DoRA能够以较低的参数数量进行有效的微调。
  3. 无需额外推理成本: DoRA在微调后可以将幅度和方向的更新合并回预训练权重,因此在实际应用中不会增加额外的推理开销。
  4. 性能提升: 在多个下游任务上,DoRA显示出比LoRA更好的性能,尤其是在常识推理、视觉指令调整和图像/视频-文本理解任务上。

工作原理:

DoRA的工作原理基于对预训练权重的分析,它首先识别出权重的幅度和方向变化模式。然后,它利用LoRA技术对方向部分进行微调,同时保持幅度部分的可训练性。这种分解策略使得DoRA能够在保持模型结构不变的情况下,更灵活地调整模型以适应新任务。通过这种方式,DoRA能够在不牺牲推理效率的前提下,提高模型在特定任务上的表现。

与LoRA相比,DoRA具有以下几个显著的优势:

  1. 更高的准确性:在LLaMA-7B模型中,DoRA在性能上超过了其他基准方法,进一步提高了准确性。与LoRA相比,DoRA能够提升3.4%的准确率,这在很大程度上超越了ChatGPT的准确率水平。在LLaMA-13B模型中,尽管LoRA的有效性不如Parallel adapter,但DoRA仍然通过仅使用Parallel adapter所需的可训练参数的1/4,实现了与其相当的准确率,同时没有增加任何额外的推理开销。
  2. 更少的可训练参数:在LLaMA-7B模型上,DoRA仅需要2.33%的可训练参数,而LoRA需要5.1%。这表明DoRA能够在更少的参数下实现更高的性能。此外,DoRA在LLaMA-13B模型上的表现也优于LoRA,仅使用了一半的可训练参数就实现了1%的性能提升。
  3. 兼容性和灵活性:DoRA不仅与LoRA兼容,还可以与其他LoRA变体结合使用。例如,通过将DoRA与VeRA结合,形成了DVoRA,可以在减少10倍可训练参数的同时,仅对准确率产生微小影响。这显示了DoRA在适应不同场景和需求时的灵活性。

应用场景:

DoRA在多种下游任务上进行了测试,包括常识推理、视觉指令调优、图像/视频文本理解等。在这些任务中,DoRA的表现均优于传统的微调方法,如LoRA。这表明DoRA在实际应用中具有很高的潜力和价值。

0

评论0

没有账号?注册  忘记密码?