针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律

新技术4周前发布 小马良
67 0

香港大学和字节跳动的研究人员介绍了一种针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律。量化是一种减少模型权重和激活精度的方法,以降低内存使用和计算成本。尽管现有的量化方法在中等精度(如8位权重和激活)下表现良好,但在更低精度(如4位)下,保持模型性能的挑战依然存在。本文通过268次量化感知训练实验,提出了一个统一的量化感知训练缩放定律,该定律将量化误差建模为模型大小、训练数据量和量化组大小的函数。

主要功能

  • 量化误差建模:通过量化误差作为模型大小、训练数据量和量化组大小的函数,预测量化感知训练后的模型性能。
  • 量化策略优化:提供量化策略的优化建议,以减少量化误差,提高低精度量化模型的性能。
  • 模型压缩与加速:通过量化减少模型的内存占用和计算成本,使大规模语言模型更易于部署和推理。

主要特点

  • 统一的量化误差模型:将量化误差建模为模型大小、训练数据量和量化组大小的函数,提供了一个全面的量化误差预测框架。
  • 详细的实验验证:通过大量的实验验证了量化误差模型的准确性,展示了量化误差随模型大小、训练数据量和量化组大小的变化趋势。
  • 混合精度量化策略:提出了一种混合精度量化策略,通过在关键层使用更高的量化精度来减少量化误差。

工作原理

  1. 量化误差建模
    • 提出了一个量化误差模型,将量化误差表示为模型大小 ( N )、训练数据量 ( D ) 和量化组大小 ( G ) 的函数。
  2. 量化误差分解
    • 将量化误差分解为权重量化误差和激活量化误差,分别分析它们对总量化误差的贡献。
    • 发现激活量化误差,尤其是 FC2 层的输入,是主要的性能瓶颈。
  3. 混合精度量化策略
    • 提出在 FC2 层的输入使用 8 位精度量化,以减少激活量化误差。
    • 通过实验验证,混合精度量化策略显著降低了量化误差,特别是在粗粒度量化情况下。

测试结果

  • 量化误差趋势
    • 量化误差随模型大小增加而减少,随训练数据量增加而增加。
    • 量化误差随量化组大小增加而增加。
  • 混合精度量化策略的效果
    • 在 FC2 层的输入使用 8 位精度量化后,量化误差显著降低,尤其是在粗粒度量化情况下。
    • 例如,使用 8 位 FC2 输入后,量化误差在 ( G = 32 ) 时降低了 20.5%,在 ( G = 256 ) 时降低了 42.9%。
  • 模型性能对比
    • 混合精度量化策略使权重和激活量化误差趋于一致,表明未来量化训练算法应同时考虑权重和激活误差。
© 版权声明

相关文章

暂无评论

none
暂无评论...