针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

新技术8个月前发布小马良

246 0

香港大学和字节跳动的研究人员介绍了一种针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律。量化是一种减少模型权重和激活精度的方法，以降低内存使用和计算成本。尽管现有的量化方法在中等精度（如8位权重和激活）下表现良好，但在更低精度（如4位）下，保持模型性能的挑战依然存在。本文通过268次量化感知训练实验，提出了一个统一的量化感知训练缩放定律，该定律将量化误差建模为模型大小、训练数据量和量化组大小的函数。

论文地址：https://arxiv.org/abs/2505.14302

主要功能

量化误差建模：通过量化误差作为模型大小、训练数据量和量化组大小的函数，预测量化感知训练后的模型性能。
量化策略优化：提供量化策略的优化建议，以减少量化误差，提高低精度量化模型的性能。
模型压缩与加速：通过量化减少模型的内存占用和计算成本，使大规模语言模型更易于部署和推理。

主要特点

统一的量化误差模型：将量化误差建模为模型大小、训练数据量和量化组大小的函数，提供了一个全面的量化误差预测框架。
详细的实验验证：通过大量的实验验证了量化误差模型的准确性，展示了量化误差随模型大小、训练数据量和量化组大小的变化趋势。
混合精度量化策略：提出了一种混合精度量化策略，通过在关键层使用更高的量化精度来减少量化误差。

工作原理

量化误差建模：
- 提出了一个量化误差模型，将量化误差表示为模型大小 ( N )、训练数据量 ( D ) 和量化组大小 ( G ) 的函数。
量化误差分解：
- 将量化误差分解为权重量化误差和激活量化误差，分别分析它们对总量化误差的贡献。
- 发现激活量化误差，尤其是 FC2 层的输入，是主要的性能瓶颈。
混合精度量化策略：
- 提出在 FC2 层的输入使用 8 位精度量化，以减少激活量化误差。
- 通过实验验证，混合精度量化策略显著降低了量化误差，特别是在粗粒度量化情况下。

测试结果

量化误差趋势：
- 量化误差随模型大小增加而减少，随训练数据量增加而增加。
- 量化误差随量化组大小增加而增加。
混合精度量化策略的效果：
- 在 FC2 层的输入使用 8 位精度量化后，量化误差显著降低，尤其是在粗粒度量化情况下。
- 例如，使用 8 位 FC2 输入后，量化误差在 ( G = 32 ) 时降低了 20.5%，在 ( G = 256 ) 时降低了 42.9%。
模型性能对比：
- 混合精度量化策略使权重和激活量化误差趋于一致，表明未来量化训练算法应同时考虑权重和激活误差。

新技术 # 大语言模型 # 量化感知训练

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

DreamReward：通过人类偏好反馈来提升从文本到3D内容生成的质量

DreamReward：通过人类偏好反馈来提升从文本到3D内容生成的质量

新技术 # 3D模型 # DreamReward

2年前

07080

DeepSeek 开源周第四弹：DualPipe 和 EPLB 的发布

DeepSeek 开源周第四弹：DualPipe 和 EPLB 的发布

新技术 # DeepSeek # DualPipe # EPLB

11个月前

02240

视频插值方法ViBiDSampler：专门用于在两个关键帧之间生成平滑且逼真的中间帧，从而创建流畅的视频过渡效果

视频插值方法ViBiDSampler：专门用于在两个关键帧之间生成平滑且逼真的中间帧，从而创建流畅的视频过渡效果

新技术 # ViBiDSampler # 视频插值方法

1年前

04220

RF-Solver和RF-Edit：提高校正流模型在图像和视频编辑中的反演精度

RF-Solver和RF-Edit：提高校正流模型在图像和视频编辑中的反演精度

新技术 # RF-Edit # RF-Solver

1年前

05070

暂无评论

none

暂无评论...