原生FP4训练框架 Quartet:通过在低精度( FP4)下进行高效的端到端训练,显著提升大语言模型(LLMs)的训练效率和性能

新技术6个月前发布 小马良
268 0

ISTA和苏黎世联邦理工学院的研究人员推出原生FP4训练框架 Quartet,通过在低精度( FP4)下进行高效的端到端训练,显著提升大语言模型(LLMs)的训练效率和性能,二之前DeepSeek R1是原生FP8训练,通常大模型训练是FP16。

Quartet 通过优化的 CUDA 内核和硬件支持的英伟达Blackwell 架构,实现了在 FP4 精度下的高效训练,同时保持了与标准精度训练相当的准确性。

主要功能

  • 低精度训练:Quartet 支持在 FP4 精度下进行端到端训练,显著提高了计算吞吐量和能效。
  • 高效 GPU 实现:通过优化的 CUDA 内核,Quartet 在 NVIDIA Blackwell GPU 上实现了高效的低精度计算。
  • 准确性优化:通过最小化前向传播误差和无偏梯度估计,Quartet 在低精度训练中保持了高准确性。
  • 推理加速:Quartet 在推理阶段实现了显著的加速,特别是在前向传播中,速度提升尤为明显。

主要特点

  • 混合精度训练:Quartet 结合了前向传播的最小误差和后向传播的无偏估计,实现了最佳的参数和数据效率。
  • 硬件支持:Quartet 利用了 NVIDIA Blackwell 架构的硬件支持,特别是 MXFP4 格式,实现了高效的低精度计算。
  • 可扩展性:Quartet 在不同模型大小和数据规模下均表现出色,支持从小型模型到大规模模型的训练。
  • 稳定性:Quartet 在长数据饱和训练中表现出良好的稳定性,适用于大规模预训练任务。

工作原理

  1. 前向传播优化:Quartet 采用 Hadamard 变换和 QuEST(Quantization Estimation with Stochastic rounding)方法,将输入数据量化到 FP4 格式,同时最小化量化误差。
  2. 后向传播优化:Quartet 使用随机舍入(Stochastic Rounding)来处理梯度,确保梯度估计的无偏性,从而提高训练的稳定性。
  3. 高效 GPU 实现:Quartet 通过优化的 CUDA 内核,将 Hadamard 变换、量化、尺度计算和 QuEST 剪枝掩码生成等操作融合到一个内核中,显著提高了计算效率。
  4. 硬件支持:Quartet 利用了 NVIDIA Blackwell 架构的 MXFP4 格式,通过硬件支持的 4 位浮点运算,实现了高效的低精度计算。

测试结果

  • 准确性提升:Quartet 在不同数据规模和模型大小下均表现出色,特别是在长数据饱和训练中,Quartet 的性能优于其他低精度训练方法。例如,在 100× 数据规模下,Quartet 的验证损失比 LUQ–INT4 低 10%。
  • 速度提升:Quartet 在前向传播中实现了高达 2.4× 的速度提升,在后向传播中实现了 1.6× 的速度提升,整体训练速度提升达到 1.8×。
  • 推理加速:Quartet 在推理阶段实现了显著的加速,特别是在前向传播中,速度提升尤为明显,达到了 2.4×。

应用场景

  • 大规模预训练:Quartet 适用于大规模语言模型的预训练任务,能够显著降低计算成本,提高训练效率。
  • 推理加速:Quartet 在推理阶段的加速效果显著,适用于需要高效推理的应用场景,如实时对话系统和文本生成。
  • 资源受限环境:Quartet 的低精度训练和推理能力使其适用于资源受限的环境,如移动设备和边缘计算。
  • 多语言模型:Quartet 支持多语言模型的训练和推理,适用于跨语言的自然语言处理任务。
© 版权声明

相关文章

暂无评论

none
暂无评论...