原生FP4训练框架 Quartet：通过在低精度（ FP4）下进行高效的端到端训练，显著提升大语言模型（LLMs）的训练效率和性能

新技术10个月前发布小马良

318 0

ISTA和苏黎世联邦理工学院的研究人员推出原生FP4训练框架 Quartet，通过在低精度（ FP4）下进行高效的端到端训练，显著提升大语言模型（LLMs）的训练效率和性能，二之前DeepSeek R1是原生FP8训练，通常大模型训练是FP16。

GitHub：https://github.com/IST-DASLab/Quartet

Quartet 通过优化的 CUDA 内核和硬件支持的英伟达Blackwell 架构，实现了在 FP4 精度下的高效训练，同时保持了与标准精度训练相当的准确性。

主要功能

低精度训练：Quartet 支持在 FP4 精度下进行端到端训练，显著提高了计算吞吐量和能效。
高效 GPU 实现：通过优化的 CUDA 内核，Quartet 在 NVIDIA Blackwell GPU 上实现了高效的低精度计算。
准确性优化：通过最小化前向传播误差和无偏梯度估计，Quartet 在低精度训练中保持了高准确性。
推理加速：Quartet 在推理阶段实现了显著的加速，特别是在前向传播中，速度提升尤为明显。

主要特点

混合精度训练：Quartet 结合了前向传播的最小误差和后向传播的无偏估计，实现了最佳的参数和数据效率。
硬件支持：Quartet 利用了 NVIDIA Blackwell 架构的硬件支持，特别是 MXFP4 格式，实现了高效的低精度计算。
可扩展性：Quartet 在不同模型大小和数据规模下均表现出色，支持从小型模型到大规模模型的训练。
稳定性：Quartet 在长数据饱和训练中表现出良好的稳定性，适用于大规模预训练任务。

工作原理

前向传播优化：Quartet 采用 Hadamard 变换和 QuEST（Quantization Estimation with Stochastic rounding）方法，将输入数据量化到 FP4 格式，同时最小化量化误差。
后向传播优化：Quartet 使用随机舍入（Stochastic Rounding）来处理梯度，确保梯度估计的无偏性，从而提高训练的稳定性。
高效 GPU 实现：Quartet 通过优化的 CUDA 内核，将 Hadamard 变换、量化、尺度计算和 QuEST 剪枝掩码生成等操作融合到一个内核中，显著提高了计算效率。
硬件支持：Quartet 利用了 NVIDIA Blackwell 架构的 MXFP4 格式，通过硬件支持的 4 位浮点运算，实现了高效的低精度计算。

测试结果

准确性提升：Quartet 在不同数据规模和模型大小下均表现出色，特别是在长数据饱和训练中，Quartet 的性能优于其他低精度训练方法。例如，在 100× 数据规模下，Quartet 的验证损失比 LUQ–INT4 低 10%。
速度提升：Quartet 在前向传播中实现了高达 2.4× 的速度提升，在后向传播中实现了 1.6× 的速度提升，整体训练速度提升达到 1.8×。
推理加速：Quartet 在推理阶段实现了显著的加速，特别是在前向传播中，速度提升尤为明显，达到了 2.4×。

应用场景

大规模预训练：Quartet 适用于大规模语言模型的预训练任务，能够显著降低计算成本，提高训练效率。
推理加速：Quartet 在推理阶段的加速效果显著，适用于需要高效推理的应用场景，如实时对话系统和文本生成。
资源受限环境：Quartet 的低精度训练和推理能力使其适用于资源受限的环境，如移动设备和边缘计算。
多语言模型：Quartet 支持多语言模型的训练和推理，适用于跨语言的自然语言处理任务。

新技术 # FP4训练框架 # Quartet

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多功能图像到图像视觉助手PixWizard：根据自由形式的语言指令执行图像生成、编辑和转换

多功能图像到图像视觉助手PixWizard：根据自由形式的语言指令执行图像生成、编辑和转换

新技术 # PixWizard

1年前

04990

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

新技术 # Genmo # 人体运动 # 英伟达

10个月前

02820

图像修补任务Reflecting Reality：专门用于创建逼真的镜面反射

图像修补任务Reflecting Reality：专门用于创建逼真的镜面反射

新技术 # Reflecting Reality # 镜面反射

1年前

05950

字节跳动推出新型单目深度估计方法Video Depth Anything：专门用于超长视频（数分钟）的高质量、一致的深度估计

字节跳动推出新型单目深度估计方法Video Depth Anything：专门用于超长视频（数分钟）的高质量、一致的深度估计

新技术 # Video Depth Anything # 字节跳动

1年前

02630

暂无评论

none

暂无评论...