字节跳动开源 VeOmni：一个面向全模态大模型的 PyTorch 原生训练框架

209 0

在大模型从“能说”向“能看、能听、能理解”演进的当下，多模态统一模型（Omni-Modal LLMs）正成为技术前沿。然而，训练一个同时处理文本、图像、语音和视频的全能模型，仍面临工程复杂、扩展困难、开发周期长等系统性挑战。

为应对这一难题，字节跳动 Seed 团队正式发布并开源了 VeOmni——一个专为大规模多模态模型设计的分布式训练框架。该框架采用“以模型为中心”的设计理念，深度集成 PyTorch 原生能力，旨在降低多模态模型的工程门槛，提升训练效率与可扩展性。

传统的分布式训练框架（如 Megatron-LM）通常采用“以系统为中心”的架构，将模型逻辑与并行策略紧密耦合。这意味着每开发一个新模型架构，都需要大量底层工程投入，进行分布式优化和精度对齐，耗时往往以周甚至月计。

VeOmni 则通过解耦模型定义与并行逻辑，实现了“搭积木式”的开发体验。研究人员无需深入底层通信机制，即可灵活组合数据并行、序列并行、专家并行（EP）等多种策略，快速构建高效的训练流程。

据团队介绍，使用 VeOmni，构建一个 300 亿参数的全模态 MoE 模型并启动训练，仅需一天，相比传统方式工程耗时压缩超过 90%。

VeOmni 的核心优势体现在三个方面：

高性能吞吐
在 128 张 GPU 上，一个 30B 参数的全模态 MoE 模型可实现 超过 2800 tokens/sec/GPU 的训练吞吐，并支持长达 160K 的上下文序列，为长序列多模态任务提供了强大支撑。
模块化与可扩展性
框架采用插拔式架构，用户可自由替换或扩展模态编码器（如视觉、语音编码器）和解码器，轻松支持新模态的集成。无论是视觉问答、可控图像生成，还是跨模态推理，均可快速适配。
PyTorch 原生集成
VeOmni 摒弃了传统“Trainer”类（如 PyTorch Lightning 或 HuggingFace Trainer），保持训练脚本的线性逻辑，完整暴露训练流程。这不仅提升了代码透明度，也确保了与 PyTorch 生态的最佳兼容性与性能表现。