美团发布LongCat-Flash-Omni:开源全模态大模型的实时交互新标杆

美团 LongCat 团队近日开源了 LongCat-Flash-Omni —— 一款参数总量达 5600 亿、每 token 动态激活 270 亿参数 的 全模态大模型(Full-Modal LLM)。该模型在保持高容量的同时,实现了实时音视频交互能力,并在多个权威基准测试中接近甚至超越商业闭源模型,成为当前开源生态中少有的高性能、低延迟全模态解决方案。

美团发布LongCat-Flash-Omni:开源全模态大模型的实时交互新标杆

关键亮点总结

  1. 560B MoE 全模态模型,每 token 仅激活 27B,兼顾容量与推理效率;
  2. 统一视觉-视频编码器 + 流式音频路径,实现低延迟实时交互;
  3. 128K 上下文支持长文档与复杂对话场景;
  4. 模态解耦并行架构,多模态 SFT 吞吐达纯文本训练的 90%+;
  5. 完全开源,为社区提供高性能全模态研究与部署基线。

核心目标:一个模型,四种感知

LongCat-Flash-Omni 旨在构建一个统一感知-理解-生成系统,能够同时:

  • (实时语音输入)
  • (图像与视频理解)
  • (长文本/文档解析)
  • (语音/文本同步输出)

关键突破在于:不通过多个独立模型拼接,而是在单一架构内实现跨模态无缝融合

架构设计:模态感知 + 语言主干

模型采用“感知模块 + 固定语言主干”的扩展策略:

  • 语言主干:复用 LongCat Flash 的 MoE 架构(560B 参数,27B 激活),支持 128K 上下文,适用于长对话与文档级理解;
  • 视觉模块LongCat ViT 编码器统一处理图像与视频帧,无需单独视频塔,降低架构复杂度;
  • 音频模块:基于 LongCat Audio Codec,将语音编码为离散 token,LLM 可直接输出语音 token,实现端到端语音交互。

这种设计确保语言模型逻辑不变,仅通过“模态桥接”(ModalityBridge)融合多源信息,保障训练稳定性与推理一致性。

实时交互关键技术:流式特征交错

为实现低延迟音视频交互,团队提出 “1 秒块状特征交错” 机制:

  • 视频默认 2 fps 采样,并根据总时长动态调整采样率(非固定规则);
  • 音频、视频特征与时间戳被打包为 1 秒片段
  • LLM 以流式方式解码,同步生成文本或语音响应。

该策略在 GUI 操作、视频问答、实时 OCR 等任务中,既保留空间上下文,又控制延迟在可接受范围,支撑“任意模态输入 → 任意模态输出”的实时交互。

训练策略:渐进式课程学习

训练分阶段推进,确保模型稳健演进:

  1. 文本主干预训练(LongCat Flash)
  2. 文本-语音连续预训练
  3. 图像/视频多模态预训练
  4. 128K 上下文扩展
  5. 音频编码器对齐微调

这种课程学习路径有效避免了多模态训练初期的不稳定性,同时保留了强大的语言基础能力。

系统优化:模态解耦并行

为兼顾效率与扩展性,美团采用 模态解耦并行架构

模块并行策略
视觉/音频编码器混合张量分片 + 激活重计算
LLM 主干管道并行 + 上下文并行 + 专家并行
模态桥接嵌入对齐 + 梯度同步

关键成果:多模态监督微调(SFT),证明全模态训练未显著牺牲吞吐效率。

性能表现:开源中的 SOTA

基准LongCat-Flash-Omni对比模型
OmniBench61.4Qwen 3 Omni Instruct(58.5),Gemini 2.5 Pro(66.8)
VideoMME78.2接近 GPT-4o、Gemini 2.5 Flash
VoiceBench88.7略超 GPT-4o Audio

在视频与语音任务上,性能已逼近顶级闭源模型;综合多模态能力在开源领域处于领先地位。

美团发布LongCat-Flash-Omni:开源全模态大模型的实时交互新标杆
© 版权声明

相关文章

暂无评论

none
暂无评论...