美团开源 LongCat-Next:原生多模态新范式,用“离散 Token”统一文本、图像与语音

在人工智能迈向“通用智能”的征途中,如何处理文本、图像、语音等多种模态数据,一直是业界最大的挑战之一。传统方案往往需要为不同模态设计独立的编码器,或采用复杂的跨模态对齐机制,导致模型架构臃肿、训练困难且推理效率低下。

今日,美团正式发布了重磅成果——LongCat-Next。这是一个原生多模态大模型,它提出了一种颠覆性的架构理念:将所有物理信号(文字、图片、声音)统一映射为同源的离散 Token,并仅通过纯粹的下一个 Token 预测(Next Token Prediction, NTP) 范式,实现了对多模态信号的统一建模、理解与生成。

  • 项目主页:https://longcat.chat/longcat-next/intro
  • GitHub:https://github.com/meituan-longcat/LongCat-Next
  • 模型:https://huggingface.co/meituan-longcat/LongCat-Next
  • Demo:https://longcat.chat/longcat-next/

更令人振奋的是,美团宣布将 LongCat-Next 模型及其核心离散分词器全部开源,推动社区构建真正能感知、理解并作用于真实世界的 AI。

美团开源 LongCat-Next:原生多模态新范式,用“离散 Token”统一文本、图像与语音

核心突破:DiNA 架构,万物皆 Token

LongCat-Next 的核心在于其独创的 DiNA (Discrete Native Autoregressive) 离散原生自回归架构。

1. 统一范式:打破模态壁垒

在传统模型中,看图、听音、读文是三种不同的任务,需要不同的处理模块。而在 LongCat-Next 眼中,世界万物皆可被量化为离散 ID

  • 文本 离散 Token
  • 图像 离散 Token (通过 dNaViT 提取)
  • 语音 离散 Token (通过声学编码器提取)

无论输入是什么,对模型而言,任务只有一个:预测下一个 Token 是什么。这种极致的简化,消除了模态间的隔阂,让模型能在一个共享的语义空间中自由穿梭。

2. 语义完备的离散表示

如何让离散的 Token 既保留细节又具备语义?美团提出了创新方案:

  • 分层离散化:结合语义对齐编码器与残差向量量化(RVQ),生成分层级的离散 Token。
  • 双重保留:既保留了高层的语义抽象(理解“这是一只猫”),又保留了底层的细粒度视觉/听觉细节(猫的毛发纹理、叫声频率)。
  • dNaViT 接口:推出了离散原生分辨率视觉 Transformer (dNaViT),作为灵活的视觉接口,支持动态 Tokenization,确保与大语言模型无缝集成且性能无损。

3. 高效基座:MoE 架构

LongCat-Next 基于 LongCat-Flash-Lite MoE 构建:

  • 总参数量:68.5B (685 亿)
  • 激活参数量:仅 3B (30 亿)
  • 优势:得益于稀疏混合专家(MoE)机制,模型在保持巨大容量的同时,推理速度极快,部署成本极低。实验显示,其 MoE 路由在训练中自动出现了模态专精化,不同专家自动分工处理文本、图像或语音任务。

性能实测:全能选手,多项 SOTA

美团官方测试数据显示,LongCat-Next 在统一架构下,不仅没有牺牲单一模态的性能,反而在多个维度达到了专用模型甚至超越专用模型的水平:

视觉能力:理解与生成的完美统一

  • 文档理解 (OmniDocBench):得分 0.226,超越 Qwen3-Omni 及专用视觉模型 Qwen3-VL,擅长处理复杂财报、论文和表格。
  • 数学推理 (MathVista):得分 83.1,达到领先水平。
  • 图像生成 (LongText-Bench):英文渲染得分 93.15,在高达 28 倍压缩率 下仍保持高质量生成,尤其在文字渲染上表现卓越。
  • 损耗极低:统一模型的理解损失仅比纯理解模型高 0.006,生成损失甚至比纯生成模型低 0.02。

语音能力:自然交互与克隆

  • 语音合成 (TTS):在 SeedTTS 基准上,中英文词错误率 (WER) 分别低至 1.90 和 1.89,音质清晰自然。
  • 音频理解:MMAU 得分 76.40,TUT2017 得分 43.09,均达先进水平。
  • 特色功能:支持低延迟并行生成(边说边想)和可定制语音克隆,让语音交互更具个性化。

文本与智能体:基石稳固,执行强力

  • 纯文本能力:MMLU-Pro 77.02,C-Eval 86.80,证明多模态训练未削弱语言核心能力,反而有所增强。
  • 工具调用 (τ²-Bench):零售场景得分 73.68,大幅领先 Qwen3-Next-80B-A3B-Instruct (57.3)。
  • 代码能力 (SWE-Bench):得分 43.0,超越同类模型,具备强大的软件工程解决能力。
美团开源 LongCat-Next:原生多模态新范式,用“离散 Token”统一文本、图像与语音

开源意义:构建真实世界的 AI

美团此次开源不仅仅是释放权重,更是开放了一套完整的原生多模态方法论

  1. 模型权重:LongCat-Next (MoE 68.5B/3B) 完整参数。
  2. 核心组件:DiNA 架构代码、离散分词器 (Tokenizer/Detokenizer)、dNaViT 视觉接口。
  3. 训练范式:验证了“离散 Token 统一多模态”的可行性,为社区提供了新的研究基线。

这一举措将极大降低多模态 AI 的开发门槛。开发者无需再纠结于复杂的跨模态对齐算法,只需基于统一的 Token 流,即可构建能看、能听、能说、能做的全能智能体。

© 版权声明

相关文章

暂无评论

none
暂无评论...