美团开源 LongCat-Next：原生多模态新范式，用“离散 Token”统一文本、图像与语音

28 0

在人工智能迈向“通用智能”的征途中，如何处理文本、图像、语音等多种模态数据，一直是业界最大的挑战之一。传统方案往往需要为不同模态设计独立的编码器，或采用复杂的跨模态对齐机制，导致模型架构臃肿、训练困难且推理效率低下。

今日，美团正式发布了重磅成果——LongCat-Next。这是一个原生多模态大模型，它提出了一种颠覆性的架构理念：将所有物理信号（文字、图片、声音）统一映射为同源的离散 Token，并仅通过纯粹的下一个 Token 预测（Next Token Prediction, NTP） 范式，实现了对多模态信号的统一建模、理解与生成。

项目主页：https://longcat.chat/longcat-next/intro
GitHub：https://github.com/meituan-longcat/LongCat-Next
模型：https://huggingface.co/meituan-longcat/LongCat-Next
Demo：https://longcat.chat/longcat-next/

更令人振奋的是，美团宣布将 LongCat-Next 模型及其核心离散分词器全部开源，推动社区构建真正能感知、理解并作用于真实世界的 AI。

美团开源 LongCat-Next：原生多模态新范式，用“离散 Token”统一文本、图像与语音

核心突破：DiNA 架构，万物皆 Token

LongCat-Next 的核心在于其独创的 DiNA (Discrete Native Autoregressive) 离散原生自回归架构。

1. 统一范式：打破模态壁垒

在传统模型中，看图、听音、读文是三种不同的任务，需要不同的处理模块。而在 LongCat-Next 眼中，世界万物皆可被量化为离散 ID。

文本 $\to$ 离散 Token
图像离散 Token (通过 dNaViT 提取)
语音 $\to$ 离散 Token (通过声学编码器提取)

无论输入是什么，对模型而言，任务只有一个：预测下一个 Token 是什么。这种极致的简化，消除了模态间的隔阂，让模型能在一个共享的语义空间中自由穿梭。

2. 语义完备的离散表示

如何让离散的 Token 既保留细节又具备语义？美团提出了创新方案：

分层离散化：结合语义对齐编码器与残差向量量化（RVQ），生成分层级的离散 Token。
双重保留：既保留了高层的语义抽象（理解“这是一只猫”），又保留了底层的细粒度视觉/听觉细节（猫的毛发纹理、叫声频率）。
dNaViT 接口：推出了离散原生分辨率视觉 Transformer (dNaViT)，作为灵活的视觉接口，支持动态 Tokenization，确保与大语言模型无缝集成且性能无损。

3. 高效基座：MoE 架构

LongCat-Next 基于 LongCat-Flash-Lite MoE 构建：

总参数量：68.5B (685 亿)
激活参数量：仅 3B (30 亿)
优势：得益于稀疏混合专家（MoE）机制，模型在保持巨大容量的同时，推理速度极快，部署成本极低。实验显示，其 MoE 路由在训练中自动出现了模态专精化，不同专家自动分工处理文本、图像或语音任务。

性能实测：全能选手，多项 SOTA

美团官方测试数据显示，LongCat-Next 在统一架构下，不仅没有牺牲单一模态的性能，反而在多个维度达到了专用模型甚至超越专用模型的水平：

视觉能力：理解与生成的完美统一

文档理解 (OmniDocBench)：得分 0.226，超越 Qwen3-Omni 及专用视觉模型 Qwen3-VL，擅长处理复杂财报、论文和表格。
数学推理 (MathVista)：得分 83.1，达到领先水平。
图像生成 (LongText-Bench)：英文渲染得分 93.15，在高达 28 倍压缩率 下仍保持高质量生成，尤其在文字渲染上表现卓越。
损耗极低：统一模型的理解损失仅比纯理解模型高 0.006，生成损失甚至比纯生成模型低 0.02。