美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

大语言模型3个月前发布 小马良
91 0

美团LongCat团队正式推出大语言模型LongCat-Flash,该模型以5600亿总参数规模为基础,创新采用专家混合(MoE)架构,通过动态计算、架构优化等核心设计,在训练效率、推理性能与实用能力上实现多重突破。同步发布的LongCat-Flash-Chat作为非思考基础模型,尤其在代理任务中展现出强劲竞争力。

美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

核心架构:以创新设计破解大规模模型效率难题

LongCat-Flash的设计围绕“高效计算利用率”与“高效训练推理”两大核心原则,通过架构创新与机制优化,打破了大规模模型“参数与效率不可兼得”的困境。

1. 动态参数激活:按需分配计算预算

考虑到不同令牌在上下文语义中的重要性存在差异,模型在MoE模块中引入零计算专家机制,不再对所有令牌投入同等计算资源,而是根据上下文需求动态激活参数——单令牌激活参数规模可在186亿至313亿之间灵活调整,平均约270亿。
为避免计算负载波动,团队采用PID控制器调整专家偏差,确保每令牌激活参数的稳定性,既保证了语义理解的准确性,又大幅降低了冗余计算成本。

2. ScMoE架构:缓解大规模扩展通信瓶颈

针对MoE模型在大规模部署中通信开销过高的痛点,LongCat-Flash创新提出短路连接MoE(ScMoE)设计。通过扩展计算-通信重叠窗口,将计算任务与数据传输的并行度最大化,结合定制化基础设施优化,不仅支持数万加速器的大规模集群训练,还实现了推理阶段的高吞吐量与低延迟。

训练策略:全流程框架保障大规模模型稳定扩展

为解决超大规模模型训练中的稳定性、可复现性与效率问题,LongCat团队构建了一套全面的训练与扩展策略:

  1. 超参数迁移:利用小型代理模型的实验结果,预测并优化大规模模型的超参数配置,兼具理论依据与实践有效性,减少试错成本。
  2. 模型增长初始化:基于精炼的半规模模型检查点进行初始化,相比传统随机初始化方式,显著提升了模型收敛速度与最终性能。
  3. 多维度稳定性套件:整合路由器梯度平衡、隐藏z-loss(抑制大规模激活异常)及精细优化器配置,从底层规避训练中的梯度爆炸、收敛停滞等问题。
  4. 确定性计算:通过算法与系统优化实现训练过程的完全可复现,同时可实时检测无声数据损坏(SDC),保障训练数据与模型参数的可靠性。

依托这套策略,LongCat-Flash在训练过程中未出现不可恢复的损失峰值,实现了稳定、高效的规模化迭代。

能力构建:多阶段训练强化代理与通用能力

LongCat-Flash的核心能力源于“预训练+后训练”的多阶段流水线设计,尤其聚焦于高级代理能力的打磨:

1. 预训练:夯实基础,适配代理任务需求

  • 初期:采用两阶段预训练数据融合策略,重点汇聚推理密集型领域数据,构建更适配代理任务的基础模型;
  • 中期:针对性增强推理与编码能力,并将上下文长度扩展至128k,满足长文本处理、多轮交互等复杂场景需求。

2. 后训练:聚焦复杂任务,突破代理能力瓶颈

针对代理任务中高质量、高难度训练数据稀缺的问题,团队设计多代理合成框架,从“信息处理复杂度”“工具集多样性”“用户交互深度”三个维度定义任务难度,通过专用控制器生成需要迭代推理、环境交互的复杂任务,倒逼模型提升实际问题解决能力。

核心功能:高效、通用且具备强代理能力

LongCat-Flash的功能设计紧扣实际应用场景,在效率、能力与适配性上表现突出:

功能类别具体表现
高效推理推理速度超过100 tokens/秒(TPS),成本低至0.70美元/百万输出tokens,性价比领先
高级代理能力在τ2-Bench(电信领域)、VitaBench等权威基准测试中表现优异,擅长复杂任务处理
多语言多领域适配采用字节对编码(BPE)分词,训练数据覆盖网页、书籍、源代码等,支持跨场景应用

测试表现:基准与安全双达标,能力全面可靠

1. 权威基准测试成绩亮眼

在通用与专项能力测试中,LongCat-Flash展现出均衡且强劲的性能:

  • 通用领域:ArenaHard-V2得分86.5,指令遵循与语义理解能力突出;
  • 工具与代理任务:TerminalBench得分39.5,熟练掌握终端操作等工具使用场景;
  • 垂直领域:τ2-Bench(电信)得分73.68,适配专业领域需求。

2. 安全风险控制能力优异

针对“有害内容”“犯罪诱导”“虚假信息”“隐私泄露”四大风险类别,模型通过多轮安全对齐训练,具备精准的风险识别与缓解能力,符合实际应用中的安全合规要求。

美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

开源赋能:开放模型检查点,共建技术生态

为推动大模型技术的研究与应用落地,LongCat团队已开源LongCat-Flash的模型检查点,允许科研机构、企业开发者基于该模型进行二次开发、场景适配与技术创新,助力大模型生态的协同发展。

© 版权声明

相关文章

暂无评论

none
暂无评论...