京东开源 JoyAI-LLM-Flash:3B 激活参数 MoE 模型,专为智能体与高吞吐场景优化

京东在 Hugging Face 正式开源其最新大语言模型 JoyAI-LLM-Flash,标志着其在高效、低成本、智能体友好型 AI 基础模型领域的重大进展。

该模型采用混合专家(MoE)架构,总参数达 480 亿,但每次推理仅激活 30 亿参数,在保持强大能力的同时显著降低计算开销。模型在 20 万亿 token 的高质量文本上完成预训练,重点强化了前沿知识理解、逻辑推理、代码生成以及智能体(Agent)协作能力

京东开源 JoyAI-LLM-Flash:3B 激活参数 MoE 模型,专为智能体与高吞吐场景优化

核心技术创新

1. FiberPO:将纤维丛理论引入强化学习

京东团队提出全新优化框架 FiberPO,首次将微分几何中的纤维丛理论(Fiber Bundle Theory) 应用于强化学习策略优化。该方法通过构建参数空间的几何结构,提升策略更新的稳定性与收敛速度,尤其适用于复杂任务中的长期规划。

2. Muon 优化器 + 稠密 MTP(Multi-Token Prediction)

  • Muon 优化器:一种新型自适应优化算法,在大规模训练中表现出更强的数值稳定性。
  • 稠密 MTP:允许模型在单次前向传播中并行预测多个未来 token,大幅提升训练与推理效率。

两者结合后,推理吞吐量较非 MTP 版本提升 1.3x–1.7x,同时有效缓解了传统 MoE 模型在扩展时常见的训练震荡问题。

3. 训练-推理协同设计

JoyAI-LLM-Flash 从底层架构即考虑部署成本,通过:

  • 激活参数最小化
  • MTP 加速 token 生成
  • 优化器与硬件对齐

实现低延迟、高吞吐、低成本的线上服务,特别适合需要高频调用的智能体系统或实时应用。

专为智能体(Agent)场景优化

与通用大模型不同,JoyAI-LLM-Flash 在训练阶段就融入了工具使用、环境交互、自主决策等智能体核心能力:

  • 支持函数调用(Function Calling)与工具链集成
  • 强化多步推理与错误恢复机制
  • 在代码生成、API 调用、任务分解等 benchmark 上表现优异

这使其成为构建自动化工作流、数字员工、AI 助手平台的理想基座模型。

开源信息

  • 模型名称JoyAI-LLM-Flash-Base
  • 参数规模:48B 总参数 / 3B 激活参数(MoE)
  • 训练数据:20T token 高质量语料
  • 训练流程:SFT → DPO → FiberPO 强化学习

应用场景

  • 企业级智能客服(高并发、低成本)
  • 自动化编程助手
  • 多智能体协作系统(如 TinyClaw、OpenClaw 类平台)
  • 实时数据分析与报告生成
  • 边缘设备上的轻量化 AI 推理(配合量化)
© 版权声明

相关文章

暂无评论

none
暂无评论...