京东在 Hugging Face 正式开源其最新大语言模型 JoyAI-LLM-Flash,标志着其在高效、低成本、智能体友好型 AI 基础模型领域的重大进展。
该模型采用混合专家(MoE)架构,总参数达 480 亿,但每次推理仅激活 30 亿参数,在保持强大能力的同时显著降低计算开销。模型在 20 万亿 token 的高质量文本上完成预训练,重点强化了前沿知识理解、逻辑推理、代码生成以及智能体(Agent)协作能力。

核心技术创新
1. FiberPO:将纤维丛理论引入强化学习
京东团队提出全新优化框架 FiberPO,首次将微分几何中的纤维丛理论(Fiber Bundle Theory) 应用于强化学习策略优化。该方法通过构建参数空间的几何结构,提升策略更新的稳定性与收敛速度,尤其适用于复杂任务中的长期规划。
2. Muon 优化器 + 稠密 MTP(Multi-Token Prediction)
- Muon 优化器:一种新型自适应优化算法,在大规模训练中表现出更强的数值稳定性。
- 稠密 MTP:允许模型在单次前向传播中并行预测多个未来 token,大幅提升训练与推理效率。
两者结合后,推理吞吐量较非 MTP 版本提升 1.3x–1.7x,同时有效缓解了传统 MoE 模型在扩展时常见的训练震荡问题。
3. 训练-推理协同设计
JoyAI-LLM-Flash 从底层架构即考虑部署成本,通过:
- 激活参数最小化
- MTP 加速 token 生成
- 优化器与硬件对齐
实现低延迟、高吞吐、低成本的线上服务,特别适合需要高频调用的智能体系统或实时应用。
专为智能体(Agent)场景优化
与通用大模型不同,JoyAI-LLM-Flash 在训练阶段就融入了工具使用、环境交互、自主决策等智能体核心能力:
- 支持函数调用(Function Calling)与工具链集成
- 强化多步推理与错误恢复机制
- 在代码生成、API 调用、任务分解等 benchmark 上表现优异
这使其成为构建自动化工作流、数字员工、AI 助手平台的理想基座模型。
开源信息
- 模型名称:
JoyAI-LLM-Flash-Base - 参数规模:48B 总参数 / 3B 激活参数(MoE)
- 训练数据:20T token 高质量语料
- 训练流程:SFT → DPO → FiberPO 强化学习
应用场景
- 企业级智能客服(高并发、低成本)
- 自动化编程助手
- 多智能体协作系统(如 TinyClaw、OpenClaw 类平台)
- 实时数据分析与报告生成
- 边缘设备上的轻量化 AI 推理(配合量化)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















