月之暗面发布Moonlight:使用 Muon 优化器训练的混合专家 (MoE) 模型 月之暗面(Moonshot AI)和加州大学洛杉矶分校的研究团队联合发布了 Moonlight,这是一款基于 Muon 优化器训练的混合专家(MoE)模型。该模型包含两种配置:一种具有 30 亿激活参... 大语言模型# Moonlight# Moonshot AI# Muon 优化器 2周前0190