中国人民大学高岭人工智能学院发布一个 2.4B 参数量的轻量化语言模型YuLan-Mini

中国人民大学高岭人工智能学院发布一个 2.4B 参数量的轻量化语言模型YuLan-Mini,仅使用 1.08T Tokens 进行预训练,却达到了与使用更多数据的行业领先模型相媲美的性能,尤其是 数学 和 代码 两个领域。为方便复现,团队将开源相关预训练资源。

预训练方法通过以下三项关键技术改进提升了训练效率:

  1. 精细的数据处理流程,将数据清洗与数据课程策略相结合;
  2. 稳定的优化方法,有效缓解预训练中的不稳定性;
  3. 高效的退火策略,融合了目标数据选择和长上下文训练。

最终,使用我们的高效预训练策略,仅 1T 的数据量便可在数学和代码等领域,媲美 Qwen2.5-1.5B 在 18T 数据上的效果。我们将开源使用到的 1T 数据,其中指令数据仅占 3.5%。

0

评论0

没有账号?注册  忘记密码?