中国人民大学高岭人工智能学院发布一个 2.4B 参数量的轻量化语言模型YuLan-Mini,仅使用 1.08T Tokens 进行预训练,却达到了与使用更多数据的行业领先模型相媲美的性能,尤其是 数学 和 代码 两个领域。为方便复现,团队将开源相关预训练资源。
- GitHub:https://github.com/RUC-GSAI/YuLan-Mini
- 模型地址:https://huggingface.co/collections/yulan-team/yulan-mini-676d214b24376739b00d95f3
预训练方法通过以下三项关键技术改进提升了训练效率:
- 精细的数据处理流程,将数据清洗与数据课程策略相结合;
- 稳定的优化方法,有效缓解预训练中的不稳定性;
- 高效的退火策略,融合了目标数据选择和长上下文训练。
最终,使用我们的高效预训练策略,仅 1T 的数据量便可在数学和代码等领域,媲美 Qwen2.5-1.5B 在 18T 数据上的效果。我们将开源使用到的 1T 数据,其中指令数据仅占 3.5%。
评论0