基于 Qwen3 的混合专家(MoE)模型Arcana Qwen3 2.4B A0.6B

大语言模型1个月前发布 小马良
71 0

Arcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家(MoE)模型,总参数量为 24 亿,每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存使用量。

以下是该模型的专家模型及其关键信息:

专家模型

  1. 编码(Coding)
    • 模型:suayptalha/Qwen3-0.6B-Code-Expert
    • 训练细节:使用 BF16 在 nvidia/OpenCodeReasoning 数据集的前 2 万行上进行 1 个 epoch 的完全微调。
  2. 数学(Math)
    • 模型:suayptalha/Qwen3-0.6B-Math-Expert
    • 训练细节:使用 BF16 在 unsloth/OpenMathReasoning-mini 整个数据集上进行 1 个 epoch 的完全微调。
  3. 医疗(Medical)
    • 模型:suayptalha/Qwen3-0.6B-Medical-Expert
    • 训练细节:使用 BF16 在 FreedomIntelligence/medical-o1-reasoning-SFT 数据集的前 2 万行上进行 1 个 epoch 的完全微调。
  4. 指令跟随(Instruction Following)
    • 模型:Qwen/Qwen3-0.6B
    • 训练细节:直接使用 Qwen/Qwen3-0.6B 模型,未进行微调。

关键训练参数(SFTConfig)

  • 每设备训练批次大小:2
  • 梯度累积步数:4
  • 预热步数:5
  • 训练轮数:1
  • 学习率:2e-5
  • 优化器:adamw_8bit
  • 权重衰减:0.01
  • 随机种子:3407

路由模型

  • 路由模型基于 distilbert/distilbert-base-uncased 的训练版本,在 7 个不同数据集上进行训练。详细信息可查看相关路由模型文档。

说明

  • 该模型通过 MoE 架构将任务分配给专门的专家模型,从而在保持较低计算成本的同时提升性能。
  • 每个专家模型专注于特定领域(编码、数学、医疗、指令跟随),路由器根据输入选择合适的专家处理任务。
  • 所有专家模型和路由模型的详细信息可参考 Hugging Face 上的 suayptalha/Qwen3-2.4B-A0.6B 仓库。
© 版权声明

相关文章

暂无评论

none
暂无评论...