Arcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家(MoE)模型,总参数量为 24 亿,每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存使用量。
以下是该模型的专家模型及其关键信息:
专家模型
- 编码(Coding):
- 模型:suayptalha/Qwen3-0.6B-Code-Expert
- 训练细节:使用 BF16 在 nvidia/OpenCodeReasoning 数据集的前 2 万行上进行 1 个 epoch 的完全微调。
- 数学(Math):
- 模型:suayptalha/Qwen3-0.6B-Math-Expert
- 训练细节:使用 BF16 在 unsloth/OpenMathReasoning-mini 整个数据集上进行 1 个 epoch 的完全微调。
- 医疗(Medical):
- 模型:suayptalha/Qwen3-0.6B-Medical-Expert
- 训练细节:使用 BF16 在 FreedomIntelligence/medical-o1-reasoning-SFT 数据集的前 2 万行上进行 1 个 epoch 的完全微调。
- 指令跟随(Instruction Following):
- 模型:Qwen/Qwen3-0.6B
- 训练细节:直接使用 Qwen/Qwen3-0.6B 模型,未进行微调。
关键训练参数(SFTConfig)
- 每设备训练批次大小:2
- 梯度累积步数:4
- 预热步数:5
- 训练轮数:1
- 学习率:2e-5
- 优化器:adamw_8bit
- 权重衰减:0.01
- 随机种子:3407
路由模型
- 路由模型基于 distilbert/distilbert-base-uncased 的训练版本,在 7 个不同数据集上进行训练。详细信息可查看相关路由模型文档。
说明
- 该模型通过 MoE 架构将任务分配给专门的专家模型,从而在保持较低计算成本的同时提升性能。
- 每个专家模型专注于特定领域(编码、数学、医疗、指令跟随),路由器根据输入选择合适的专家处理任务。
- 所有专家模型和路由模型的详细信息可参考 Hugging Face 上的 suayptalha/Qwen3-2.4B-A0.6B 仓库。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...