网易有道宣布正式开源其“子曰3”系列大模型中的 数学推理专用模型——Confucius3-Math(中文名:子曰3数学模型),这是国内首个专注于 K-12 数学教育、且可在单块消费级 GPU(如 RTX 4090D)上高效运行的开源大语言模型。
- GitHub:https://github.com/netease-youdao/Confucius3-Math
- 模型:https://huggingface.co/netease-youdao/Confucius3-Math
- Demo:https://confucius.youdao.com
该模型参数规模为 140亿,在多项数学推理任务中表现出当前最优性能,甚至超越了许多参数规模更大的通用模型。它的开源,为教育行业提供了低成本、高性能的 AI 解决方案,标志着“AI+教育”的落地进入新阶段。

专注数学教育场景,打造轻量但强大的垂类模型
与传统通用大模型不同,“子曰3数学模型”从设计之初就聚焦于中国K-12数学教育的实际需求,具备以下核心优势:
✅ 数学任务表现领先
通过专门的强化学习训练,在中文 K-12 数学问题上的表现优于多个参数规模更大的通用模型。
✅ 部署成本极低
可在单张消费级 GPU 上高效运行,极大降低了中小教育机构和开发者的使用门槛。
✅ 深度契合中国课程体系
针对中国国家数学课程标准和解题方法论进行了优化,确保输出逻辑与教学体系一致。
技术亮点:纯强化学习 + 创新数据调度策略
Confucius3-Math 的训练采用了纯强化学习的后期微调流程,并结合了创新的数据调度策略与改进的组相对优势估计器(Group-wise Advantage Estimator)。这些技术手段共同推动了模型在推理能力上的显著提升。

实测表现亮眼:高考数学题得分高达98.5分
测试数据显示,“子曰3数学模型”在多个数学推理基准数据集上均取得优异成绩,包括:
- CK12-math(Internal)
- GAOKAO-Bench(Math)
- MathBench(K12)
- MATH500
特别是在基于真实高考数学题构建的 GAOKAO-Bench(Math) 测评中,该模型取得了 98.5分 的高分,远超 DeepSeek R1 等主流通用模型。
值得注意的是,尽管其参数仅为 14B,但在推理效率方面,是 DeepSeek R1 的 15倍。
成本突破:每百万 token 仅需 0.15 美元
除了性能上的优势,“子曰3数学模型”的部署成本控制同样具有重要意义。
目前,该模型在消费级 GPU 上即可运行,服务成本约为 每百万 token 0.15 美元,远低于大多数通用大模型的成本水平。这使得它成为教育资源薄弱地区也能负担得起的 AI 教育工具。
以AI促进教育公平,推动垂类模型发展
长期以来,中小学教育面临资源不均衡、个性化辅导稀缺、复杂题型讲解成本高等难题。而高质量教育大模型的部署往往需要高昂的算力投入,限制了其在普通教育场景中的应用。
“子曰3数学模型”的推出,正是为了解决这一痛点。它证明了在特定领域内,通过针对性优化,可以在较低成本下实现高性能推理能力,为垂直领域的模型研发提供了重要参考路径。
网易有道首席科学家段亦涛表示:
“AI+教育的终极目标不是替代教师,而是让技术成为教育公平的杠杆。希望‘子曰3数学模型’的开源能够吸引更多开发者加入,共同探索推理模型在教育领域的应用价值。”
持续深耕“AI+教育”,构建开放生态
自“子曰”大模型系列推出以来,网易有道已在一年内上线了十余个垂直应用场景。今年初还发布了国内首个支持分步式讲解的推理模型“子曰-o1”。
此次“子曰3数学模型”的开源,不仅体现了有道在教育大模型领域的长期积累,也标志着其正在向开放共享、协同创新的方向迈进。
未来,随着更多开发者和教育机构的参与,这款模型有望在智能批改、自动讲题、个性化学习路径推荐等多个教育场景中落地,进一步释放 AI 在教育行业的应用潜力。















