字节跳动 & 南大联合推出 CriticLean 框架：让 AI 更准确地翻译数学为代码

大语言模型9个月前发布小马良

196 0

将自然语言数学语句自动转化为形式化代码（如 Lean 4）是计算数学中的核心挑战之一。尽管已有许多自动化工具尝试解决这一问题，但其准确性仍面临瓶颈，尤其是在需要深入理解语义的复杂场景中。

为此，字节跳动 Seed 项目组与南京大学联合提出了一种全新的解决方案——CriticLean 框架，首次系统性地引入“批判”机制，即在生成后阶段评估形式化结果是否准确反映原始数学意图。这一关键环节被证明对提高形式化的准确性和鲁棒性具有重要意义。

GitHub：https://github.com/multimodal-art-projection/CriticLean
模型：https://huggingface.co/m-a-p/CriticLeanGPT-Qwen3-8B-RL

研究动机与挑战

现有自动形式化模型往往侧重于“生成”，而忽略了“验证”环节。然而，在面对复杂的数学语句时，仅靠生成器难以确保输出与原意一致。例如：

定义错误：变量使用不当或条件缺失
逻辑偏差：推理路径不完整或误用前提
形式表达不符：语法正确但语义不等价

因此，本文强调一个尚未被充分探索的环节：批判（Critic）阶段，即通过模型或系统对生成的结果进行语义一致性评估，从而筛选出更可靠的定理声明。

CriticLean 框架概述

CriticLean 的核心是一个基于强化学习训练的模型 CriticLeanGPT，专门用于判断自然语言数学语句与其对应的 Lean 4 表达之间的语义一致性。

该框架采用迭代优化流程，结合两个关键组件：

Lean 编译器反馈：检查语法合法性；
CriticLeanGPT 批判反馈：评估语义一致性；

通过不断修正和重生成，最终获得高质量的形式化结果。

数据集构建与模型训练

CriticLeanInstruct 数据集

为了支持模型训练，研究团队构建了多个数据子集，包括：

文件名	描述
`CriticLean_12K`	所有批判 Lean 数据
`CriticLean_4K`	种子数据，CriticLean_12K 子集，用于 RL 训练
`CriticLean_Mix_48K`	混合数据，包含 CriticLean_12K + OpenR1-Math 18k + OpenThoughts 代码 18k
`CriticLean_Mix_16K`	小型混合数据集，含 CriticLean_4K + 数学与代码各 6k

模型变体训练配置

基于上述数据集，研究人员训练了多个模型变体，部分代表性配置如下：

基础模型	是否 SFT	SFT 数据	是否 RL	RL 数据	模型名称
Qwen2.5-Instruct	是	CriticLean_4K	否	-	Qwen2.5-Instruct-SFT (Critic Only)
Qwen2.5-Instruct	是	CriticLean_Mix_48K	是	CriticLean_4K	Qwen2.5-Instruct-SFT-RL
Qwen3	否	-	是	CriticLean_4K	Qwen3-RL

CriticLeanBench：首个面向语义一致性的形式化评估基准

为了评估批判模型的效果，研究团队推出了 CriticLeanBench，这是一个专为测试自然语言到 Lean 4 转换过程中语义一致性设计的综合基准。

特点

双重焦点：兼顾批判能力和 Lean 4 验证机制；
多样化覆盖：涵盖多个数学领域（代数、分析、集合论等）；
结构化错误样本：模拟真实世界中常见的形式化错误；
人工验证：所有条目均经过专家审核，确保质量。

数据统计

类别	数量
总样本数	500 对
正确样本	250 对
错误样本	250 对
平均输入长度	~700 token

每个条目包含：

自然语言数学语句
对应的 Lean 4 代码
是否语义正确的标签
错误注释（适用于错误样本）

推荐评估指标

准确率（ACC）
真阳性率（TPR）
假阳性率（FPR）
真阴性率（TNR）
假阴性率（FNR）

实验结果显示，CriticLeanGPT 在多项指标上超越了当前最先进的开源与闭源模型。

FineLeanCorpus：最大规模的已验证 Lean 4 数据集

基于 CriticLean 框架，研究团队进一步构建了 FineLeanCorpus，这是目前最大的高质量自然语言数学语句与 Lean 4 代码配对数据集。

核心特点

属性	内容
规模	285,957 条目
准确率	79.19%（手动抽样验证）
多样性	覆盖多个数学领域与难度级别
验证方式	Lean 编译器语法验证 + CriticLeanGPT 语义验证

该数据集不仅可用于训练形式化模型，还可作为评估、调试与改进自动定理证明系统的宝贵资源。

🔚 总结与展望

本研究通过引入批判机制，显著提升了自动形式化过程的可靠性。CriticLean 框架与相关数据集（CriticLeanBench 和 FineLeanCorpus）共同构成了一个完整的闭环系统，推动了自动定理证明领域的进步。

未来的研究方向包括：

扩展至更多形式化语言（如 Coq、Isabelle）
引入多轮交互式修正机制
结合大模型的自我反思与增强学习机制

如果你是 AI 数学、定理证明、形式化验证等领域的研究者或开发者，CriticLean 提供了一个值得深入探索的新范式。

大语言模型 # CriticLean # 字节跳动

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯优图实验室发布Youtu-agent：开源、高性能的自主智能体框架，开箱即用多场景能力

腾讯优图实验室发布Youtu-agent：开源、高性能的自主智能体框架，开箱即用多场景能力

大语言模型 # Youtu-agent # 智能体框架

7个月前

01600

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

无损压缩框架DFloat11：可将大语言模型的规模缩小约 30%，同时保持与原始模型完全一致的逐位相同输出

大语言模型 # DFloat11 # 无损压缩框架

11个月前

03390

阿里通义实验室推出新一代旗舰推理模型Qwen3-Max-Thinking：支持自适应工具调用，性能对标 GPT-5.2

阿里通义实验室推出新一代旗舰推理模型Qwen3-Max-Thinking：支持自适应工具调用，性能对标 GPT-5.2

大语言模型 # Qwen3-Max-Thinking # 推理模型

2个月前

0670

Mistral AI 宣布开源 Mistral Small 4：119B 参数集推理、编码与多模态于一身的统一模型，推理速度提升 3 倍

Mistral AI 宣布开源 Mistral Small 4：119B 参数集推理、编码与多模态于一身的统一模型，推理速度提升 3 倍

大语言模型 # Mistral AI # Mistral Small 4

2周前

0200

暂无评论

none

暂无评论...