清华、普林斯顿等联合推出数学定理证明模型Goedel-Prover-V2：在自动形式化数学证明生成领域树立了新的技术标杆

244 0

近日，由普林斯顿大学语言与智能实验室、清华大学、英伟达、斯坦福大学、Meta FAIR、亚马逊、上海交通大学和北京大学联合研发的 Goedel-Prover-V2 正式发布。这是一系列开源语言模型，在自动形式化数学证明生成领域树立了新的技术标杆。

项目主页：https://blog.goedel-prover.com
Goedel-Prover-V2-32B：https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B
Goedel-Prover-V2-8B：https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B

Goedel-Prover-V2 采用专家迭代 + 强化学习的训练流水线，引入三项关键创新：

分层数据合成：生成难度递增的训练任务，逐步提升模型能力
验证器引导的自我纠正：通过 Lean 编译器反馈，模拟人类“试错-修正”的证明优化过程
模型平均技术：融合多个训练检查点，提升鲁棒性与最终性能

这一成果不仅在多个权威基准测试中超越了当前最先进的模型，更在模型规模远小于竞品的情况下实现了相当甚至更优的性能表现。

性能突破：小型模型匹敌超大模型，旗舰模型登顶榜单

Goedel-Prover-V2 系列包括两个主要版本：

Goedel-Prover-V2-8B（80亿参数）
Goedel-Prover-V2-32B（320亿参数）

在MiniF2F测试集上的表现如下：

模型	模式	Pass@32 成功率
DeepSeek-Prover-V2-671B	标准	83.3%
Goedel-Prover-V2-8B	标准	83.3%
Goedel-Prover-V2-32B	标准	88.1%
Goedel-Prover-V2-32B	自我纠正	90.4%

值得注意的是，Goedel-Prover-V2-8B 虽然参数规模仅为 DeepSeek-Prover 的 1/100，却在性能上完全匹敌，展现了其极高的训练效率和模型压缩潜力。

在更具挑战的 PutnamBench 数据集上，Goedel-Prover-V2-32B 在自我纠正模式下以 Pass@64 解决了 64 个问题，位居排行榜首位，远超 DeepSeek-Prover-V2-671B 在 Pass@1024 下解决 47 个问题的记录。

自我纠正机制：模拟人类“试错”思维，显著提升证明质量

Goedel-Prover-V2 引入了一种验证器引导的自我纠正机制。其核心流程如下：

模型生成初始证明
利用 Lean 编译器进行验证
根据反馈进行迭代修正（最多两轮）
最终输出更高质量的证明

尽管引入了两轮修正，整体输出长度仅从标准的 32K token 增加到 40K token，计算效率依然保持高效。

这种机制模拟了人类在数学证明中不断试错、改进的思维过程，为自动证明生成系统提供了更接近人类推理的能力。

推理时间扩展：持续领先，越算越强

Goedel-Prover-V2-32B 在不同推理时间预算下的表现始终优于此前的技术标杆模型，展现了其在长时间、多步推理任务中的稳定性与扩展性。

技术方法详解

Goedel-Prover-V2 基于 Qwen3-8B 和 Qwen3-32B 模型构建，采用标准的专家迭代与强化学习流程：

形式化问题输入
生成候选证明
使用 Lean 编译器验证
将新发现的正确证明加入训练集
通过强化学习进一步优化模型

在此基础上，团队引入三项关键创新：

1. 分层数据合成（Hierarchical Data Synthesis）

自动生成介于简单与复杂之间的中级问题，构建更平滑的难度梯度，提供更密集、信息更丰富的训练信号，帮助模型逐步掌握复杂定理的证明能力。

2. 验证器引导的自我纠正（Validator-Guided Self-Correction）

训练模型有效利用 Lean 编译器反馈，对初始证明进行迭代修正。该机制不仅提升了证明质量，还被整合到监督微调与强化学习阶段，形成闭环优化。

3. 模型平均（Model Averaging）

为防止后期训练中模型多样性下降，团队采用模型检查点与基模型的平均策略。这一简单但有效的方法显著提升了在高 K 值下的 Pass@K 性能。

开源发布：推动形式化验证与自动证明研究

Goedel-Prover-V2 团队已开源其模型，并发布了一个全新的基准数据集：

🔢 MathOlympiadBench

这是一个由人工验证的数学奥林匹克竞赛问题构成的形式化数据集，包含：

✅ 1959–2024 年 158 个 IMO 问题
✅ 2006–2023 年 131 个 IMO 短名单问题
✅ 68 个区域数学奥林匹克问题
✅ 3 个额外数学谜题

总计 360 个问题，全部以 Lean4 格式呈现，来源于 Compfiles 和 IMOSLLean4 仓库。

该数据集的发布旨在推动更多开源项目，特别是在IMO 竞赛自动求解系统方向的发展。

大语言模型 # Goedel-Prover-V2 # 数学定理证明模型

文章版权归作者所有，未经允许请勿转载。

谷歌发布 Gemma 3n：为移动设备而生的高效多模态AI模型

大语言模型 # Gemma 3n # 谷歌

9个月前

01790

Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B：以生成式 AI 重塑美国水产养殖业

大语言模型 # AQUA-1B # AQUA-7B # Kurma AI

8个月前

03450

腾讯推出全新MoE模型Hunyuan-A13B：小参数、高性能的AI新选择

大语言模型 # Hunyuan-A13B # 腾讯

9个月前

01560

新型段落排序模型 ReasonRank：通过强大的推理能力提升段落排序任务的性能

大语言模型 # ReasonRank # 段落排序模型

7个月前

03110

暂无评论

暂无评论...

清华、普林斯顿等联合推出数学定理证明模型Goedel-Prover-V2：在自动形式化数学证明生成领域树立了新的技术标杆

性能突破：小型模型匹敌超大模型，旗舰模型登顶榜单

自我纠正机制：模拟人类“试错”思维，显著提升证明质量

推理时间扩展：持续领先，越算越强

技术方法详解

1. 分层数据合成（Hierarchical Data Synthesis）

2. 验证器引导的自我纠正（Validator-Guided Self-Correction）

3. 模型平均（Model Averaging）

开源发布：推动形式化验证与自动证明研究

🔢 MathOlympiadBench

Gemini Embedding 正式上线：支持多语言、灵活维度，现已全面可用

字节跳动开源 Seed-X：70亿参数的多语言翻译模型，性能媲美 GPT-4 和 Gemini

相关文章

谷歌发布 Gemma 3n：为移动设备而生的高效多模态AI模型

Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B：以生成式 AI 重塑美国水产养殖业

腾讯推出全新MoE模型Hunyuan-A13B：小参数、高性能的AI新选择

新型段落排序模型 ReasonRank：通过强大的推理能力提升段落排序任务的性能

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

新腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

ComfyUI 更新速递：Qwen Image ControlNet/LoRA、EasyCache 与上下文窗口支持

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

清华、普林斯顿等联合推出数学定理证明模型Goedel-Prover-V2：在自动形式化数学证明生成领域树立了新的技术标杆

性能突破：小型模型匹敌超大模型，旗舰模型登顶榜单

自我纠正机制：模拟人类“试错”思维，显著提升证明质量

推理时间扩展：持续领先，越算越强

技术方法详解

1. 分层数据合成（Hierarchical Data Synthesis）

2. 验证器引导的自我纠正（Validator-Guided Self-Correction）

3. 模型平均（Model Averaging）

开源发布：推动形式化验证与自动证明研究

🔢 MathOlympiadBench

Gemini Embedding 正式上线：支持多语言、灵活维度，现已全面可用

字节跳动开源 Seed-X：70亿参数的多语言翻译模型，性能媲美 GPT-4 和 Gemini

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw