字节跳动Seed项目组推出基于大语言模型(LLM)的自动化定理证明系统 Seed-Prover

大语言模型4个月前发布 小马良
95 0

字节跳动Seed项目组推出基于大语言模型(LLM)的自动化定理证明系统 Seed-Prover,Seed-Prover 通过结合 LLM 的推理能力和形式化语言(如 Lean)的验证能力,实现了对数学问题的自动化证明。尽管 LLM 在数学推理方面表现出色,但在定理证明中仍面临挑战,因为自然语言中的证明缺乏清晰的监督信号。Seed-Prover 通过引入形式化语言和迭代证明改进机制,显著提高了定理证明的性能。

例如,一个数学竞赛问题要求证明一个复杂的几何定理。使用 Seed-Prover,系统会首先生成一些有用的中间引理(lemma),然后利用这些引理逐步构建完整的证明。例如,在解决一个涉及三角形内角和的几何问题时,Seed-Prover 可能会先证明一些关于三角形内角和的基本性质的引理,然后利用这些引理来证明主定理。

字节跳动Seed项目组推出基于大语言模型(LLM)的自动化定理证明系统 Seed-Prover

主要功能

  1. 引理式证明(Lemma-Style Proving):Seed-Prover 在证明主定理之前,会生成一些有用的中间引理。这些引理作为共享知识,可以在不同的推理路径中使用。
  2. 迭代证明改进(Iterative Proof Refinement):Seed-Prover 根据 Lean 编译器的反馈、已证明的引理和自我总结,逐步改进证明。
  3. 测试时扩展(Test-Time Scaling):Seed-Prover 实现了三层推理策略,允许系统在细节和广度之间分配推理预算,从而实现深度和广度的推理。
  4. 几何推理引擎(Seed-Geometry):为了解决 Lean 在几何支持方面的不足,Seed-Prover 集成了一个专门的几何推理引擎,该引擎在几何问题上表现出色。

主要特点

  1. 引理式证明:通过生成中间引理,Seed-Prover 能够更清晰地识别哪些部分已经被证明,哪些部分还需要进一步改进。引理的模块化设计使得它们可以独立处理和自由组合。
  2. 迭代改进:Seed-Prover 在每次证明尝试后,会根据 Lean 编译器的反馈进行自我总结和改进,从而逐步优化证明。
  3. 多级推理策略:Seed-Prover 根据不同的问题难度和推理预算,提供了轻量级(Light)、中等(Medium)和重量级(Heavy)三种推理设置,以适应不同的证明需求。
  4. 高性能几何推理:Seed-Geometry 通过扩展领域特定语言、优化推理引擎和利用高性能 LLM,显著提高了几何问题的解决能力。

工作原理

  1. 引理式证明:Seed-Prover 首先生成一系列引理,然后利用这些引理来构建主定理的证明。引理的生成和证明过程是独立的,但可以相互组合。
  2. 迭代改进:在每次证明尝试后,Seed-Prover 会根据 Lean 编译器的反馈进行自我总结,识别错误并改进证明。这一过程会重复多次,直到证明被接受。
  3. 多级推理策略
    • 轻量级(Light):每次证明尝试会进行多次迭代改进,通常在 1-2 小时内完成。
    • 中等(Medium):在轻量级的基础上,增加了对困难引理的内层改进,以处理更复杂的证明。
    • 重量级(Heavy):从一个包含数千个猜想的池开始,逐步证明或反驳这些猜想,并利用已证明的引理来构建最终的证明。
  4. 几何推理引擎:Seed-Geometry 通过扩展领域特定语言、优化推理引擎和利用高性能 LLM,显著提高了几何问题的解决能力。

测试结果

  1. IMO 2025:Seed-Prover 在 IMO 2025 中成功证明了 5/6 的问题,表现出色。
  2. MiniF2F:Seed-Prover 在 MiniF2F 测试集上达到了 99.6% 的通过率,显著优于之前的最佳性能。
  3. PutnamBench:Seed-Prover 在 PutnamBench 上证明了 331/657 的问题,显著优于之前的最佳性能。
  4. CombiBench:Seed-Prover 在 CombiBench 上证明了 30/100 的问题,优于之前的最佳性能。
  5. MiniCTX-v2:Seed-Prover 在 MiniCTX-v2 上达到了 81.8% 的通过率,显示出在实际形式化项目中的强大潜力。
© 版权声明

相关文章

暂无评论

none
暂无评论...