谷歌DeepMind推出AlphaEvolve:擅长解决数学与科学问题的AI工具

早报1个月前发布 小马良
103 0

谷歌旗下的 AI 研发实验室 DeepMind宣布推出一款名为 AlphaEvolve 的新型 AI 系统。这款工具专门设计用于解决具有“机器可评分”解决方案的问题,尤其是在数学、科学和系统优化领域表现突出。

谷歌DeepMind推出AlphaEvolve:擅长解决数学与科学问题的AI工具

DeepMind 表示,AlphaEvolve 不仅能够生成高质量的解决方案,还能通过自动评估机制显著减少传统 AI 模型中常见的“幻觉”问题。这一特性使其在处理复杂计算和优化任务时表现出色。

自动评估机制:减少幻觉的关键

与其他 AI 模型不同,AlphaEvolve 引入了一种创新的 自动评估机制。该机制利用模型生成多个可能的答案,并通过内置的评分系统对答案的准确性进行自动评估。这种方法不仅能有效筛选出最优解,还能大幅降低 AI 模型因概率架构而产生的错误或编造内容(即“幻觉”)。

尽管类似的技术在学术界已有先例,例如 DeepMind 几年前的研究团队就曾在数学领域应用过类似方法,但 AlphaEvolve 的独特之处在于其依赖于 Gemini 模型——这是 DeepMind 当前最先进的 AI 模型之一。DeepMind 声称,这种结合使 AlphaEvolve 的能力远超早期的 AI 实例。

使用方式:用户输入与自动评估

使用 AlphaEvolve 时,用户需要提供问题提示,可以包括以下内容:

  • 具体指令
  • 方程或代码片段
  • 相关文献或背景信息

此外,用户还需定义一种评估机制(通常是公式形式),以帮助系统判断答案的正确性。由于 AlphaEvolve 的核心依赖于自动评估,它目前仅适用于那些可以自我验证的问题类型,例如计算机科学中的算法优化或系统效率提升。

谷歌DeepMind推出AlphaEvolve:擅长解决数学与科学问题的AI工具

测试结果:高效且实用

为了验证 AlphaEvolve 的性能,DeepMind 对其进行了多方面的测试:

  1. 数学问题解决
    AlphaEvolve 被应用于约 50 个精选的数学问题,涵盖几何、组合数学等多个分支。结果显示,系统在 75% 的情况下重新发现了已知的最佳答案,并在 20% 的案例中提出了改进的解决方案
  2. 实际应用测试
    DeepMind 还将 AlphaEvolve 应用于谷歌的实际业务场景,例如:

    • 提升数据中心效率:AlphaEvolve 生成了一种算法,平均持续回收谷歌全球计算资源的 0.7%
    • 加速模型训练:系统提出了一种优化方案,将谷歌训练 Gemini 模型的总体时间缩短了 1%

尽管 AlphaEvolve 并未取得突破性发现(例如,某些优化建议已被其他工具标记),但它在节省时间和资源方面展现了显著价值。

局限性与适用范围

AlphaEvolve 的能力虽然强大,但也存在一些限制:

  1. 问题类型的局限:由于系统只能解决“机器可评分”的问题,它主要适用于数值型或算法型任务,例如数学优化、计算机科学和系统工程等领域。对于非数值型问题(如开放式创意任务),AlphaEvolve 并不适用。
  2. 解决方案的形式:AlphaEvolve 的输出通常以算法形式呈现,因此更适合技术专家或研究人员使用。

未来计划:学术合作与推广

DeepMind 正在为 AlphaEvolve 构建用户界面,并计划推出一个 早期访问计划,优先向选定的学者和研究机构开放。未来,公司可能会将其推广至更广泛的用户群体。

DeepMind 认为,尽管 AlphaEvolve 无法取代人类专家,但它能显著节省时间,让研究人员专注于更具挑战性和创造性的工作。这一愿景与许多 AI 实验室的目标一致,即通过技术赋能人类,而非完全取代。

© 版权声明

相关文章

暂无评论

none
暂无评论...