谷歌发布了新推理模型Gemini 2.5系列：其特色在于回答问题前会进行“思考”过程

198 0

本周二（2025年3月25日），谷歌发布了新推理模型 Gemini 2.5系列，其特色在于回答问题前会进行“思考”过程。为了启动这一系列，谷歌推出了Gemini 2.5 Pro Experimental，这是一个多模态推理AI模型，据称是迄今为止谷歌最智能的模型。该模型已于发布当日对订阅了每月20美元Gemini Advanced计划的用户开放，可通过谷歌AI Studio及Gemini应用程序访问。

自OpenAI在2024年9月推出首个AI推理模型o1以来，科技行业一直在竞相开发类似或更先进的技术。现在，包括Anthropic、DeepSeek、谷歌和xAI在内的公司都已拥有自己的AI推理模型，这些模型通过增加计算资源和时间来提升答案的准确性和逻辑性。

值得注意的是，虽然推理模型在数学和编码任务上取得了显著成就，但它们的成本也相对较高。谷歌先前尝试过AI推理模型，并在去年12月推出了Gemini的一个“思考”版本。然而，Gemini 2.5代表了谷歌为超越OpenAI的“o”系列模型所做出的最大努力。

根据谷歌的说法，Gemini 2.5 Pro不仅在其内部基准测试中超过了自家之前的顶尖AI模型，也在一些对比测试中领先于其他领先的竞争AI模型。例如，在评估代码编辑能力的Aider Polyglot测试中，Gemini 2.5 Pro得分68.6%，而在衡量软件开发能力的SWE-bench Verified测试中得分为63.8%。此外，在一个名为“人类的最后考试”的多模态测试中，它得到了18.8%的分数，表现优于大多数竞争对手的旗舰模型。

Gemini 2.5 Pro最初配置有100万个令牌的上下文窗口，允许一次性处理约75万字的内容。未来，它还将支持双倍输入长度（200万个令牌）。至于API定价，谷歌表示将在接下来的几周内提供更多信息。

以下是官方介绍：

Gemini 2.5：我们最智能的 AI 模型

Gemini 2.5 是一个思考模型，旨在解决日益复杂的问题。我们的首个 2.5 模型 Gemini 2.5 Pro Experimental 在常见基准测试中以显著优势领先，展示了强大的推理和编码能力。

今天我们推出了 Gemini 2.5，这是我们最智能的 AI 模型。我们的首个 2.5 版本是实验性的 2.5 Pro，在广泛的基准测试中处于领先地位，并在 LMArena 上以显著优势首次登顶。

Gemini 2.5 模型是思考模型，能够在回答前通过推理思考，从而提升性能并提高准确性。

在 AI 领域，系统的“推理”能力不仅仅指分类和预测，而是指其分析信息、得出逻辑结论、融入上下文和细微差别并做出明智决策的能力。

长期以来，我们通过强化学习和思维链提示等技术探索如何让 AI 更智能、更具推理能力。在此基础上，我们最近推出了首个思考模型 Gemini 2.0 Flash Thinking。

现在，通过 Gemini 2.5，我们通过显著增强的基础模型与改进的后训练实现了新的性能水平。未来，我们将直接将这些思考能力内置到所有模型中，使其能够处理更复杂的问题并支持更强大、上下文感知的代理。

介绍 Gemini 2.5 Pro

Gemini 2.5 Pro Experimental 是我们针对复杂任务的最先进模型。它在 LMArena 排行榜（衡量人类偏好的指标）上以显著优势位居榜首，表明这是一个功能强大且风格优质的模型。2.5 Pro 还展示了在常见编码、数学和科学基准测试中的强大推理和编码能力。

Gemini 2.5 Pro 现已在 Google AI Studio 和 Gemini 应用程序中对 Gemini Advanced 用户开放，并将很快在 Vertex AI 上提供。我们还将在未来几周内推出定价，使人们能够以更高的速率限制使用 2.5 Pro 进行大规模生产。

增强的推理能力

Gemini 2.5 Pro 在需要高级推理的多种基准测试中处于领先地位。在不使用增加成本的测试时技术（如多数投票）的情况下，2.5 Pro 在数学和科学基准测试（如 GPQA 和 AIME 2025）中名列前茅。

它还在“人类的最后考试”中取得了不使用工具的模型中的最高得分 18.8%，该数据集由数百名学科专家设计，旨在捕捉人类知识和推理的前沿。

高级编码能力

我们一直专注于编码性能，Gemini 2.5 相较于 2.0 实现了重大飞跃，未来还会有更多改进。2.5 Pro 擅长创建视觉上引人注目的网页应用和代理编码应用，以及代码转换和编辑。在行业标准代理编码评估 SWE-Bench Verified 中，Gemini 2.5 Pro 使用自定义代理设置得分 63.8%。

这里有一个例子，展示 2.5 Pro 如何利用其推理能力从单行提示生成可执行代码来创建视频游戏。