谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程

本周二(2025年3月25日),谷歌发布了新推理模型Gemini 2.5系列,其特色在于回答问题前会进行“思考”过程。为了启动这一系列,谷歌推出了Gemini 2.5 Pro Experimental,这是一个多模态推理AI模型,据称是迄今为止谷歌最智能的模型。该模型已于发布当日对订阅了每月20美元Gemini Advanced计划的用户开放,可通过谷歌AI StudioGemini应用程序访问。

谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程

自OpenAI在2024年9月推出首个AI推理模型o1以来,科技行业一直在竞相开发类似或更先进的技术。现在,包括Anthropic、DeepSeek、谷歌和xAI在内的公司都已拥有自己的AI推理模型,这些模型通过增加计算资源和时间来提升答案的准确性和逻辑性。

值得注意的是,虽然推理模型在数学和编码任务上取得了显著成就,但它们的成本也相对较高。谷歌先前尝试过AI推理模型,并在去年12月推出了Gemini的一个“思考”版本。然而,Gemini 2.5代表了谷歌为超越OpenAI的“o”系列模型所做出的最大努力。

根据谷歌的说法,Gemini 2.5 Pro不仅在其内部基准测试中超过了自家之前的顶尖AI模型,也在一些对比测试中领先于其他领先的竞争AI模型。例如,在评估代码编辑能力的Aider Polyglot测试中,Gemini 2.5 Pro得分68.6%,而在衡量软件开发能力的SWE-bench Verified测试中得分为63.8%。此外,在一个名为“人类的最后考试”的多模态测试中,它得到了18.8%的分数,表现优于大多数竞争对手的旗舰模型。

Gemini 2.5 Pro最初配置有100万个令牌的上下文窗口,允许一次性处理约75万字的内容。未来,它还将支持双倍输入长度(200万个令牌)。至于API定价,谷歌表示将在接下来的几周内提供更多信息。

以下是官方介绍:

Gemini 2.5:我们最智能的 AI 模型

Gemini 2.5 是一个思考模型,旨在解决日益复杂的问题。我们的首个 2.5 模型 Gemini 2.5 Pro Experimental 在常见基准测试中以显著优势领先,展示了强大的推理和编码能力。

谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程

今天我们推出了 Gemini 2.5,这是我们最智能的 AI 模型。我们的首个 2.5 版本是实验性的 2.5 Pro,在广泛的基准测试中处于领先地位,并在 LMArena 上以显著优势首次登顶。

Gemini 2.5 模型是思考模型,能够在回答前通过推理思考,从而提升性能并提高准确性。

在 AI 领域,系统的“推理”能力不仅仅指分类和预测,而是指其分析信息、得出逻辑结论、融入上下文和细微差别并做出明智决策的能力。

长期以来,我们通过强化学习和思维链提示等技术探索如何让 AI 更智能、更具推理能力。在此基础上,我们最近推出了首个思考模型 Gemini 2.0 Flash Thinking。

现在,通过 Gemini 2.5,我们通过显著增强的基础模型与改进的后训练实现了新的性能水平。未来,我们将直接将这些思考能力内置到所有模型中,使其能够处理更复杂的问题并支持更强大、上下文感知的代理。

介绍 Gemini 2.5 Pro

Gemini 2.5 Pro Experimental 是我们针对复杂任务的最先进模型。它在 LMArena 排行榜(衡量人类偏好的指标)上以显著优势位居榜首,表明这是一个功能强大且风格优质的模型。2.5 Pro 还展示了在常见编码、数学和科学基准测试中的强大推理和编码能力。

Gemini 2.5 Pro 现已在 Google AI Studio 和 Gemini 应用程序中对 Gemini Advanced 用户开放,并将很快在 Vertex AI 上提供。我们还将在未来几周内推出定价,使人们能够以更高的速率限制使用 2.5 Pro 进行大规模生产。

谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程

增强的推理能力

Gemini 2.5 Pro 在需要高级推理的多种基准测试中处于领先地位。在不使用增加成本的测试时技术(如多数投票)的情况下,2.5 Pro 在数学和科学基准测试(如 GPQA 和 AIME 2025)中名列前茅。

它还在“人类的最后考试”中取得了不使用工具的模型中的最高得分 18.8%,该数据集由数百名学科专家设计,旨在捕捉人类知识和推理的前沿。

谷歌发布了新推理模型Gemini 2.5系列:其特色在于回答问题前会进行“思考”过程

高级编码能力

我们一直专注于编码性能,Gemini 2.5 相较于 2.0 实现了重大飞跃,未来还会有更多改进。2.5 Pro 擅长创建视觉上引人注目的网页应用和代理编码应用,以及代码转换和编辑。在行业标准代理编码评估 SWE-Bench Verified 中,Gemini 2.5 Pro 使用自定义代理设置得分 63.8%。

这里有一个例子,展示 2.5 Pro 如何利用其推理能力从单行提示生成可执行代码来创建视频游戏。

基于 Gemini 的最佳特性构建

Gemini 2.5 建立在 Gemini 模型的优秀特性之上——原生多模态和长上下文窗口。2.5 Pro 今日推出时配备 100 万令牌上下文窗口(200 万令牌即将推出),其强大性能较前代有所提升。它能够理解庞大数据集并处理来自不同信息源的复杂问题,包括文本、音频、图像、视频甚至整个代码库。

开发者和企业现可在 Google AI Studio 中开始实验 Gemini 2.5 Pro,Gemini Advanced 用户可在桌面和移动端的模型下拉菜单中选择它。它将在未来几周内于 Vertex AI 上可用。

一如既往,我们欢迎反馈,以便我们能以快速的步伐持续改进 Gemini 的令人印象深刻的新能力,目标是让我们的 AI 更加实用。(来源

© 版权声明

相关文章

暂无评论

none
暂无评论...