谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制

谷歌于今日通过Google AI StudioVertex AI的Gemini API,发布了Gemini 2.5 Flash的早期预览版。这一新版本在广受欢迎的2.0 Flash基础上进行了重大升级,不仅在推理能力上实现了显著提升,还优先考虑了速度和成本效益。

谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制

Gemini 2.5 Flash的核心优势

完全混合推理模型

Gemini 2.5 Flash是谷歌首款完全混合推理模型,开发者可以选择开启或关闭“思考”功能。即使关闭思考功能,开发者仍能保持2.0 Flash的快速响应速度,并进一步提升性能。

强大的思考能力

作为一款思考模型,Gemini 2.5 Flash在响应前会通过“思考”过程进行推理。它不会立即生成输出,而是通过思考来更好地理解提示、分解复杂任务并规划响应。这一过程对于需要多步推理的复杂任务(如解决数学问题或分析研究问题)尤为重要,能够使模型提供更准确、更全面的答案。事实上,Gemini 2.5 Flash在LMArena的“困难提示”测试中表现强劲,仅次于2.5 Pro。

最具成本效益的思考模型

Gemini 2.5 Flash继续以最佳性价比领先。它不仅提供了强大的推理能力,还通过灵活的思考预算设置,帮助开发者在质量、成本和延迟之间找到最佳平衡。

谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制

精细控制思考过程

谷歌深知不同用例在质量、成本和延迟之间的权衡各异。因此,Gemini 2.5 Flash提供了思考预算设置,让开发者能够精细控制模型在思考阶段生成的最大令牌数。更高的预算允许模型进行更深入的推理,从而提升生成内容的质量。然而,思考预算也为模型的思考设定了上限,确保模型不会在不必要的思考上浪费资源。如果提示不需要过多思考,模型不会使用全部预算。

谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制

此外,模型经过训练,能够根据提示判断所需思考的时长,因此会根据感知到的任务复杂性自动决定思考的程度。开发者可以根据需求,通过API中的参数或Google AI Studio和Vertex AI中的滑块,为思考阶段设置特定的令牌预算。2.5 Flash的思考预算范围为0至24576个令牌。

  • 最低成本和延迟:如果希望保持最低成本和延迟,同时提升2.0 Flash的性能,可以将思考预算设为0。
  • 灵活调整:开发者可以根据具体需求,灵活调整思考预算,以实现最佳的性能和成本平衡。
谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制

如何开始使用Gemini 2.5 Flash

Gemini 2.5 Flash的思考功能现已通过Google AI Studio和Vertex AI的Gemini API提供预览版,并在Gemini应用的专用下拉菜单中可用。谷歌鼓励开发者试验thinking_budget参数,探索可控推理如何帮助解决更复杂的问题。

© 版权声明

相关文章

暂无评论

none
暂无评论...