谷歌发布 Gemini 3 Flash：面向实时高吞吐场景，成本较 Pro 版降 85%，支持多模态输入

37 0

继上月发布旗舰模型 Gemini 3 Pro 后，谷歌于 12 月 17 日正式推出轻量级版本 Gemini 3 Flash，专为成本与延迟敏感的实时、高吞吐量 AI 应用打造，在保留 Pro 版核心能力的同时，实现成本大幅下调，为开发者与企业提供了极具性价比的推理选择。以下是模型核心信息、性能表现、定价策略及使用渠道的完整解析。

谷歌发布 Gemini 3 Flash：面向实时高吞吐场景，成本较 Pro 版降 85%，支持多模态输入

定位：填补低延迟高性价比的市场空白

Gemini 3 Pro 虽在多项 AI 基准测试中表现优异，但较高的成本（输入 2 美元/百万 token、输出 12 美元/百万 token）与延迟，使其难以覆盖实时客服、高频交互智能体、大规模内容审核等对成本和响应速度敏感的场景。

Gemini 3 Flash 则以实时和高吞吐量推理优化为核心定位，主打低延迟，同时完整保留 Gemini 3 Pro 级别的多模态能力（支持文本、图像、音频、视频输入）与推理性能，完美适配对响应速度和成本控制有双重需求的应用场景。

定价：成本直降 85%，缓存模式再享巨幅优惠

Gemini 3 Flash 的定价策略极具竞争力，大幅降低了 AI 应用的落地成本，具体如下：

计费类型	标准价格	缓存模式价格	较 Gemini 3 Pro 降幅
输入 token	0.30 美元/百万	0.075 美元/百万	约 85%
输出 token	2 美元/百万	—	约 83%

缓存模式下输入 token 成本仅为标准价的 1/4，可帮助存在重复 token 输入的高频场景（如固定格式客服问答、标准化内容生成）进一步降低 90% 左右的成本，综合性价比优势显著。

性能：越级表现，部分基准超更大规模模型

Gemini 3 Flash 在核心 AI 基准测试中展现出强劲实力，部分成绩甚至超越更大规模的前沿模型，具体关键数据如下：

GPQA Diamond（博士级推理）：90.4%；
Humanity‘s Last Exam（无工具）：33.7%；
速度优势：推理速度较 Gemini 2.5 Pro 提升约 3 倍，实现近实时响应；
代码能力：SWE - bench 测试得分 78%，小幅领先 Gemini 3 Pro 的 76.2%。

该模型凭借架构优化实现“提速不降智”，在多模态处理、智能体任务、编码等场景中，能以轻量级体量提供接近旗舰模型的输出质量。

获取渠道与行业影响

1. 接入渠道

Gemini 3 Flash 已全面开放，不同用户群体可通过以下渠道快速接入：

开发者：Google AI Studio、Gemini CLI、Google Antigravity、Android Studio；
企业用户：Vertex AI 平台（适配企业级大规模部署需求）。

2. 行业竞争格局变化

上周 OpenAI 推出 GPT - 5.2 系列模型，在多数基准测试中略优于 Gemini 3 Pro，且定价相近。谷歌 Gemini 3 Flash 的发布，以极致性价比抢占中低端高吞吐 AI 应用市场。业内预测，OpenAI 大概率将在未来几周推出 GPT - 5.2 Mini 模型，以应对谷歌的价格与性能攻势，AI 大模型市场的性价比竞争将进一步白热化。（官方介绍）