推理能力再飞跃！Gemini 3正式发布：多模态拉满+代理编码，6.5亿用户可直接使用

92 0

谷歌今天正式发布新一代旗舰大模型 Gemini 3，这是其继 Gemini 2.5 发布七个月后推出的重磅升级版本，也是迄今最强大的大语言模型。此次发布距离 OpenAI GPT-5.1、Anthropic Sonnet 4.5 相继亮相不久，再次印证了前沿 AI 模型开发的迅猛节奏。

推理能力再飞跃！Gemini 3正式发布：多模态拉满+代理编码，6.5亿用户可直接使用

Gemini 3 以“推理能力的巨大飞跃”为核心亮点，不仅在多项权威基准测试中创下纪录，还同步推出了代理式开发平台 Google Antigravity，实现从模型能力到应用体验的全面升级。目前，Gemini 3 已正式登陆 Gemini 应用、AI 搜索界面、AI Studio、Vertex AI 等平台，6.5 亿月活用户可直接体验，1300 万开发者也可将其融入工作流程。

核心突破：基准测试全面领跑，推理与多模态能力拉满

Gemini 3 在性能上实现跨越式提升，尤其在推理、多模态理解、事实准确性等维度表现突出，多项数据刷新行业纪录：

1. 推理能力：创多项权威基准最高分

Humanity’s Last Exam（无工具）：Gemini 3 Pro 获 37.5% 分数，Deep Think 增强模式更是达到 41.0%，远超此前 GPT-5 Pro 的 31.64%；
GPQA Diamond：Pro 版本 91.9%，Deep Think 版本 93.8%，展现顶级专业知识储备；
数学领域：MathArena Apex 达到 23.4%，为前沿模型设定新标准；
复杂任务规划：在 Vending-Bench 2 中位居榜首，可完成模拟一年的贩卖机业务运营规划，保持一致决策与工具使用。

2. 多模态理解：重新定义跨模态交互

文本+图像：MMMU-Pro 达 81%，展现对复杂图文信息的深度解读能力；
视频理解：Video-MMMU 获 87.6%，在视频内容分析、场景识别上表现优异；
事实准确性：SimpleQA Verified 达到 72.1%，大幅降低误导性输出风险，在科学、学术等场景更可靠。

3. 编码能力：成为顶级“代理式编码模型”

WebDev Arena 排行榜以 1487 Elo 分数登顶，零样本生成能力出色，可渲染更丰富的交互式 Web UI；
工具使用能力：Terminal-Bench 2.0 得分 54.2%，擅长通过终端操作计算机；
编码代理效率：SWE-bench Verified 达到 76.2%，大幅优于前代，可自主完成复杂编码任务并验证代码。

重磅产品：Google Antigravity 重构代理式开发体验

伴随 Gemini 3 发布，谷歌同步推出全新代理优先开发平台 Google Antigravity，旨在将 AI 从“开发者工具箱”升级为“活跃协作伙伴”，重构软件开发流程：

1. 核心设计：多组件协同的代理式架构

集成 Gemini 3 先进推理能力，同时耦合 Gemini 2.5 Computer Use 模型（浏览器控制）与 Nano Banana 图像编辑模型，实现多工具联动；
提供“提示窗口+命令行界面+浏览器窗口”多面板布局，代理可直接访问编辑器、终端和浏览器，自主规划并执行端到端软件任务。

2. 核心优势：自主闭环的开发协作

Antigravity 的代理不仅能生成代码，还能自动验证代码有效性，解决了传统 AI 编码工具“只生成、不校验”的痛点。开发者可基于更高的任务维度下达指令，无需关注具体实现细节，大幅提升开发效率。目前，该平台已向开发者开放，同时支持 Cursor、GitHub、JetBrains、Replit 等第三方平台接入。