推理能力再飞跃!Gemini 3正式发布:多模态拉满+代理编码,6.5亿用户可直接使用

谷歌今天正式发布新一代旗舰大模型 Gemini 3,这是其继 Gemini 2.5 发布七个月后推出的重磅升级版本,也是迄今最强大的大语言模型。此次发布距离 OpenAI GPT-5.1、Anthropic Sonnet 4.5 相继亮相不久,再次印证了前沿 AI 模型开发的迅猛节奏。

推理能力再飞跃!Gemini 3正式发布:多模态拉满+代理编码,6.5亿用户可直接使用

Gemini 3 以“推理能力的巨大飞跃”为核心亮点,不仅在多项权威基准测试中创下纪录,还同步推出了代理式开发平台 Google Antigravity,实现从模型能力到应用体验的全面升级。目前,Gemini 3 已正式登陆 Gemini 应用、AI 搜索界面、AI Studio、Vertex AI 等平台,6.5 亿月活用户可直接体验,1300 万开发者也可将其融入工作流程。

核心突破:基准测试全面领跑,推理与多模态能力拉满

Gemini 3 在性能上实现跨越式提升,尤其在推理、多模态理解、事实准确性等维度表现突出,多项数据刷新行业纪录:

1. 推理能力:创多项权威基准最高分

  • Humanity’s Last Exam(无工具):Gemini 3 Pro 获 37.5% 分数,Deep Think 增强模式更是达到 41.0%,远超此前 GPT-5 Pro 的 31.64%;
  • GPQA Diamond:Pro 版本 91.9%,Deep Think 版本 93.8%,展现顶级专业知识储备;
  • 数学领域:MathArena Apex 达到 23.4%,为前沿模型设定新标准;
  • 复杂任务规划:在 Vending-Bench 2 中位居榜首,可完成模拟一年的贩卖机业务运营规划,保持一致决策与工具使用。
推理能力再飞跃!Gemini 3正式发布:多模态拉满+代理编码,6.5亿用户可直接使用

2. 多模态理解:重新定义跨模态交互

  • 文本+图像:MMMU-Pro 达 81%,展现对复杂图文信息的深度解读能力;
  • 视频理解:Video-MMMU 获 87.6%,在视频内容分析、场景识别上表现优异;
  • 事实准确性:SimpleQA Verified 达到 72.1%,大幅降低误导性输出风险,在科学、学术等场景更可靠。

3. 编码能力:成为顶级“代理式编码模型”

  • WebDev Arena 排行榜以 1487 Elo 分数登顶,零样本生成能力出色,可渲染更丰富的交互式 Web UI;
  • 工具使用能力:Terminal-Bench 2.0 得分 54.2%,擅长通过终端操作计算机;
  • 编码代理效率:SWE-bench Verified 达到 76.2%,大幅优于前代,可自主完成复杂编码任务并验证代码。

重磅产品:Google Antigravity 重构代理式开发体验

伴随 Gemini 3 发布,谷歌同步推出全新代理优先开发平台 Google Antigravity,旨在将 AI 从“开发者工具箱”升级为“活跃协作伙伴”,重构软件开发流程:

1. 核心设计:多组件协同的代理式架构

  • 集成 Gemini 3 先进推理能力,同时耦合 Gemini 2.5 Computer Use 模型(浏览器控制)与 Nano Banana 图像编辑模型,实现多工具联动;
  • 提供“提示窗口+命令行界面+浏览器窗口”多面板布局,代理可直接访问编辑器、终端和浏览器,自主规划并执行端到端软件任务。

2. 核心优势:自主闭环的开发协作

Antigravity 的代理不仅能生成代码,还能自动验证代码有效性,解决了传统 AI 编码工具“只生成、不校验”的痛点。开发者可基于更高的任务维度下达指令,无需关注具体实现细节,大幅提升开发效率。目前,该平台已向开发者开放,同时支持 Cursor、GitHub、JetBrains、Replit 等第三方平台接入。

三大核心应用场景:学习、构建、规划全覆盖

1. 学习任何事物:多模态信息无缝合成

依托 100 万 token 上下文窗口和领先的多语言性能,Gemini 3 可处理文本、图像、视频、音频等多种格式信息:

  • 解读手写食谱并翻译为可分享的家族烹饪书;
  • 分析学术论文、长视频讲座,生成交互式闪卡、可视化内容辅助学习;
  • 拆解匹克球比赛视频,识别改进点并生成训练计划;
  • 搜索 AI 模式新增沉浸式视觉布局、交互工具,即时生成个性化学习内容。

2. 构建任何事物:开发者生产力全面提升

作为顶级编码模型,Gemini 3 为开发者提供全场景支持:

  • 支持 AI Studio、Vertex AI、Gemini CLI 等多平台接入,同时兼容第三方开发工具;
  • 代理式编码能力可自主完成复杂项目开发、代码调试、终端操作;
  • 高保真可视化代码生成,助力密集科学概念的直观呈现。

3. 规划任何事物:代理能力落地日常生活

Gemini 3 延续并升级了代理时代的核心优势,可处理复杂多步骤工作流:

  • 协助预订本地服务、整理收件箱等日常事务;
  • 基于用户需求制定长期规划,全程在用户控制与指导下执行;
  • Google AI Ultra 订阅者可在 Gemini 应用中试用这些代理能力,后续将扩展至更多谷歌产品。

版本规划与安全保障

1. 版本矩阵:满足不同场景需求

  • Gemini 3 Pro:今日已全面开放,覆盖大众用户、开发者、企业场景;
  • Gemini 3 Deep Think:增强推理模式,性能进一步提升,将在完成额外安全评估后,未来几周向 Google AI Ultra 订阅者开放;
  • 后续计划发布 Gemini 3 系列更多模型,持续扩展应用场景。
推理能力再飞跃!Gemini 3正式发布:多模态拉满+代理编码,6.5亿用户可直接使用

2. 安全保障:迄今最安全的 Gemini 模型

Gemini 3 经过谷歌 AI 史上最全面的安全评估,在减少奉承行为、抵抗提示注入、防范网络攻击滥用等方面均有显著提升。同时,谷歌还联合世界领先主题专家、UK AISI 等机构及 Apollo、Vaultis 等行业专家进行独立评估,确保模型安全合规。

推理能力再飞跃!Gemini 3正式发布:多模态拉满+代理编码,6.5亿用户可直接使用

行业意义:从模型突破到生态重构

Gemini 3 的发布不仅是单一模型的升级,更标志着 AI 从“工具级应用”向“伙伴级协作”的跨越:

  1. 推理与多模态能力的全面领跑,进一步拉高了行业技术基准;
  2. Google Antigravity 的推出,重构了开发者与 AI 的协作模式,为代理式开发树立新标杆;
  3. 覆盖学习、开发、生活的全场景应用,让 AI 真正融入日常,实现“将任何想法变为现实”的核心愿景。

对于用户而言,Gemini 3 带来的是更智能、更可靠、更高效的 AI 体验;对于开发者,它提供了更强大的工具与更灵活的平台;对于行业,它则推动了 AI 技术与应用生态的新一轮进化。随着后续 Deep Think 模式及更多衍生模型的推出,Gemini 3 有望持续引领 AI 发展方向。

© 版权声明

相关文章

暂无评论

none
暂无评论...