原生多模态处理和实时交互能力!谷歌正式推出Gemini系列的最新成员—Gemini 2.0

今天,谷歌正式推出了其Gemini系列的最新成员——Gemini 2.0 Flash。这款新模型不仅在性能上超越了前代产品Gemini 1.5 Pro,还在多个方面实现了显著的技术进步,特别是在多模态处理和实时交互能力上。以下是Gemini 2.0 Flash的主要特点和亮点:

1. 性能提升与低延迟

  • 速度提升两倍:相比Gemini 1.5 Pro,Gemini 2.0 Flash在关键基准测试中表现出色,不仅性能更强,而且响应速度更快,延迟更低。这使得它在实时应用中更加高效,尤其适合需要快速反馈的场景。
  • 低延迟处理:Gemini 2.0 Flash能够在毫秒级别内处理复杂的多模态输入,确保用户获得即时的反馈,适用于实时对话、视频流处理等场景。

2. 多模态输入与输出

  • 支持多种输入形式:Gemini 2.0 Flash可以处理图像、视频、音频等多种类型的输入数据,而不仅仅是文本。这意味着它可以理解并分析复杂的多媒体内容,提供更丰富的交互体验。
  • 多模态输出:除了生成高质量的文本外,Gemini 2.0 Flash还能够原生生成图像并与文本混合输出,提供更具视觉吸引力的回应。此外,它还支持可操控的文本到语音(TTS)多语言音频,允许用户选择不同的语言和语音风格,增强了跨语言交流的能力。

3. 原生工具集成

  • 调用外部工具:Gemini 2.0 Flash可以直接调用各种工具,如谷歌搜索代码执行等,帮助用户完成更复杂的任务。例如,用户可以通过Gemini 2.0 Flash查询最新的搜索结果,或者直接执行代码片段来解决问题。
  • 浏览器内推理:通过项目Mariner,Gemini 2.0 Flash能够理解和推理浏览器屏幕上的信息,帮助用户完成网页上的任务,如填写表单、查找信息等。谷歌声称,项目Mariner作为单一代理设置取得了最先进的83.5%的成绩。

4. 开发者工具与API

  • AI Studio和Vertex AI:开发者现在可以在谷歌的AI Studio和Vertex AI平台上尝试Gemini 2.0 Flash的实验版本。这些平台提供了强大的开发环境,帮助开发者快速构建和测试基于Gemini 2.0 Flash的应用程序。
  • 多模态实时API:谷歌还推出了新的多模态实时API,支持实时音频、视频流输入,并能够使用多个组合工具。这一API为开发者提供了更多的灵活性,使其能够创建更具互动性和实时性的应用程序。

5. 消费者体验

  • 桌面和移动网络支持:消费者可以通过桌面和移动网络访问Gemini 2.0 Flash,享受其强大的多模态功能。未来,该模型还将出现在移动应用中,进一步扩展其应用场景。
  • 即将全面上市:谷歌计划在2025年1月宣布Gemini 2.0 Flash的全面上市,届时将有更多的消费者和开发者能够使用这一先进的人工智能技术。

6. Gemini 2.0代理能力的探索

  • Project Astra:这是一个能够使用多种语言和混合语言进行交流的AI代理。它现在拥有长达10分钟的任务内记忆,并能够利用谷歌搜索、Lens和地图等工具,帮助用户完成复杂的任务。
  • Project Mariner:如前所述,Project Mariner是一个AI代理,能够理解和推理浏览器屏幕上的信息以完成任务。它的表现已经达到了行业领先水平,展示了Gemini 2.0 Flash的强大推理能力。
  • Jules:这是一个AI驱动的代码代理,可以直接集成到GitHub工作流程中,帮助开发者解决问题、制定计划并执行代码。Jules的出现将进一步提升开发效率,尤其是在自动化代码审查和问题解决方面。

以下是官方介绍全文:

好的,以下是 Sundar Pichai 发布的关于 Gemini 2.0 的声明全文翻译:

谷歌和 Alphabet 首席执行官桑达尔·皮查伊的声明:

信息是人类进步的核心。这就是为什么 26 年多来,我们一直专注于“整合全球信息,使人人皆可访问并从中受益”的使命。这也是为什么我们不断推进人工智能的前沿,以整合各种输入的信息,并通过任何输出方式使其可访问,从而真正为你所用。

去年 12 月我们推出 Gemini 1.0 时,这就是我们的愿景。作为首个原生多模态模型,Gemini 1.0 和 1.5 在多模态和长程上下文方面取得了巨大进步,能够理解文本、视频、图像、音频和代码等各种信息,并处理更多信息。

现在,数百万开发者正在使用 Gemini 进行构建。它正在帮助我们重新构想所有产品——包括所有拥有 20 亿用户的 7 款产品——并创造新产品。NotebookLM 就是一个很好的例子,它展示了多模态和长程上下文能为人们带来什么,以及它为何如此受欢迎。

过去一年,我们一直在投资开发更具能动性的模型,这意味着它们可以更多地了解你周围的世界,进行多步思考,并在你的监督下代表你采取行动。

今天,我们很高兴推出为这个新的能动时代构建的下一代模型:推出我们迄今为止最强大的模型 Gemini 2.0。凭借在多模态方面的新进展——例如原生图像和音频输出——以及原生工具的使用,它将使我们能够构建新的 AI 代理,从而更接近我们打造通用助手的愿景。

我们今天将 2.0 交到开发者和可信测试者手中。我们正在快速将其应用到我们的产品中,首先是 Gemini 和搜索。从今天开始,我们面向所有 Gemini 用户推出 Gemini 2.0 Flash 实验模型。我们还将推出一项名为“深度研究”的新功能,该功能利用高级推理和长程上下文功能充当研究助理,探索复杂主题并代表你编写报告。它今天在 Gemini Advanced 中可用。

没有哪个产品比搜索更受人工智能的变革。我们的人工智能概览现在覆盖了 10 亿人,使他们能够提出全新的问题类型——并迅速成为我们有史以来最受欢迎的搜索功能之一。作为下一步,我们将把 Gemini 2.0 的高级推理功能引入人工智能概览,以处理更复杂的主题和多步问题,包括高级数学方程、多模态查询和编码。我们本周开始了有限的测试,并将于明年初更广泛地推广。我们将在明年继续将人工智能概览推广到更多国家和语言。

2.0 的进步得益于我们在 AI 创新方面长达十年的差异化全栈方法投资。它构建在定制硬件之上,例如我们的第六代 TPU Trillium。TPU 支持了 Gemini 2.0 100% 的训练和推理,今天 Trillium 也已全面向客户提供,以便他们也可以使用它进行构建。

如果说 Gemini 1.0 是关于整合和理解信息,那么 Gemini 2.0 则是关于使其更加有用。我迫不及待地想看看下一个时代会带来什么。

——桑达尔

推出 Gemini 2.0:我们为能动时代打造的全新 AI 模型

谷歌 DeepMind 首席执行官 Demis Hassabis 和谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 代表 Gemini 团队发表

过去一年,我们在人工智能领域不断取得令人难以置信的进步。今天,我们发布 Gemini 2.0 模型系列中的首个模型:Gemini 2.0 Flash 的实验版本。它是我们的主力模型,具有低延迟和增强的性能,处于我们大规模技术的最前沿。

我们还通过展示由 Gemini 2.0 的原生多模态功能支持的原型,分享了我们在能动研究方面的前沿成果。

Gemini 2.0 Flash

Gemini 2.0 Flash 基于我们迄今为止最受开发者欢迎的 1.5 Flash 的成功构建,以相似的快速响应时间提供增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至优于 1.5 Pro,速度是其两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模态输入外,2.0 Flash 现在还支持多模态输出,例如与文本混合的原生生成的图像,以及可控的文本到语音 (TTS) 多语种音频。它还可以原生调用诸如谷歌搜索、代码执行以及第三方用户定义函数之类的工具。

我们的目标是安全快速地将我们的模型交到人们手中。过去一个月,我们一直在分享 Gemini 2.0 的早期实验版本,并获得了开发者的良好反馈。

Gemini 2.0 Flash 现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 作为实验模型提供给开发者,所有开发者都可以使用多模态输入和文本输出,早期访问合作伙伴可以使用文本到语音和原生图像生成。通用版本将于一月发布,同时还将提供更多模型尺寸。

为了帮助开发者构建动态和交互式应用程序,我们还将发布一个新的多模态 Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。有关 2.0 Flash 和多模态 Live API 的更多信息,请访问我们的开发者博客。

Gemini 2.0 在我们的 AI 助手 Gemini 应用程序中可用

同样从今天开始,全球 Gemini 用户可以通过在桌面和移动网页的模型下拉列表中选择它来访问针对聊天优化的 2.0 Flash 实验版本,它将很快在 Gemini 移动应用程序中提供。借助这个新模型,用户可以体验到更有用的 Gemini 助手。

明年初,我们将把 Gemini 2.0 扩展到更多谷歌产品。

使用 Gemini 2.0 解锁能动体验

Gemini 2.0 Flash 的原生用户界面操作功能,以及其他改进,例如多模态推理、长程上下文理解、复杂指令遵循和规划、组合函数调用、原生工具使用和改进的延迟,共同作用以实现一类新的能动体验。

AI 代理的实际应用是一个充满令人兴奋的可能性的研究领域。我们正在通过一系列原型探索这个新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新,这是我们探索通用 AI 助手未来功能的研究原型;新的 Project Mariner,它探索人机交互的未来,从你的浏览器开始;以及 Jules,一个可以帮助开发者的 AI 驱动的代码代理。

我们仍处于开发的早期阶段,但我们很高兴看到可信测试者如何使用这些新功能以及我们可以从中吸取哪些教训,以便我们将来可以在产品中更广泛地提供它们。

Project Astra:在现实世界中使用多模态理解的代理

自从我们在 I/O 大会上推出 Project Astra 以来,我们一直在向在 Android 手机上使用它的可信测试者学习。他们宝贵的反馈帮助我们更好地了解通用 AI 助手如何在实践中工作,包括对安全和伦理的影响。使用 Gemini 2.0 构建的最新版本的改进包括:

  • 更好的对话:Project Astra 现在能够以多种语言和混合语言进行对话,并且更好地理解口音和不常用的词。
  • 新的工具使用:借助 Gemini 2.0,Project Astra 可以使用谷歌搜索、Lens 和地图,使其作为日常生活的助手更加有用。
  • 更好的记忆力:我们改进了 Project Astra 在保持你控制权的同时记住事物的能力。它现在拥有长达 10 分钟的会话内记忆,并且可以记住你过去与它的更多对话,因此可以更好地为你提供个性化服务。
  • 改进的延迟:借助新的流式传输功能和原生音频理解,该代理可以以接近人类对话的延迟来理解语言。

我们正在努力将这些类型的功能引入谷歌产品,例如我们的 AI 助手 Gemini 应用程序,以及其他外形尺寸,例如眼镜。我们正在开始将我们的可信测试者计划扩展到更多人,包括一小部分人,他们将很快开始在原型眼镜上测试 Project Astra。

Project Mariner:可以帮助你完成复杂任务的代理

Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型,它探索人机交互的未来,从你的浏览器开始。作为一个研究原型,它能够理解和推理你浏览器屏幕上的信息,包括像素和 Web 元素,例如文本、代码、图像和表单,然后通过一个实验性的 Chrome 扩展程序使用这些信息来为你完成任务。

当根据 WebVoyager 基准进行评估时,该基准测试代理在端到端真实网络任务中的性能,Project Mariner 以单代理设置实现了 83.5% 的最先进结果。

现在还处于早期阶段,但 Project Mariner 表明,即使今天它并不总是准确且完成任务速度较慢,但在浏览器中导航在技术上正变得可行,随着时间的推移,这将迅速改进。

为了安全和负责地构建它,我们正在对新型风险和缓解措施进行积极研究,同时让人类参与其中。例如,Project Mariner 只能在你浏览器上的活动标签页中键入、滚动或单击,并且在执行某些敏感操作(例如购买商品)之前,它会要求用户进行最终确认。

现在,可信测试者正在使用一个实验性的 Chrome 扩展程序开始测试 Project Mariner,我们也在同时与网络生态系统展开对话。

Jules:面向开发者的代理

接下来,我们正在探索 AI 代理如何通过 Jules 帮助开发者——Jules 是一个实验性的 AI 驱动的代码代理,它直接集成到 GitHub 工作流程中。它可以在开发者的指导和监督下处理问题、制定计划并执行。这项工作是我们构建在所有领域(包括编码)都有用的 AI 代理的长期目标的一部分。

有关这项正在进行的实验的更多信息,请访问我们的开发者博文

游戏和其他领域的代理

Google DeepMind 在使用游戏来帮助 AI 模型更好地遵循规则、进行规划和逻辑方面拥有悠久的历史。例如,就在上周,我们推出了 Genie 2,我们的 AI 模型可以仅根据一张图像创建无穷无尽的可玩 3D 世界。基于这一传统,我们使用 Gemini 2.0 构建了可以帮助你在视频游戏的虚拟世界中导航的代理。它可以仅根据屏幕上的动作来推断游戏,并提供有关下一步该怎么做的实时对话建议。

我们正在与 Supercell 等 ведущих разработчиков игр 合作,探索这些代理如何工作,测试它们在各种游戏(从像《部落冲突》这样的策略游戏到像《卡通农场》这样的农场模拟器)中解释规则和挑战的能力。

除了充当虚拟游戏伙伴之外,这些代理甚至可以利用谷歌搜索将你与网络上丰富的游戏知识联系起来。

除了探索虚拟世界中的代理功能外,我们还在尝试使用可以将 Gemini 2.0 的空间推理功能应用于机器人的代理,以帮助在物理世界中提供帮助。虽然现在还处于早期阶段,但我们对可以在物理环境中提供帮助的代理的潜力感到兴奋。

你可以在 labs.google 了解有关这些研究原型和实验的更多信息。

在能动时代负责任地构建

Gemini 2.0 Flash 和我们的研究原型使我们能够在 AI 研究的最前沿测试和迭代新功能,这些功能最终将使谷歌产品更加有用。

在我们开发这些新技术时,我们认识到它所带来的责任,以及 AI 代理为安全和保障提出的诸多问题。这就是为什么我们对开发采取探索性和渐进式方法,对多个原型进行研究,迭代实施安全培训,与可信测试者和外部专家合作,并进行广泛的风险评估以及安全和保障评估。

例如:

  • 作为我们安全流程的一部分,我们与我们长期存在的内部审查小组“责任与安全委员会 (RSC)” 合作,以识别和理解潜在风险。
  • Gemini 2.0 的推理能力使我们的 AI 辅助红队方法取得了重大进展,包括能够超越简单地检测风险,现在可以自动生成评估和训练数据以减轻风险。这意味着我们可以更有效地大规模优化模型的安全性。
  • 随着 Gemini 2.0 的多模态性增加了潜在输出的复杂性,我们将继续评估和训练模型在图像和音频输入和输出方面的性能,以帮助提高安全性。
  • 通过 Project Astra,我们正在探索针对用户无意中与代理共享敏感信息的潜在缓解措施,并且我们已经构建了隐私控制,使用户可以轻松删除会话。我们还在继续研究确保 AI 代理充当可靠信息来源并且不会代表你采取意外行动的方法。
  • 通过 Project Mariner,我们正在努力确保模型学习优先考虑用户指令而不是第三方进行的提示注入尝试,以便它可以识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过隐藏在电子邮件、文档或网站中的恶意指令等内容而遭受欺诈和网络钓鱼攻击。

我们坚信,构建 AI 的唯一方法是从一开始就负责任,并且随着我们推进我们的模型和代理,我们将继续优先考虑使安全和责任成为我们模型开发过程的关键要素。

Gemini 2.0、AI 代理及未来

今天的发布标志着我们 Gemini 模型的新篇章。随着 Gemini 2.0 Flash 的发布,以及探索代理可能性的系列研究原型,我们已经达到了 Gemini 时代的一个激动人心的里程碑。我们期待着在构建 AGI 的过程中,继续安全地探索所有触手可及的新可能性。(官方介绍

0

评论0

没有账号?注册  忘记密码?