谷歌作为全球领先的科技公司,推出了 Gemini 模型,可集成到各种 AI 应用中。为了帮助开发者轻松将 AI 集成到他们的应用中,谷歌于 2023 年推出了 Google AI Studio。这款工具不仅受到开发者的欢迎,也吸引了众多普通用户,广泛应用于个人助理、图像转换、PDF 摘要和学习助手等场景。本文将为您提供一份详细的初学者指南,帮助您快速上手 Google AI Studio。
什么是 Google AI Studio
Google AI Studio 是一款基于网络的工具,允许用户使用各种 Gemini 模型创建、测试和自定义提示。它主要面向开发者,提供了一个无需复杂设置的提示沙盒,方便开发者在无需后端测试环境的情况下编辑和测试提示。此外,Google AI Studio 还支持多种功能,如变量输入、结构化 JSON 输出、多模型支持和安全设置配置等。
对于普通用户,Google AI Studio 提供了创建个性化 AI 工具的能力,支持保存和重复使用提示,读取长 PDF 或图像并提取信息,这些功能在其他 AI 应用中往往受限。此外,Google AI Studio 还提供了 Google Stream 功能,允许用户通过语音、网络摄像头或屏幕共享与 AI 模型实时交互。
开始使用 Google AI Studio
Google AI Studio 完全基于网络,无需下载或安装任何软件。只需访问 Google AI Studio 并使用您的谷歌账户登录即可开始使用。该工具对开发者和普通用户均开放,无需信用卡注册,完全免费。

了解界面
在进入 Google AI Studio 使用教程之前,让我们先了解 Google AI Studio 界面中的各种图标、按钮和部分的含义,以便在导航时更清晰。
主页
使用谷歌账户登录后,您将被重定向到 Google AI Studio 主页,这是您调优或创建 AI 任务的主要页面。
这里有许多选项,从模型选择到全新的图标,如果您从未使用过 AI 工具,可能会感到陌生。我将整个页面分为不同部分,您可以参考以下各部分的详细功能说明。
首先,我们从左侧边栏开始,它允许您在聊天、流媒体、探索 Gemini 集成、查看历史对话和将聊天保存到 Google Drive 以供后续参考之间切换。以下是每个功能的详细说明:
聊天(Chat):这是与 AI 交互的主要区域,类似于使用 ChatGPT 和 Gemini。打开 Gemini Studio 时默认选中。 流媒体(Stream):允许通过语音、网络摄像头或屏幕共享与 Gemini 模型实时交互。您可以使用麦克风与 Gemini 实时对话,或使用网络摄像头分享屏幕内容。无论是通过文本、音频还是视频输入输出,您都可以像与真人一样自然地与 Gemini 模型交互。作为开发者,您可以使用此功能创建需要实时协助的应用等。 入门应用(Starter apps):如果您缺乏灵感,Gemini 提供内置项目,如视频分析器、文本分析器和谷歌地图探索器,您可以开始构建这些应用、自定义它们,或从 GitHub 克隆并在项目中使用。 历史记录(History):您可以查看所有之前的聊天、提示或交互记录。需连接 Google Drive 以保存和查看所有历史记录。 启用保存(Enable Save):点击此按钮可将您的账户连接到 Google Drive,将所有历史信息存储在一个地方。

Google AI Studio – 运行设置面板说明
运行设置允许您自定义使用的模型,进一步个性化体验。您可以从这些设置中选择和使用不同的 Gemini 模型,控制输出的创意性和可预测性,决定 AI 是否可以执行 IDE、访问实时信息、调用您的函数、返回结构化数据等。
这些设置对开发者比普通用户更有用,涉及 AI 输出的配置。以下是每个设置的含义:
模型选择器(Model Selector):允许选择运行任务的 Gemini 模型版本。目前包括最新的 Gemini 2.5 Pro 到 Gemini 1.5 Flash。点击下拉菜单,根据偏好选择模型,悬停可查看速率限制、令牌定价等。 温度(Temperature):通过温度设置,您可以控制模型输出的创意性。默认设置为 1(中间值);如果需要更少创意,可使用低设置;如果涉及编码或数学等创意任务,可设为高值。注意,数值越高,生成输出时间越长,但也取决于模型类型和用户提示。 结构化输出(Structured Output):启用此功能可让 AI 以 JSON、项目符号或表格等结构化格式回答。启用后,可点击编辑进一步结构化和自定义输出。普通用户也可使用视觉编辑器。 代码执行(Code Execution):启用模型运行代码执行,适合编码任务、数学和快速计算。 函数调用(Function Calling):对开发者有用,允许在应用中或连接 API、插件和其他服务时调用特定函数类型。可通过视觉和代码编辑器自定义和列出应用调用的特定函数。 基于 Google 搜索的接地(Grounding with Google Search):如果您的模型需要验证事实和当前趋势,或希望获取最新的网络信息,可启用此功能,模型将通过 Google 搜索访问实时结果并回答用户问题。 重置按钮(Reset button):允许将所有设置重置为默认值。

高级运行设置说明
在运行设置中,点击高级设置可进一步自定义,包括配置模型安全设置、添加停止请求、限制输出长度、使用单词调整模型的创意性等。以下是每个功能的详细说明:
安全设置(Safety Settings):允许编辑模型如何安全响应用户,包括针对骚扰、仇恨、危险等的滑块设置。 添加停止序列(Add Stop Sequence):允许在特定序列处停止输出。您可以使用字符串或特定输出类型在输出中停止。 输出长度(令牌)[Output Length (Tokens)]:控制模型在一次响应中生成多少输出长度。默认设置为 8192 令牌,约 6000 字。可进一步自定义增加令牌,甚至高达 100 万令牌,具体取决于使用的模型。更多令牌意味着更高费用。 Top P(核采样)[Top P (Nucleus Sampling)]:也称为核采样,允许调整模型的多样性。低 Top P 值更专注,高 Top P 值意味着模型在响应用户查询时更具多样性和创意性。

Google AI Studio — 提示编辑器顶部栏说明
主界面是您花费最多时间的区域。谷歌通过最新更新简化了界面,顶部工具栏提供不同选项,以下是它们的含义:
系统指令(System Instructions):允许为输出设置自定义指令。您可以用自然语言描述指令。对开发者和普通用户都很有用。 分享(Share):通过此分享图标分享提示,但需先连接 Google Drive 账户以获取可分享链接。 获取代码(Get code):对开发者而言,完成提示并获得预期输出后,可快速复制提示代码并添加到服务中。 清除(Clear):一键重置当前聊天历史。 比较输出:开发者可比较不同模型之间的输出。 垂直三点菜单(Vertical three-dot menu):点击三点菜单可获得更多选项。 附加媒体(加号图标)[Attach media (Plus icon)]:提示时可附加链接、文档或图像等媒体。

构建和测试提示
编写有效提示
熟悉 Google AI Studio 的所有图标和功能后,是时候开始构建提示了。作为开发者,您可以利用所有工具、设置和高级功能,根据需求自定义 AI 输出。
如果您是普通用户,可以使用高端 Gemini 模型获得所需结果。您可以进一步自定义模型或将输出调到最大,但最棒的是Google AI Studio免费使用。
截至撰写本指南时(2025年4月),当前速率限制包括每次聊天 100 万令牌和每天 1500 次聊天,对普通用户或开发者来说足够寻找更好的模型输出。有了这些前提,让我们进入提示构建器并创建提示。
如何编写提示
无论您是开发者还是普通用户,编写有效提示始终有助于获得更好的输出。如果您是开发者,这允许您根据需求微调模型。如果您已是开发者,需遵循特定格式以更好地优化特定产品的输出。
如果您是普通用户,可以直接使用自然语言与提示聊天,Gemini 足够智能以理解。然而,如果您仍想微调模型,可以遵循提示工程原则,或使用其他 ChatGPT 或 Gemini 应用进一步微调模型,或将现有自然语言转换为 AI 生成的提示。
使用结构化输出来获得特定格式的输出,如结构化输出。 通过添加新闻和数据进一步迭代输入以增强模型。 如果输出不符合预期,可通过进一步指令微调模型。如果输出感觉随机或不一致,可将提示拆分为多个步骤,从较小模型开始,遵循清晰的提示工程技术,如明确指定所需输出格式以进一步增强模型。 提供示例为模型提供更多上下文。 调整温度和令牌进一步自定义输出,并为特定输出指定系统指令。 如果输出过长,可添加断点。
在编写提示之前,您可以自定义运行设置并为预定输出添加自定义指令。
在左侧边栏点击聊天选项卡,然后在输入栏中输入提示并点击运行。 选择 Google Gemini 2.5 Pro,这是谷歌最新的最佳模型,以获得更好结果。

Google Stream 实时
Google Stream 实时是开发者和普通用户与 Google Gemini 模型实时交互的另一个热门功能,可通过设备麦克风或网络摄像头使用。
如果您想构建需要实时交互的产品,例如使用摄像头数据,可以使用这些模型测试 AI 并将其集成到设备中;这对普通用户来说也是使用 Google Stream 实时的绝佳选择。
例如,最受欢迎的用例是教育。许多人使用 Google Stream 通过共享屏幕解决问题,包括实时解决编码和数学问题。这是 Google Stream 实时最有用的案例之一。您还可以使用摄像头、网络摄像头和语音与模型实时交互。
与提示一样,您可以进一步控制 Google Stream 运行设置,例如启用语音。以下是它们的工作原理及开发者或普通用户如何实时交互的详细信息。
Google AI Studio 流媒体模式界面说明
Google Stream 界面与提示界面非常相似,主界面和运行设置位于侧边栏。首先,让我们了解复杂的运行设置。以下是运行设置中每个功能的含义:
主界面
自定义指令(Custom instructions):类似于主提示指令,您可以为模型设置自定义指令以个性化输出。 获取代码(Get code):开发者测试后可立即获取代码添加到产品中。 Gemini 模型选择器(Gemini Model Selector):可在此切换 AI 模型。目前仅 Flash 模型可用,默认设置。 输出(Output):通过此选项选择输出格式,Gemini 模型是同时以文本和音频响应,还是仅以文本响应。 语音(Voice):如果需要语音输出,可选择语音。目前有超过六种语音可选。 语言(Language):模型支持多种语言输出。默认英语,但可点击下拉菜单更改为任意语言。 媒体分辨率(Media resolution):控制模型解释图像内容的程度。数值越大,模型对图像的理解越深入。默认设置为每张图像 258 令牌,也可降至 66 令牌。 跟踪覆盖(Turn coverage):跟踪和显示视图允许模型跟踪并显示与用户交互的内容。特别适用于模型同时与多人交互的场景,如视频通话。 会话内容(Session content):由于是连续会话,会话内容功能允许设置令牌最大限制,即 AI 一次能记住的单词量。可调整最大内容大小和目标内容大小。对开发者构建具有长时间交互的应用(如编码助手)特别有用。 工具(Tools):与测试提示中的工具类似,流媒体还提供代码执行、函数调用、自动函数响应、基于 Google 搜索的接地等工具。
接下来是聊天界面,您主要在此与 Gemini 模型交互,可以通过语音、网络摄像头或屏幕共享实时与模型交互并获得实时输出。

如何使用 Google Stream
在 Google Gemini Studio 中转到流媒体选项卡。 选择要使用的模型:语音、网络摄像头或屏幕共享。 如果选择语音,允许麦克风权限并开始与模型交互;如果选择网络摄像头,允许摄像头权限并开始使用;如果选择屏幕共享,选择要分享的屏幕并开始共享。 开始会话后,您可以通过聊天窗口中的关闭按钮控制麦克风和视频并结束会话。
Google AI Studio 入门包
如果您是初学者,可以探索 Google AI Studio 的内置入门应用。目前仅有三个应用:空间理解、视频分析器和地图探索器。如果您是开发新手,可以从这些预构建应用开始开发。
普通用户也可以使用这些应用上传图像或视频并探索地图。您可以从侧边栏访问入门应用,获取这三个初始应用。
您可以尝试的事情:Google AI Studio
1. 创建您的个人 AI 助手
Google AI Studio 可以实时协助复杂任务。通过 Google Stream 功能,您可以询问 AI 屏幕上的内容,通过双向通信与 AI 交互并获得帮助。
最佳用例之一是用于学习;无论您是解决数学问题的学生还是卡在编码上的开发者,您都可以与 Google 助手共享屏幕,获得实时指导。
最棒的是它准确无误,帮助我完成了 Google Cloud API 设置。它还可以指导您处理日常生活场景,如查找特定设置、导航复杂界面等。
2. 个性化 AI 聊天机器人
您还可以将 AI Studio 用作个性化聊天机器人;与常规 Gemini 应用或 ChatGPT 不同,Google AI Studio 允许通过自定义设置和指令个性化输出结果。
3. 用于软件教程
您无需本指南即可开始使用 AI Studio;您可以要求 AI 指导您完成步骤。您可以使用 Gemini 流媒体屏幕共享内容,获得详细的分步教程,快速指导您完成软件教程,例如 Google AI Studio 的入门。
这些是您可以使用 Google AI Studio 的三个主要用例。由于它是一个 AI 聊天机器人,您可以将其用于各种日常任务,如 AI 博客摘要、周计划生成器、膳食和杂货清单跟踪器、使用 Gemini AI 入门应用的卡路里跟踪器、简历构建引擎等。
Google AI Studio 适合所有人
开发和将 AI 集成到应用中并实现个性化需要复杂的提示和 API 设置。此外,大语言模型等 AI 模型虽然强大,但为应用设置个性化结果较为复杂。
这通常需要微调模型,使其适应特定情境并提供定制结果。这正是 AI Studio 对使用 Gemini 模型的开发者的用处所在,用于微调模型、创建和测试各种提示类型、调整模型以提升特定任务性能,并通过 Gemini AI 轻松集成模型。
Google AI Studio 不仅适合开发者,对普通用户也非常有用。如需视觉指导,您可以观看 Tina 的视频,她将带您完成完整教程。
关于 Google AI Studio 的常见问题
1. Google AI Studio 与我手机上的 Gemini 应用有何不同?
对普通用户,您可以使用 Google Gemini AI Studio 进行自定义指令和非常有用的 Google Stream,允许您与模型实时交互;对开发者,这是创建具有自定义指令、文件上传、导出 API 的微调 AI 模型的工具,还可以以项目形式保存。
2. 可以将 AI Studio 中创建的提示分享给朋友或团队成员吗?
是的,您可以将 AI Studio 中创建的提示分享给朋友或团队成员,但需先将您的账户连接到 Google Drive。
3. 我可以将 Google AI Studio 连接到 Google 表格或文档以自动化任务吗?
可以,但目前 Google AI Studio 不直接支持与文档等第三方集成。您可以使用 Google API 脚本、函数调用或第三方工具与外部应用连接。(来源)
注意事项
免费使用但有限制:Google AI Studio 免费,但有每日 1500 次聊天和每次聊天 100 万令牌的限制。普通用户通常无需担心,但重度用户可能需监控使用情况。 网络依赖:作为基于网络的工具,稳定的互联网连接至关重要。 数据隐私:将账户连接到 Google Drive 以保存提示和历史记录时,确保了解谷歌的隐私政策,特别是处理敏感数据时。 学习曲线:虽然对初学者友好,但充分利用高级功能(如函数调用或结构化输出)可能需要时间学习,建议参考官方文档或教程。