在 Gemini 应用中获得最佳图像生成和编辑的技巧

68 0

谷歌在 Gemini 中的图像生成和编辑的最新更新包括角色一致性、对话式编辑等方面的进步。以下是一些充分利用这些功能的技巧。

谷歌推出了最先进的图像生成和编辑模型Gemini 2.5 Flash Image（代号“Nano Banana”），可在 Gemini 应用、AI Studio 和 Vertex AI 中使用。此次更新引入了角色一致性的重大进步；精确的、对话式的编辑；以及将照片组合成全新创作的能力。为了帮助你充分利用此次更新，以下是为 Gemini 中的图像生成和编辑编写更有效提示的技巧。

Gemini 中图像生成的关键能力

在深入之前，熟悉 Gemini 的改进内容将有助于你考虑尝试哪些用例：

一致的角色设计。在多个生成和编辑中保持角色或物体的外观。
创意构图。将多个概念中的不同元素、主体和风格融合成单一、统一的图像。
局部编辑。使用简单语言对图像的特定部分进行精确编辑。
设计和外观适应。将一种概念的风格、纹理或设计应用到另一种概念上。
逻辑和推理。使用现实世界理解生成复杂场景或预测序列中的下一步。

构建有效提示的 6 个元素

使用 Gemini，你可以用简单的一两句输入获得很好的结果。然而，为了实现最佳结果并解锁更细致的创意控制，请考虑在提示中包含以下元素：

主体：图像中是谁或什么？要具体。（例如，一个严肃的机器人咖啡师，带有发光的蓝色光学元件；一只穿着小巫师帽的蓬松花猫。）
构图：镜头如何取景？（例如，极近距离、广角、低角度、肖像。）
动作：发生了什么？（例如，冲泡一杯咖啡、施展魔法咒语、在田野中大步奔跑。）
位置：场景发生在何处？（例如，火星上的未来咖啡馆、杂乱的炼金术士图书馆、金色时段的阳光普照草地。）
风格：整体美学是什么？（例如，3D 动画、黑色电影、水彩画、照片级真实、1990 年代产品摄影。）
编辑指令：对于修改现有图像，要直接且具体。（例如，将男人的领带改为绿色、移除背景中的汽车。）

提示示例：创意技巧展示

不同的提示策略可以解锁从照片级真实编辑到奇幻新世界的各种内容。以下是五种尝试的技术，每种附带一个关键示例。

保持角色的外观

Gemini 可以在不同姿势、光照和环境中保持人物或角色的相似度，甚至将同一角色应用到新风格和表面上。以下是一个角色在同一会话中跨多个提示使用的示例：

提示 1：一个奇幻插图，描绘一个微小的、发光的蘑菇精灵。精灵戴着一个大型生物发光蘑菇帽作为帽子，有宽大的好奇眼睛，身体由编织的藤蔓构成。
提示 2（在同一对话中）：现在，展示同一个精灵骑在一只友好的、覆盖苔藓的蜗牛背上，穿越一个阳光普照的草地，布满彩色野花。

通过在第一个提示中建立一个明确定义的角色并提供具体细节，你可以使用后续提示将 同一角色 置于全新上下文中。这里，Gemini 保留了角色的关键特征，如面部特征、独特外观和服装。

精确进行针对性转换

借助更新的图像编辑能力，你可以对照片进行快速、高度精确的编辑。这非常适合从产品模型到完善个人照片的一切。以下是一个示例：

提示 1：一张高质量照片，描绘一个现代、极简主义客厅，配有灰色沙发、浅木咖啡桌和一个大型盆栽植物。
提示 2（编辑）：将沙发的颜色改为深海军蓝。
提示 3（编辑）：现在，在咖啡桌上添加一摞三本书。

这展示了 Gemini 在局部编辑方面的优势。通过使用直接、对话式的命令，你可以修改图像中的特定元素，而无需复杂软件或重新生成整个场景。

用创意构图融合概念

尝试将两个或更多想法融合成一个引人注目的单一图像。提示 Gemini 创建两张图像，然后以富有想象力的方式组合它们的主体和环境：

提示 1：生成一张宇航员戴着头盔和全套服装的照片级真实图片。
提示 2：一张热带雨林中长满杂草的篮球场图片。
提示 3（上传两者并组合）：展示宇航员在这个球场扣篮。

适应并应用新风格

通过应用新风格、色板或纹理，完全改变图像的情感和美学，同时保持原主体完整。

提示 1：一张经典摩托车停在城市街道上的照片级真实图像。
提示 2（编辑）：将建筑绘图的风格应用到这张图像上。

借助“风格转移”，Gemini 理解核心主体（摩托车）及其形式，然后完全以请求的艺术风格重新渲染。这可用于设计灵感、艺术探索等。

使用逻辑和推理进行复杂生成

给 Gemini 一个简单概念，让其推理能力构建细节。这对于创建需要理解现实世界关系或过程的内容很有用。

提示 1：生成一张人站立拿着一个三层蛋糕的图像。
提示 2（在同一会话中）：生成一张图像，展示如果他们绊倒会发生什么。

模型可以使用其逻辑和推理能力预测下一步。它理解第一个图像的上下文和物理——一个人小心平衡蛋糕——然后模拟像绊倒这样的动作的合理后果，从而产生动态且上下文感知的新图像。

当前局限性的说明

在谷歌继续开发和微调模型时，仍有一些领域需要改进：

风格化：虽然强大，但模型的风格化有时可能不一致或产生意外结果。
文本渲染：模型偶尔可能拼写错误或难以处理复杂排版。
角色特征：虽然模型擅长角色一致性，但并非总是完美。谷歌正在努力使这种一致性更可靠。
设置和维护宽高比：模型在维护宽高比方面有困难——虽然你可以提示所需的尺寸，但输出可能并不总是支持你的请求。

谷歌正在积极改进这些领域，并感谢你的创意，因为谷歌共同构建下一代图像工具。

创意可能性已然成熟——谷歌迫不及待想看到你创造的内容！（来源）