Whisk

1年前发布 668 00

Whisk 是谷歌最新的 Google Labs 实验，允许用户通过输入或创建传达主题、场景和风格的图像，轻松组合并重新混合这些元素，生成独一无二的作品。Whisk 结合了 Imagen 3 的图像生成能力和 Gemini 的视觉理解和描述能力，使用户能够以有趣的新方式探索创意。

所在地：

美国

收录时间：

2025-02-10

打开网站手机查看

Whisk

打开网站

Whisk 是谷歌最新的 Google Labs 实验，允许用户通过输入或创建传达主题、场景和风格的图像，轻松组合并重新混合这些元素，生成独一无二的作品。Whisk 结合了 Imagen 3 的图像生成能力和 Gemini 的视觉理解和描述能力，使用户能够以有趣的新方式探索创意。用户可以在 Whisk 中为主题、场景和风格分别输入图像，然后将它们重新组合，生成全新的作品。例如，你可以将一个卡通角色的主题与一个未来城市的场景相结合，并应用一种复古的风格，生成一张具有独特创意的图像。

与传统的通过长而详细的文本提示生成图像的方式不同，Whisk 允许用户通过图像进行提示，提供了一种全新的创意工具。用户只需拖入图像，即可开始创作独特的作品，从数字毛绒玩具到珐琅别针或贴纸。

核心功能

1、图像提示的三要素

Whisk 允许用户为主题、场景和风格分别输入图像。这三个要素可以分别定义你想要生成的内容的核心元素：

主题：决定生成图像的主要对象或主体。
场景：定义生成图像的背景或环境。
风格：控制生成图像的艺术风格或视觉效果。

用户可以将这些元素重新组合，创造出独一无二的作品。例如，你可以将一个卡通角色的主题与一个未来城市的场景相结合，并应用一种复古的风格，生成一张具有独特创意的图像。

2、Gemini 模型的自动描述生成

Whisk 使用了谷歌的 Gemini 模型，这是一个强大的多模态 AI 模型，能够自动为用户输入的图像编写详细的描述。Gemini 模型会分析图像中的关键特征，并生成一段描述，捕捉到图像的本质而不是精确的复制品。这些描述随后会被输入到谷歌最新的图像生成模型 Imagen 3 中，用于生成最终的图像。

3、Imagen 3 图像生成模型

Imagen 3 是谷歌最新一代的图像生成模型，专门设计用于根据文本描述生成高质量的图像。通过结合 Gemini 模型生成的描述，Imagen 3 可以捕捉到用户输入图像的关键特征，并以新颖的方式重新组合这些特征，生成独特的图像。

创意探索与灵活性

由于 Whisk 仅从用户的图像中提取几个关键特征，因此生成的图像可能与用户的预期有所不同。例如，生成的主题可能具有不同的身高、体重、发型或肤色。虽然这可能会导致一些差异，但这也是 Whisk 的一大特色——它鼓励用户以新的创意方式探索想法，而不是追求像素级的精确编辑。如果你对某些生成结果不满意，Whisk 提供了一个灵活的编辑功能，允许用户随时查看和编辑底层提示。这样，用户可以根据自己的需求调整生成的内容，确保最终结果更符合预期。

数据统计

暂无评论

暂无评论...