
Whisk 是谷歌最新的 Google Labs 实验,允许用户通过输入或创建传达主题、场景和风格的图像,轻松组合并重新混合这些元素,生成独一无二的作品。Whisk 结合了 Imagen 3 的图像生成能力和 Gemini 的视觉理解和描述能力,使用户能够以有趣的新方式探索创意。用户可以在 Whisk 中为 主题、场景 和 风格 分别输入图像,然后将它们重新组合,生成全新的作品。例如,你可以将一个卡通角色的主题与一个未来城市的场景相结合,并应用一种复古的风格,生成一张具有独特创意的图像。

与传统的通过长而详细的文本提示生成图像的方式不同,Whisk 允许用户通过图像进行提示,提供了一种全新的创意工具。用户只需拖入图像,即可开始创作独特的作品,从数字毛绒玩具到珐琅别针或贴纸。
核心功能
1、图像提示的三要素
Whisk 允许用户为主题、场景和风格分别输入图像。这三个要素可以分别定义你想要生成的内容的核心元素:
- 主题:决定生成图像的主要对象或主体。
- 场景:定义生成图像的背景或环境。
- 风格:控制生成图像的艺术风格或视觉效果。
用户可以将这些元素重新组合,创造出独一无二的作品。例如,你可以将一个卡通角色的主题与一个未来城市的场景相结合,并应用一种复古的风格,生成一张具有独特创意的图像。

2、Gemini 模型的自动描述生成
Whisk 使用了谷歌的 Gemini 模型,这是一个强大的多模态 AI 模型,能够自动为用户输入的图像编写详细的描述。Gemini 模型会分析图像中的关键特征,并生成一段描述,捕捉到图像的本质而不是精确的复制品。这些描述随后会被输入到谷歌最新的图像生成模型 Imagen 3 中,用于生成最终的图像。
3、Imagen 3 图像生成模型
Imagen 3 是谷歌最新一代的图像生成模型,专门设计用于根据文本描述生成高质量的图像。通过结合 Gemini 模型生成的描述,Imagen 3 可以捕捉到用户输入图像的关键特征,并以新颖的方式重新组合这些特征,生成独特的图像。
创意探索与灵活性
由于 Whisk 仅从用户的图像中提取几个关键特征,因此生成的图像可能与用户的预期有所不同。例如,生成的主题可能具有不同的身高、体重、发型或肤色。虽然这可能会导致一些差异,但这也是 Whisk 的一大特色——它鼓励用户以新的创意方式探索想法,而不是追求像素级的精确编辑。如果你对某些生成结果不满意,Whisk 提供了一个灵活的编辑功能,允许用户随时查看和编辑底层提示。这样,用户可以根据自己的需求调整生成的内容,确保最终结果更符合预期。

数据统计
相关导航


Luma Photon

Stability AI

KREA AI

Playground

新Google AI Studio

InstaSD
