Whisk

2个月前发布 96 00

Whisk 是谷歌最新的 Google Labs 实验,允许用户通过输入或创建传达主题、场景和风格的图像,轻松组合并重新混合这些元素,生成独一无二的作品。Whisk 结合了 Imagen 3 的图像生成能力和 Gemini 的视觉理解和描述能力,使用户能够以有趣的新方式探索创意。

所在地:
美国
收录时间:
2025-02-10

Whisk 谷歌最新的 Google Labs 实验,允许用户通过输入或创建传达主题、场景和风格的图像,轻松组合并重新混合这些元素,生成独一无二的作品。Whisk 结合了 Imagen 3图像生成能力和 Gemini 的视觉理解和描述能力,使用户能够以有趣的新方式探索创意。用户可以在 Whisk 中为 主题场景  风格 分别输入图像,然后将它们重新组合,生成全新的作品。例如,你可以将一个卡通角色的主题与一个未来城市的场景相结合,并应用一种复古的风格,生成一张具有独特创意的图像。

Whisk

与传统的通过长而详细的文本提示生成图像的方式不同,Whisk 允许用户通过图像进行提示,提供了一种全新的创意工具。用户只需拖入图像,即可开始创作独特的作品,从数字毛绒玩具到珐琅别针或贴纸。

核心功能

1、图像提示的三要素

Whisk 允许用户为主题场景风格分别输入图像。这三个要素可以分别定义你想要生成的内容的核心元素:

  • 主题:决定生成图像的主要对象或主体。
  • 场景:定义生成图像的背景或环境。
  • 风格:控制生成图像的艺术风格或视觉效果。

用户可以将这些元素重新组合,创造出独一无二的作品。例如,你可以将一个卡通角色的主题与一个未来城市的场景相结合,并应用一种复古的风格,生成一张具有独特创意的图像。

Whisk
2Gemini 模型的自动描述生成

Whisk 使用了谷歌的 Gemini 模型,这是一个强大的多模态 AI 模型,能够自动为用户输入的图像编写详细的描述。Gemini 模型会分析图像中的关键特征,并生成一段描述,捕捉到图像的本质而不是精确的复制品。这些描述随后会被输入到谷歌最新的图像生成模型 Imagen 3 中,用于生成最终的图像。

3Imagen 3 图像生成模型

Imagen 3 是谷歌最新一代的图像生成模型,专门设计用于根据文本描述生成高质量的图像。通过结合 Gemini 模型生成的描述,Imagen 3 可以捕捉到用户输入图像的关键特征,并以新颖的方式重新组合这些特征,生成独特的图像。

创意探索与灵活性

由于 Whisk 仅从用户的图像中提取几个关键特征,因此生成的图像可能与用户的预期有所不同。例如,生成的主题可能具有不同的身高、体重、发型或肤色。虽然这可能会导致一些差异,但这也是 Whisk 的一大特色——它鼓励用户以新的创意方式探索想法,而不是追求像素级的精确编辑。如果你对某些生成结果不满意,Whisk 提供了一个灵活的编辑功能,允许用户随时查看和编辑底层提示。这样,用户可以根据自己的需求调整生成的内容,确保最终结果更符合预期。

Whisk

数据统计

相关导航

暂无评论

none
暂无评论...