谷歌推出创意生成工具Whisk:通过图像进行提示,创作独特作品

今天,谷歌在美国推出了其最新的生成式 AI 实验——Whisk。与传统的通过长而详细的文本提示生成图像的方式不同,Whisk 允许用户通过图像进行提示,提供了一种全新的创意工具。用户只需拖入图像,即可开始创作独特的作品,从数字毛绒玩具到珐琅别针或贴纸。

核心功能

1、图像提示的三要素

Whisk 允许用户为主题场景风格分别输入图像。这三个要素可以分别定义你想要生成的内容的核心元素:

  • 主题:决定生成图像的主要对象或主体。
  • 场景:定义生成图像的背景或环境。
  • 风格:控制生成图像的艺术风格或视觉效果。

用户可以将这些元素重新组合,创造出独一无二的作品。例如,你可以将一个卡通角色的主题与一个未来城市的场景相结合,并应用一种复古的风格,生成一张具有独特创意的图像。

2Gemini 模型的自动描述生成

Whisk 使用了谷歌的 Gemini 模型,这是一个强大的多模态 AI 模型,能够自动为用户输入的图像编写详细的描述。Gemini 模型会分析图像中的关键特征,并生成一段描述,捕捉到图像的本质而不是精确的复制品。这些描述随后会被输入到谷歌最新的图像生成模型 Imagen 3 中,用于生成最终的图像。

3Imagen 3 图像生成模型

Imagen 3 是谷歌最新一代的图像生成模型,专门设计用于根据文本描述生成高质量的图像。通过结合 Gemini 模型生成的描述,Imagen 3 可以捕捉到用户输入图像的关键特征,并以新颖的方式重新组合这些特征,生成独特的图像。

创意探索与灵活性

由于 Whisk 仅从用户的图像中提取几个关键特征,因此生成的图像可能与用户的预期有所不同。例如,生成的主题可能具有不同的身高、体重、发型或肤色。虽然这可能会导致一些差异,但这也是 Whisk 的一大特色——它鼓励用户以新的创意方式探索想法,而不是追求像素级的精确编辑。如果你对某些生成结果不满意,Whisk 提供了一个灵活的编辑功能,允许用户随时查看和编辑底层提示。这样,用户可以根据自己的需求调整生成的内容,确保最终结果更符合预期。

用户体验与反馈

在早期测试中,艺术家和创意人员对 Whisk 的评价非常积极。他们将其描述为一种新型的创意工具,而非传统的图像编辑器。Whisk 的设计目的是为了支持快速的视觉探索,帮助用户浏览数十种不同的创意选项,并下载他们喜欢的作品。这种工具非常适合那些希望快速生成多个创意概念的人,尤其是在设计、插画和其他视觉艺术领域。

如何使用 Whisk

如果你在美国,今天就可以访问 labs.google/whisk,亲自体验 Whisk。谷歌鼓励用户尝试不同的图像组合,探索各种创意可能性,并提供反馈。你的意见将帮助谷歌团队进一步改进这一工具,使其更好地服务于创意社区。

0

评论0

没有账号?注册  忘记密码?