Whisk

2周前发布 27 0 0

Whisk 是谷歌最新的 Google Labs 实验,允许用户通过输入或创建传达主题、场景和风格的图像,轻松组合并重新混合这些元素,生成独一无二的作品。Whisk 结合了 Imagen 3 的图像生成能力和 Gemini 的视觉理解和描述能力,使用户能够以有趣的新方式探索创意。

所在地:
美国
收录时间:
2025-02-10
WhiskWhisk
Whisk

Whisk 是谷歌最新的 Google Labs 实验,允许用户通过输入或创建传达主题、场景和风格的图像,轻松组合并重新混合这些元素,生成独一无二的作品。Whisk 结合了 Imagen 3 的图像生成能力和 Gemini 的视觉理解和描述能力,使用户能够以有趣的新方式探索创意。用户可以在 Whisk 中为 主题场景  风格 分别输入图像,然后将它们重新组合,生成全新的作品。例如,你可以将一个卡通角色的主题与一个未来城市的场景相结合,并应用一种复古的风格,生成一张具有独特创意的图像。

Whisk

与传统的通过长而详细的文本提示生成图像的方式不同,Whisk 允许用户通过图像进行提示,提供了一种全新的创意工具。用户只需拖入图像,即可开始创作独特的作品,从数字毛绒玩具到珐琅别针或贴纸。

核心功能

1、图像提示的三要素

Whisk 允许用户为主题场景风格分别输入图像。这三个要素可以分别定义你想要生成的内容的核心元素:

  • 主题:决定生成图像的主要对象或主体。
  • 场景:定义生成图像的背景或环境。
  • 风格:控制生成图像的艺术风格或视觉效果。

用户可以将这些元素重新组合,创造出独一无二的作品。例如,你可以将一个卡通角色的主题与一个未来城市的场景相结合,并应用一种复古的风格,生成一张具有独特创意的图像。

Whisk
2Gemini 模型的自动描述生成

Whisk 使用了谷歌的 Gemini 模型,这是一个强大的多模态 AI 模型,能够自动为用户输入的图像编写详细的描述。Gemini 模型会分析图像中的关键特征,并生成一段描述,捕捉到图像的本质而不是精确的复制品。这些描述随后会被输入到谷歌最新的图像生成模型 Imagen 3 中,用于生成最终的图像。

3Imagen 3 图像生成模型

Imagen 3 是谷歌最新一代的图像生成模型,专门设计用于根据文本描述生成高质量的图像。通过结合 Gemini 模型生成的描述,Imagen 3 可以捕捉到用户输入图像的关键特征,并以新颖的方式重新组合这些特征,生成独特的图像。

创意探索与灵活性

由于 Whisk 仅从用户的图像中提取几个关键特征,因此生成的图像可能与用户的预期有所不同。例如,生成的主题可能具有不同的身高、体重、发型或肤色。虽然这可能会导致一些差异,但这也是 Whisk 的一大特色——它鼓励用户以新的创意方式探索想法,而不是追求像素级的精确编辑。如果你对某些生成结果不满意,Whisk 提供了一个灵活的编辑功能,允许用户随时查看和编辑底层提示。这样,用户可以根据自己的需求调整生成的内容,确保最终结果更符合预期。

Whisk

数据统计

相关导航

Freepik AI Suite

Freepik AI Suite

Freepik是国外一家老牌素材库,旗下拥有Flaticon、Slidesgo和Videvo等知名素材库,它们从2024年开始推出一系列由AI驱动的图像、视频及音频创建和编辑工具,Freepik AI Suite包含各种工具,例如用于从文本或图像创建视频的视频生成器、用于将文字转换为图像的图像生成器,以及用于提高分辨率和细节的功能。该套件还提供了一个修饰工具,可以轻松替换细节,一个背景移除器,可以擦除任何图像背景,一个草图转图像工具,以及一个在线照片编辑器。

暂无评论

none
暂无评论...