DragAPart:一张图片和加一系列拖动操作作为输入,生成新图片

牛津大学视觉几何小组推出DragAPart,它接收一张图片和一系列拖动操作作为输入,能够生成该物体在新状态下的新图片,且新图片与拖动操作所表达的动作相匹配。与先前主要关注物体重新定位的工作不同,DragAPart能够预测部件级别的交互,比如打开和关闭抽屉等动作。

想象一下,你有一张椅子的照片,通过DragAPart,你可以告诉计算机“拖动”椅子的某个部分,比如打开椅子的抽屉,而不需要移动整个椅子。这种方法使得计算机能够以更细致和直观的方式与图像中的物体互动。

主要功能与特点:

  1. 部分级交互:DragAPart能够识别和操作图像中物体的单个部分,而不是整个物体。
  2. 物理合理性:生成的图像遵循物理规则,确保物体的变形看起来自然和合理。
  3. 泛化能力:尽管是在合成数据上训练的,但DragAPart能够很好地适应真实世界的图像,并且能够处理在训练数据中未见过的物体类别。

工作原理:

DragAPart的工作原理基于深度学习和图像生成模型。它首先使用一个预训练的图像生成器,然后通过一个新的合成数据集Drag-a-Move进行微调。这个数据集包含了丰富的部分级注释,允许模型学习不同物体部分的运动。DragAPart引入了一种新的拖动编码方式,使得模型能够更有效地理解和响应拖动操作。此外,通过在训练中随机化物体的纹理,模型学会了不依赖特定外观的泛化能力。与之前的运动控制生成器相比,DragAPart展现了更加出色的部件级别运动理解能力。

具体应用场景:

  1. 图像编辑:用户可以通过拖动来编辑照片中的物体,例如打开或关闭家具的门或抽屉。
  2. 虚拟现实:在虚拟现实环境中,用户可以与虚拟物体的各个部分进行交互,提高沉浸感。
  3. 产品设计:设计师可以快速生成产品的不同配置和状态,测试其外观和功能。
  4. 电影和游戏:在电影制作和视频游戏中,DragAPart可以用来创建动态的物体和场景,增加视觉特效的真实性。

DragAPart是一个强大的工具,它扩展了计算机视觉和图像生成领域的可能性,使得与图像中的复杂物体进行交互变得更加直观和灵活。

如何使用?

只需几秒钟就能操控你最喜欢的物体!开始操作只需两步:

  1. 上传一张关节式物体的图片
  2. 在物体上添加一个或多个拖动操作,以指定部件级别的交互

如何添加拖动操作

  • 要添加拖动操作,请先点击拖动操作的起始点,然后在输入图像(最左侧)上点击拖动操作的结束点。
  • 你可以添加最多10个拖动操作,但我们建议每个部件只使用一个拖动操作。
  • 每次点击后,拖动操作将在“带有拖动操作的图像”(从左数第二个)上进行可视化。
  • 如果最后一个拖动操作未完成(即只指定了起始点而未指定结束点),它将被忽略。

尽情拖动,享受创作的乐趣吧!接下来,系统会提示你验证物体分割。一旦你确认分割准确,输出图像将在几秒钟内生成!

0

评论0

没有账号?注册  忘记密码?