SAMPart3D:可扩展的零样本3D部件分割框架3D部件分割是3D感知中的一项关键任务,在机器人、3D生成和3D编辑等应用中发挥着重要作用。最近的方法利用强大的视觉语言模型(VLMs)进行2D到3D的知识蒸馏,实现了零样本的3D部件分割。然而,这些...新技术# 3D部件分割框架# SAMPart3D1年前04620
Compress3D:从单张图片生成三维模型来自西安交通大学的研究团队推出Compress3D,它是一种从单张图片生成三维模型的方法。想象一下,你有一张你最喜欢的动漫角色的图片,你想在虚拟现实游戏中使用这个角色的三维模型。传统上,这需要3D艺术...新技术# Compress3D# 三维模型2年前04620
Visual SKETCHPAD 框架:为多模态语言模型提供一个可视化的“草图板”,使其能够在解决问题时生成中间草图并进行推理华盛顿大学、艾伦人工智能研究所和宾夕法尼亚大学的研究人员推出Visual SKETCHPAD 框架,为多模态语言模型(LMs)提供一个可视化的“草图板”,使其能够在解决问题时生成中间草图并进行推理。这...新技术# Visual SKETCHPAD# 多模态语言模型# 草图板11个月前04610
半策略偏好优化方法SePPO:用于优化和微调文生图模型,使其更好地符合人类的审美和偏好罗切斯特大学、普渡大学、延世大学、腾讯 AI 实验室和华盛顿大学的研究人员推出半策略偏好优化方法SePPO,用于优化和微调扩散模型(如用于生成图像的模型),使其更好地符合人类的审美和偏好,而无需依赖外...新技术# SePPO# 半策略偏好优化# 文生图模型1年前04610
图像编辑方法Click2Mask:通过简单的点击来实现对图片的局部编辑,而不需要复杂的遮罩或详细的描述耶路撒冷希伯来大学的研究人员推出图像编辑方法Click2Mask,它能够让用户通过简单的点击来实现对图片的局部编辑,而不需要复杂的遮罩或详细的描述。总的来说,Click2Mask提供了一种直观且高效的...新技术# Click2Mask# 图像编辑2年前04610
新型参考式人类图像补全框架CompleteMe:通过参考图像来补全被遮挡或缺失的人类图像区域,同时保留独特的细节信息加州大学默塞德分校和Adobe Research的研究人员推出新型参考式人类图像补全框架CompleteMe,旨在通过参考图像来补全被遮挡或缺失的人类图像区域,同时保留独特的细节信息,如特定的服装图案...新技术# CompleteMe10个月前04590
FlexGen框架:能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像来自香港科技大学(广州)、香港科技大学和趣玩的研究人员开发了一个名为FlexGen的框架,它能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像。想象一下,你给FlexGen...新技术# FlexGen1年前04590
图像编辑框架InstantDrag:通过简单的拖拽操作来编辑图片,就像在手机上操作APP一样直观和快速首尔国立大学和浦项科技大学的研究人员推出图像编辑框架InstantDrag,它能够让用户通过简单的拖拽操作来编辑图片,就像在手机上操作APP一样直观和快速。例如,你有一张图片,你想要移动图片中的某个部...新技术# InstantDrag# 图像编辑2年前04580
3D纹理生成框架MVPaint:根据文本指令自动生成高分辨率、无缝的3D纹理腾讯PCG、上海人工智能实验室、南洋理工大学S-Lab和清华大学的研究人员推出3D纹理生成框架MVPaint,它能够根据文本指令自动生成高分辨率、无缝的3D纹理。MVPaint通过同步多视图扩散模型来...新技术# 3D纹理生成# MVPaint1年前04560
阿里推出角色视频合成框架MIMO:允许用户对视频中的人物进行替换阿里巴巴智能计算研究院推出MIMO,它能够根据用户提供的简单输入,合成具有可控属性(如角色、动作和场景)的逼真角色视频。简单来说,这项技术能够让用户通过提供一些基本的指令或样本,来创造出一段新的视频...新技术# MIMO# 角色视频合成# 阿里巴巴1年前04560
灵活视觉变换器FiT v2:根据给定的文本描述或已有的图像,生成高质量、高分辨率的新图像自然界的图像具有无穷的分辨率,而现有的扩散模型(如扩散变换器)在处理超出其训练领域的图像分辨率时常常面临挑战。为了解决这一限制,研究人员提出了一种新的视角,将图像概念化为具有动态大小的令牌序列,而不是...新技术# FiT v2# 灵活视觉变换器1年前04550
3D感知图像对齐技术3D Congealing:用于处理捕捉语义相似对象的2D图像集合来自斯坦福大学、谷歌研究、图宾根大学和Stability AI的研究人员推出3D Congealing,这是一种新颖的3D感知图像对齐技术,用于处理捕捉语义相似对象的2D图像集合。 项目主页 论文 简...新技术# 3D Congealing2年前04550