新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

SAMPart3D：可扩展的零样本3D部件分割框架

3D部件分割是3D感知中的一项关键任务，在机器人、3D生成和3D编辑等应用中发挥着重要作用。最近的方法利用强大的视觉语言模型（VLMs）进行2D到3D的知识蒸馏，实现了零样本的3D部件分割。然而，这些...

新技术 # 3D部件分割框架 # SAMPart3D

1年前

04620

Compress3D：从单张图片生成三维模型

来自西安交通大学的研究团队推出Compress3D，它是一种从单张图片生成三维模型的方法。想象一下，你有一张你最喜欢的动漫角色的图片，你想在虚拟现实游戏中使用这个角色的三维模型。传统上，这需要3D艺术...

新技术 # Compress3D # 三维模型

2年前

04620

Visual SKETCHPAD 框架：为多模态语言模型提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理

华盛顿大学、艾伦人工智能研究所和宾夕法尼亚大学的研究人员推出Visual SKETCHPAD 框架，为多模态语言模型（LMs）提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理。这...

新技术 # Visual SKETCHPAD # 多模态语言模型 # 草图板

11个月前

04610

半策略偏好优化方法SePPO：用于优化和微调文生图模型，使其更好地符合人类的审美和偏好

罗切斯特大学、普渡大学、延世大学、腾讯 AI 实验室和华盛顿大学的研究人员推出半策略偏好优化方法SePPO，用于优化和微调扩散模型（如用于生成图像的模型），使其更好地符合人类的审美和偏好，而无需依赖外...

新技术 # SePPO # 半策略偏好优化 # 文生图模型

1年前

04610

图像编辑方法Click2Mask：通过简单的点击来实现对图片的局部编辑，而不需要复杂的遮罩或详细的描述

耶路撒冷希伯来大学的研究人员推出图像编辑方法Click2Mask，它能够让用户通过简单的点击来实现对图片的局部编辑，而不需要复杂的遮罩或详细的描述。总的来说，Click2Mask提供了一种直观且高效的...

新技术 # Click2Mask # 图像编辑

2年前

04610

新型参考式人类图像补全框架CompleteMe：通过参考图像来补全被遮挡或缺失的人类图像区域，同时保留独特的细节信息

加州大学默塞德分校和Adobe Research的研究人员推出新型参考式人类图像补全框架CompleteMe，旨在通过参考图像来补全被遮挡或缺失的人类图像区域，同时保留独特的细节信息，如特定的服装图案...

新技术 # CompleteMe

10个月前

04590

FlexGen框架：能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像

来自香港科技大学（广州）、香港科技大学和趣玩的研究人员开发了一个名为FlexGen的框架，它能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像。想象一下，你给FlexGen...

新技术 # FlexGen

1年前

04590

图像编辑框架InstantDrag：通过简单的拖拽操作来编辑图片，就像在手机上操作APP一样直观和快速

首尔国立大学和浦项科技大学的研究人员推出图像编辑框架InstantDrag，它能够让用户通过简单的拖拽操作来编辑图片，就像在手机上操作APP一样直观和快速。例如，你有一张图片，你想要移动图片中的某个部...

新技术 # InstantDrag # 图像编辑

2年前

04580

3D纹理生成框架MVPaint：根据文本指令自动生成高分辨率、无缝的3D纹理

腾讯PCG、上海人工智能实验室、南洋理工大学S-Lab和清华大学的研究人员推出3D纹理生成框架MVPaint，它能够根据文本指令自动生成高分辨率、无缝的3D纹理。MVPaint通过同步多视图扩散模型来...

新技术 # 3D纹理生成 # MVPaint

1年前

04560

阿里推出角色视频合成框架MIMO：允许用户对视频中的人物进行替换

阿里巴巴智能计算研究院推出MIMO，它能够根据用户提供的简单输入，合成具有可控属性（如角色、动作和场景）的逼真角色视频。简单来说，这项技术能够让用户通过提供一些基本的指令或样本，来创造出一段新的视频...

新技术 # MIMO # 角色视频合成 # 阿里巴巴

1年前

04560

灵活视觉变换器FiT v2：根据给定的文本描述或已有的图像，生成高质量、高分辨率的新图像

自然界的图像具有无穷的分辨率，而现有的扩散模型（如扩散变换器）在处理超出其训练领域的图像分辨率时常常面临挑战。为了解决这一限制，研究人员提出了一种新的视角，将图像概念化为具有动态大小的令牌序列，而不是...

新技术 # FiT v2 # 灵活视觉变换器

1年前

04550

3D感知图像对齐技术3D Congealing：用于处理捕捉语义相似对象的2D图像集合

来自斯坦福大学、谷歌研究、图宾根大学和Stability AI的研究人员推出3D Congealing，这是一种新颖的3D感知图像对齐技术，用于处理捕捉语义相似对象的2D图像集合。项目主页论文简...

新技术 # 3D Congealing

2年前

04550

加载更多

SAMPart3D：可扩展的零样本3D部件分割框架

Compress3D：从单张图片生成三维模型

Visual SKETCHPAD 框架：为多模态语言模型提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理

半策略偏好优化方法SePPO：用于优化和微调文生图模型，使其更好地符合人类的审美和偏好

图像编辑方法Click2Mask：通过简单的点击来实现对图片的局部编辑，而不需要复杂的遮罩或详细的描述

新型参考式人类图像补全框架CompleteMe：通过参考图像来补全被遮挡或缺失的人类图像区域，同时保留独特的细节信息

FlexGen框架：能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像

图像编辑框架InstantDrag：通过简单的拖拽操作来编辑图片，就像在手机上操作APP一样直观和快速

3D纹理生成框架MVPaint：根据文本指令自动生成高分辨率、无缝的3D纹理

阿里推出角色视频合成框架MIMO：允许用户对视频中的人物进行替换

灵活视觉变换器FiT v2：根据给定的文本描述或已有的图像，生成高质量、高分辨率的新图像

3D感知图像对齐技术3D Congealing：用于处理捕捉语义相似对象的2D图像集合

新悟空

新OpenMAIC

S.H.I.T

Meshy

CutCut

Joker of Academics（小丑学术期刊）

新技术

网址

新悟空

新OpenMAIC

S.H.I.T

Meshy

CutCut

Joker of Academics（小丑学术期刊 ）

Joker of Academics（小丑学术期刊）