FIND3D模型：在开放世界环境中对3D对象的任何部分进行语义分割

新技术1年前发布小马良

299 0

加州理工学院的研究人员推出FIND3D模型，它能够在开放世界环境中对3D对象的任何部分进行语义分割。这意味着FIND3D可以基于任何文本查询，对任何对象的任何部分进行分割。这项技术在机器人技术、虚拟现实（VR）和增强现实（AR）应用中具有重要意义，因为这些领域需要对3D空间中的对象及其部分进行精确的操作和空间感知。

项目主页：https://ziqi-ma.github.io/find3dsite
GitHub：https://github.com/ziqi-ma/Find3D
Demo：https://huggingface.co/spaces/ziqima/Find3D

例如，如果给定一个3D模型的点云数据，FIND3D能够根据文本提示“汽车的轮子”来识别并分割出汽车的轮子部分。无论这个汽车模型是来自一个标准的数据库还是一个随机的、在野外捕获的图像，FIND3D都能够处理。

主要功能：

开放世界3D部分分割：FIND3D可以在没有任何先验类别限制的情况下，对任何对象的任何部分进行分割。
零样本学习：模型能够在没有看到特定类别对象的情况下，对这些对象进行分割。
多数据集泛化：FIND3D在多个数据集上都有良好的性能，包括在训练时未见过的数据集。

主要特点：

无需人工标注：FIND3D的训练依赖于一个数据引擎，该引擎使用2D基础模型自动从互联网上的3D资产中生成标注。
对比训练方法：通过对比学习目标，FIND3D能够处理标签的歧义和层次结构。
高效性能：FIND3D在推理时比现有的基线方法快6倍至300倍以上。

工作原理：

FIND3D的工作流程包括两个主要部分：

数据引擎：利用2D视觉和语言基础模型（如SAM和Gemini）自动标注3D对象。这些标注数据用于训练一个基于Transformer的3D点云模型。
对比训练：使用对比学习目标来训练模型，使得模型能够将点云中的特征与文本查询的嵌入空间相匹配，从而实现对任何文本查询的分割。

具体应用场景：

机器人技术：在机器人抓取和操作任务中，FIND3D可以帮助机器人识别和定位对象的特定部分。
VR/AR：在虚拟或增强现实环境中，FIND3D可以用于理解和交互3D对象，提供更加自然和直观的用户体验。
3D建模和设计：在3D建模和设计领域，FIND3D可以帮助设计师快速定位和修改模型的特定部分。
野外3D重建：FIND3D能够处理从野外捕获的图像（如iPhone照片）重建的3D模型，为现实世界中的3D数据提供语义分割。

新技术 # FIND3D # 语义分割

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

零样本多模态高保真3D人体纹理生成模型TexDreamer：快速地从文本或图像中生成高保真3D人体纹理

零样本多模态高保真3D人体纹理生成模型TexDreamer：快速地从文本或图像中生成高保真3D人体纹理

新技术 # 3D人体纹理生成模型 # TexDreamer

2年前

09610

自动图形设计构图方法LaDeCo：从多模态图形元素自动组成一个协调、平衡且视觉上令人愉悦的图形设计

自动图形设计构图方法LaDeCo：从多模态图形元素自动组成一个协调、平衡且视觉上令人愉悦的图形设计

新技术 # LaDeCo # 自动图形设计

1年前

02590

图像风格化技术B-LoRA：将单张图片中的风格和内容分离，从而实现高质量的图像风格化处理

图像风格化技术B-LoRA：将单张图片中的风格和内容分离，从而实现高质量的图像风格化处理

新技术 # B-LoRA # 图像风格化

2年前

05760

采用纯视觉方法！专注于GUI映射的大型多模态模型Aria-UI

采用纯视觉方法！专注于GUI映射的大型多模态模型Aria-UI

新技术 # Aria-UI

1年前

02580

暂无评论

none

暂无评论...