上海科技大学、忆生科技、深度求索(DeepSeek-AI)和香港大学的研究人员推出一个名为“CAD-MLLM”的系统,它旨在实现一个统一的计算机辅助设计(CAD)模型生成系统。该系统能够根据用户的多种输入形式(如文本描述、图像、点云或这些输入的组合)轻松生成CAD模型。
例如,一个用户想要创建一个具有特定形状和尺寸的机械零件,但他可能不擅长使用传统的CAD软件。用户可以通过提供一张零件的图片、一个描述零件特征的文本或者一个零件的点云数据,CAD-MLLM系统能够理解这些输入并生成相应的CAD模型。例如,用户可以上传一张扳手的图片,并提供文本描述:“生成一个具有弯曲头部和长直手柄的扳手CAD模型,手柄末端有一个菱形孔。”系统将能够理解这些信息并创建出精确的CAD模型。
主要功能:
- 多模态输入处理:系统能够处理文本、图像、点云等多种输入形式,并生成相应的CAD模型。
- 参数化CAD模型生成:系统能够生成参数化的CAD模型,这意味着用户可以对生成的模型进行编辑和调整。
- 数据集构建与注释:为了支持模型训练,研究者设计了一个综合的数据构建和注释流程,创建了一个名为Omni-CAD的多模态CAD数据集。
主要特点:
- 统一框架:CAD-MLLM提供了一个统一的框架来处理不同模态的输入,这在以往的研究中是缺失的。
- 预训练的大型语言模型(LLM):系统利用预训练的LLM来对齐不同模态数据和CAD模型的向量表示。
- 鲁棒性:系统在处理噪声和缺失数据时表现出高度的鲁棒性。
工作原理:
CAD-MLLM框架利用CAD模型的命令序列,将这些命令序列向量化,然后使用先进的大型语言模型(LLM)来对齐这些多模态数据和CAD模型的向量表示。系统通过训练一个综合的视觉数据对齐模块、点数据对齐模块和LLM来实现这一目标。在训练过程中,系统逐渐引入不同的模态,并随机组合现有模态,以形成各种多模态输入配置,从而进行全面的训练。
具体应用场景:
- 工业设计和制造:设计师可以使用CAD-MLLM快速生成和修改CAD模型,加速产品开发流程。
- 建筑和工程:工程师可以利用系统从现场照片或地形数据生成精确的CAD图纸。
- 教育和培训:学生和新手可以通过多模态输入学习CAD设计,降低学习曲线。
- 数据修复和补全:在点云数据不完整或有噪声的情况下,系统可以帮助恢复和补全缺失的几何信息。
总的来说,CAD-MLLM通过其创新的多模态输入处理能力和强大的LLM支持,为CAD模型的生成和编辑提供了一个灵活、高效和用户友好的新工具。
评论0