专为乐高设计的大模型LegoGPT：通过简单的文本输入生成独特的乐高设计

多模态模型10个月前发布小马良

200 0

卡内基梅隆大学的研究团队推出了一款名为 LegoGPT 的AI模型，它能够通过简单的文本输入生成独特的乐高设计。这一工具不仅展示了AI在创意领域的潜力，还为乐高爱好者提供了一个全新的设计方式。

项目主页：https://avalovelace1.github.io/LegoGPT
GitHub：https://github.com/AvaLovelace1/LegoGPT

LegoGPT 是如何工作的？

LegoGPT是基于Llama-3.2-1B-Instruct微调训练的大模型，它通过“下一个标记预测”来逐步生成乐高设计。以下是其工作流程的简要概述：

文本输入转换为积木布局
用户输入一个文本描述（例如，“一辆红色跑车”），LegoGPT 会将其转化为一个初始的乐高积木布局。这个过程基于团队训练的 AI 模型，它能够在保持物体形状的前提下进行优化。
逐步生成积木设计
LegoGPT 使用自回归推理方法，逐一预测并添加所需的积木。每一步都会验证积木的有效性，包括：
- 格式正确性：确保积木符合乐高的标准。
- 无重叠：避免积木之间发生冲突。
- 稳定性检查：确保积木不会“漂浮”或导致结构不稳。
物理感知回滚机制
如果 AI 判断当前设计不稳定，它会回滚到最后一个稳定状态，并从该点重新生成。这种机制确保了最终输出始终是有效且可构建的。
最终输出与注解
设计完成后，AI 会生成详细的构建说明，并为每个步骤配对注解，帮助用户理解文本提示与实际积木之间的关系。

训练数据集：StableText2Lego

LegoGPT 的训练数据集名为 StableText2Lego，包含超过 47,000 个乐高结构，涵盖了 28,000 多个独特的 3D 物体，包括书架、桌子、椅子、汽车、船只、吉他等。以下是数据集创建的过程：

文本到网格转换：将文本提示（如“一张桌子”）转换为 ShapeNetCore 网格，这是一种常用的 3D 模型表示形式。
体素化处理：将网格插入一个 20 x 20 x 20 的体素网格，以确定初始的乐高积木布局。
优化与过滤：在保持整体形状的同时，对布局进行变化，并过滤掉不稳定的设计。剩余的设计从 24 个不同视角 进行渲染。
生成描述：使用 GPT-4o 为最终输出生成详细的描述，帮助 AI 理解文本提示与物理积木之间的关系。

LegoGPT 的亮点功能

1. 从零开始创建设计

LegoGPT 的独特之处在于它可以从零开始生成全新的乐高设计，而不仅仅依赖于现有的模板或数据库。

2. 结合现有积木

你可以拍摄自己拥有的乐高积木照片，然后让 AI 提供多种使用现有积木进行构建的独特选项。这使得工具更加实用且贴近用户需求。

3. 可扩展性

LegoGPT 的代码、数据集和模型均已开源，任何人都可以分叉并改进项目。未来甚至可能有人将其开发成一个可下载的应用程序，并支持自定义积木库。

4. 人类与机器人协作

LegoGPT 的最终输出不仅适合人类构建，还可以被机器人直接执行，为自动化制造提供了可能性。

多模态模型 # LegoGPT # 乐高

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

面壁智能发布 MiniCPM-V 4.5：8B 参数模型实现多模态能力新突破

面壁智能发布 MiniCPM-V 4.5：8B 参数模型实现多模态能力新突破

多模态模型 # MiniCPM-V 4.5 # 面壁智能

7个月前

06090

上海AI实验室发布 Intern-S1-Pro：万亿参数 MoE 多模态科学推理模型

上海AI实验室发布 Intern-S1-Pro：万亿参数 MoE 多模态科学推理模型

多模态模型 # Intern-S1-Pro # 上海AI实验室 # 书生科学多模态大模型

1个月前

0200

IBM 推出 Granite Docling：专为文档转换优化的轻量级多模态模型

IBM 推出 Granite Docling：专为文档转换优化的轻量级多模态模型

多模态模型 # Granite Docling-258M # 多模态模型 # 文档转换

6个月前

01000

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

多模态模型 # Meta # V-JEPA 2 # 世界模型

9个月前

02190

暂无评论

none

暂无评论...