卡内基梅隆大学的研究团队推出了一款名为 LegoGPT 的AI模型,它能够通过简单的文本输入生成独特的乐高设计。这一工具不仅展示了AI在创意领域的潜力,还为乐高爱好者提供了一个全新的设计方式。

LegoGPT 是如何工作的?
LegoGPT是基于Llama-3.2-1B-Instruct微调训练的大模型,它通过“下一个标记预测”来逐步生成乐高设计。以下是其工作流程的简要概述:
- 文本输入转换为积木布局
用户输入一个文本描述(例如,“一辆红色跑车”),LegoGPT 会将其转化为一个初始的乐高积木布局。这个过程基于团队训练的 AI 模型,它能够在保持物体形状的前提下进行优化。 - 逐步生成积木设计
LegoGPT 使用自回归推理方法,逐一预测并添加所需的积木。每一步都会验证积木的有效性,包括:- 格式正确性:确保积木符合乐高的标准。
- 无重叠:避免积木之间发生冲突。
- 稳定性检查:确保积木不会“漂浮”或导致结构不稳。
- 物理感知回滚机制
如果 AI 判断当前设计不稳定,它会回滚到最后一个稳定状态,并从该点重新生成。这种机制确保了最终输出始终是有效且可构建的。 - 最终输出与注解
设计完成后,AI 会生成详细的构建说明,并为每个步骤配对注解,帮助用户理解文本提示与实际积木之间的关系。
训练数据集:StableText2Lego
LegoGPT 的训练数据集名为 StableText2Lego,包含超过 47,000 个乐高结构,涵盖了 28,000 多个独特的 3D 物体,包括书架、桌子、椅子、汽车、船只、吉他等。以下是数据集创建的过程:
- 文本到网格转换:将文本提示(如“一张桌子”)转换为 ShapeNetCore 网格,这是一种常用的 3D 模型表示形式。
- 体素化处理:将网格插入一个 20 x 20 x 20 的体素网格,以确定初始的乐高积木布局。
- 优化与过滤:在保持整体形状的同时,对布局进行变化,并过滤掉不稳定的设计。剩余的设计从 24 个不同视角 进行渲染。
- 生成描述:使用 GPT-4o 为最终输出生成详细的描述,帮助 AI 理解文本提示与物理积木之间的关系。
LegoGPT 的亮点功能
1. 从零开始创建设计
LegoGPT 的独特之处在于它可以从零开始生成全新的乐高设计,而不仅仅依赖于现有的模板或数据库。
2. 结合现有积木
你可以拍摄自己拥有的乐高积木照片,然后让 AI 提供多种使用现有积木进行构建的独特选项。这使得工具更加实用且贴近用户需求。
3. 可扩展性
LegoGPT 的代码、数据集和模型均已开源,任何人都可以分叉并改进项目。未来甚至可能有人将其开发成一个可下载的应用程序,并支持自定义积木库。
4. 人类与机器人协作
LegoGPT 的最终输出不仅适合人类构建,还可以被机器人直接执行,为自动化制造提供了可能性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...