专为乐高设计的大模型LegoGPT:通过简单的文本输入生成独特的乐高设计

卡内基梅隆大学的研究团队推出了一款名为 LegoGPT 的AI模型,它能够通过简单的文本输入生成独特的乐高设计。这一工具不仅展示了AI在创意领域的潜力,还为乐高爱好者提供了一个全新的设计方式。

专为乐高设计的大模型LegoGPT:通过简单的文本输入生成独特的乐高设计

LegoGPT 是如何工作的?

LegoGPT是基于Llama-3.2-1B-Instruct微调训练的大模型,它通过“下一个标记预测”来逐步生成乐高设计。以下是其工作流程的简要概述:

  1. 文本输入转换为积木布局
    用户输入一个文本描述(例如,“一辆红色跑车”),LegoGPT 会将其转化为一个初始的乐高积木布局。这个过程基于团队训练的 AI 模型,它能够在保持物体形状的前提下进行优化。
  2. 逐步生成积木设计
    LegoGPT 使用自回归推理方法,逐一预测并添加所需的积木。每一步都会验证积木的有效性,包括:

    • 格式正确性:确保积木符合乐高的标准。
    • 无重叠:避免积木之间发生冲突。
    • 稳定性检查:确保积木不会“漂浮”或导致结构不稳。
  3. 物理感知回滚机制
    如果 AI 判断当前设计不稳定,它会回滚到最后一个稳定状态,并从该点重新生成。这种机制确保了最终输出始终是有效且可构建的。
  4. 最终输出与注解
    设计完成后,AI 会生成详细的构建说明,并为每个步骤配对注解,帮助用户理解文本提示与实际积木之间的关系。

训练数据集:StableText2Lego

LegoGPT 的训练数据集名为 StableText2Lego,包含超过 47,000 个乐高结构,涵盖了 28,000 多个独特的 3D 物体,包括书架、桌子、椅子、汽车、船只、吉他等。以下是数据集创建的过程:

  1. 文本到网格转换:将文本提示(如“一张桌子”)转换为 ShapeNetCore 网格,这是一种常用的 3D 模型表示形式。
  2. 体素化处理:将网格插入一个 20 x 20 x 20 的体素网格,以确定初始的乐高积木布局。
  3. 优化与过滤:在保持整体形状的同时,对布局进行变化,并过滤掉不稳定的设计。剩余的设计从 24 个不同视角 进行渲染。
  4. 生成描述:使用 GPT-4o 为最终输出生成详细的描述,帮助 AI 理解文本提示与物理积木之间的关系。

LegoGPT 的亮点功能

1. 从零开始创建设计

LegoGPT 的独特之处在于它可以从零开始生成全新的乐高设计,而不仅仅依赖于现有的模板或数据库。

2. 结合现有积木

你可以拍摄自己拥有的乐高积木照片,然后让 AI 提供多种使用现有积木进行构建的独特选项。这使得工具更加实用且贴近用户需求。

3. 可扩展性

LegoGPT 的代码、数据集和模型均已开源,任何人都可以分叉并改进项目。未来甚至可能有人将其开发成一个可下载的应用程序,并支持自定义积木库。

4. 人类与机器人协作

LegoGPT 的最终输出不仅适合人类构建,还可以被机器人直接执行,为自动化制造提供了可能性。

© 版权声明

相关文章

暂无评论

none
暂无评论...