MetaFold：用语言指导机器人叠衣服，还能通用于不同衣物

105 0

让机器人叠衣服，听起来简单，做起来极难。

布料柔软、易变形，同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样，靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖、长袖、裤子……每种衣物的折叠逻辑都不一样。

传统方法通常依赖人工标注关键点或人类演示（如模仿学习），但这类方式泛化能力弱，换一种衣服就得重新训练。

现在，来自新加坡国立大学、新加坡国立大学广州研究院、南京大学、北京大学和上海交通大学的研究团队，提出了一种新框架 MetaFold ——一个能听懂指令、适应多种衣物、实现自动化折叠的机器人系统。

它的核心思路很清晰： 把“想怎么折”和“怎么动手”分开处理。

MetaFold 的创新在于模块化架构：将任务规划（该往哪折）与动作执行（怎么抓、往哪放）解耦，分别由两个独立模块完成。

上层：语言引导的轨迹生成
用户用自然语言下达指令，比如：“先把T恤的左袖子折过来。”
系统结合当前衣物的点云状态和语言描述，生成后续折叠的点云轨迹——也就是衣物在空间中应该变成什么样子。
下层：基于基础模型的动作预测
生成的轨迹输入到 ManiFoundation（一种通用机器人操作基础模型）中，由它预测具体的机器人动作：从哪里接触布料、施加多大力、朝哪个方向移动。
闭环反馈：实时调整
每次动作执行后，系统重新扫描衣物当前状态（通过深度相机获取点云），对比目标轨迹，动态修正下一步操作，形成闭环控制。

这种“规划+执行+反馈”的结构，使系统既能理解语义指令，又能灵活应对布料形变，显著提升了在真实环境中的鲁棒性。

为了支持多类别衣物的学习，研究团队构建了 MetaFold 数据集：

数据在 DiffClothAI 模拟环境中生成，使用启发式算法自动规划合理折叠路径，再添加语言标注。这种方式避免了大量人工标注，同时保证了轨迹的合理性。

可视化显示，系统能准确捕捉不同衣物的折叠阶段：

用户可通过语言指令选择起始状态和目标步骤，系统即刻生成对应轨迹。

在多个测试中，MetaFold 表现出明显优势：

在 MetaFold 数据集上
折叠成功率达 88%，显著高于 UniGarmentManip（71%）和 GPT-Fabric（34%）。
语言泛化能力测试（Cloth3D 数据集）
面对训练中未见过的语言指令，MetaFold 成功率达 97%，而基线方法仅为 47%，显示出强大的语义理解能力。
真实机器人实验
在物理机器人平台上测试，成功率达到 90%，验证了其在现实场景中的可行性。