清华大学与 VAST 联合推出 SkinTokens:用离散令牌统一建模 3D 绑定(Rigging)

3D模型2天前发布 小马良
8 0

在生成式 3D 模型快速发展的背景下,绑定(Rigging)——即为静态 3D 模型添加骨骼与蒙皮权重以支持动画——已成为自动化流程中的关键瓶颈。现有方法通常将蒙皮(Skinning)视为一个高维、不适定的连续回归问题,不仅优化效率低,还常与骨骼生成过程脱节,导致结果缺乏语义一致性与动画鲁棒性。

针对这一根本挑战,清华大学VAST 的研究团队提出了一种全新思路:将绑定问题重新定义为表示(Representation)问题,并推出了 SkinTokens —— 一种用于蒙皮权重的学习型、紧凑、离散表示

基于此,团队进一步构建了 TokenRig:一个统一的自回归框架,首次将骨骼生成与蒙皮权重预测联合建模为单一序列生成任务,显著提升了绑定质量与泛化能力。

清华大学与 VAST 联合推出 SkinTokens:用离散令牌统一建模 3D 绑定(Rigging)

核心方法:从回归到序列预测

1. 学习 SkinTokens:离散化蒙皮权重

研究团队设计了一个 FSQ-CVAE(有限标量量化条件变分自编码器),将原本稀疏且高维的蒙皮权重压缩为紧凑的离散令牌序列(即 SkinTokens)。

  • 利用 VecSet 编码器 同时处理网格几何与蒙皮权重;
  • 通过 有限标量量化(FSQ) 实现离散化;
  • 引入 嵌套丢弃(nested dropout) 与 重要性采样,确保对关键变形区域(如关节、手指)的重建鲁棒性。

此举将蒙皮任务从“连续回归”转变为“令牌序列预测”,大幅降低优化难度。

2. 统一自回归建模:TokenRig 框架

TokenRig 使用 Transformer 架构,将整个绑定过程建模为一个统一的序列

  • 序列包含:骨骼参数 + SkinTokens
  • 以 全局形状嵌入(global shape embedding) 为条件,捕捉结构依赖;
  • 自回归生成确保骨骼与蒙皮之间的语义对齐与物理一致性

这是首个将骨骼与蒙皮端到端联合生成的生成式绑定系统。

3. 强化学习精调:提升分布外泛化能力

为应对真实世界中复杂、非标准的 3D 资产(“in-the-wild” models),团队采用 GRPO(Group Relative Policy Optimization) 对模型进行微调,并设计了四项定制奖励函数:

  • 体积关节覆盖率:确保骨骼覆盖主要形变区域;
  • 骨骼-网格包含度:防止骨骼穿透或脱离网格;
  • 蒙皮覆盖率与稀疏性:鼓励局部影响力,避免“渗色”;
  • 变形平滑度:提升动画流畅性。

主要贡献

  • ✅ 提出 SkinTokens:首个用于蒙皮权重的学习型离散表示,将任务转化为序列预测;
  • ✅ 构建 TokenRig:统一的自回归绑定框架,联合生成骨骼与蒙皮;
  • ✅ 引入 基于几何与语义的强化学习奖励机制,显著提升对未见资产的泛化能力。

实验结果:显著超越现有方法

定量性能

  • 蒙皮准确性:比当前最先进方法提升 98%–133%(以 L1 误差衡量);
  • 骨骼预测准确性(倒角距离):提升 17%–22%

定性优势

  • 骨骼生成:基线方法常出现结构缺失、冗余关节或语义错位;TokenRig 则在人形、动物、幻想角色等多样输入上均生成结构连贯、语义合理的骨骼
  • 蒙皮权重:基线方法普遍存在“渗色”(权重溢出至无关区域);TokenRig 生成的影响力图边界清晰、局部聚焦,尤其在手指、面部等精细区域接近真实标注。
  • 泛化能力:在未见过的测试集及复杂野外模型上,仍能稳定输出完整铰接骨骼 + 精确蒙皮,展现强大鲁棒性。
© 版权声明

相关文章

暂无评论

none
暂无评论...