清华大学与 VAST 联合推出 SkinTokens：用离散令牌统一建模 3D 绑定（Rigging）

58 0

在生成式 3D 模型快速发展的背景下，绑定（Rigging）——即为静态 3D 模型添加骨骼与蒙皮权重以支持动画——已成为自动化流程中的关键瓶颈。现有方法通常将蒙皮（Skinning）视为一个高维、不适定的连续回归问题，不仅优化效率低，还常与骨骼生成过程脱节，导致结果缺乏语义一致性与动画鲁棒性。

针对这一根本挑战，清华大学与 VAST 的研究团队提出了一种全新思路：将绑定问题重新定义为表示（Representation）问题，并推出了 SkinTokens —— 一种用于蒙皮权重的学习型、紧凑、离散表示。

项目主页：https://zjp-shadow.github.io/works/SkinTokens

基于此，团队进一步构建了 TokenRig：一个统一的自回归框架，首次将骨骼生成与蒙皮权重预测联合建模为单一序列生成任务，显著提升了绑定质量与泛化能力。

清华大学与 VAST 联合推出 SkinTokens：用离散令牌统一建模 3D 绑定（Rigging）

核心方法：从回归到序列预测

1. 学习 SkinTokens：离散化蒙皮权重

研究团队设计了一个 FSQ-CVAE（有限标量量化条件变分自编码器），将原本稀疏且高维的蒙皮权重压缩为紧凑的离散令牌序列（即 SkinTokens）。

利用 VecSet 编码器 同时处理网格几何与蒙皮权重；
通过 有限标量量化（FSQ） 实现离散化；
引入 嵌套丢弃（nested dropout） 与 重要性采样，确保对关键变形区域（如关节、手指）的重建鲁棒性。

此举将蒙皮任务从“连续回归”转变为“令牌序列预测”，大幅降低优化难度。

2. 统一自回归建模：TokenRig 框架

TokenRig 使用 Transformer 架构，将整个绑定过程建模为一个统一的序列：

序列包含：骨骼参数 + SkinTokens；
以 全局形状嵌入（global shape embedding） 为条件，捕捉结构依赖；
自回归生成确保骨骼与蒙皮之间的语义对齐与物理一致性。

这是首个将骨骼与蒙皮端到端联合生成的生成式绑定系统。

3. 强化学习精调：提升分布外泛化能力

为应对真实世界中复杂、非标准的 3D 资产（“in-the-wild” models），团队采用 GRPO（Group Relative Policy Optimization） 对模型进行微调，并设计了四项定制奖励函数：

体积关节覆盖率：确保骨骼覆盖主要形变区域；
骨骼-网格包含度：防止骨骼穿透或脱离网格；
蒙皮覆盖率与稀疏性：鼓励局部影响力，避免“渗色”；
变形平滑度：提升动画流畅性。

主要贡献

✅ 提出 SkinTokens：首个用于蒙皮权重的学习型离散表示，将任务转化为序列预测；
✅ 构建 TokenRig：统一的自回归绑定框架，联合生成骨骼与蒙皮；
✅ 引入 基于几何与语义的强化学习奖励机制，显著提升对未见资产的泛化能力。

实验结果：显著超越现有方法

定量性能

蒙皮准确性：比当前最先进方法提升 98%–133%（以 L1 误差衡量）；
骨骼预测准确性（倒角距离）：提升 17%–22%。

定性优势

骨骼生成：基线方法常出现结构缺失、冗余关节或语义错位；TokenRig 则在人形、动物、幻想角色等多样输入上均生成结构连贯、语义合理的骨骼。
蒙皮权重：基线方法普遍存在“渗色”（权重溢出至无关区域）；TokenRig 生成的影响力图边界清晰、局部聚焦，尤其在手指、面部等精细区域接近真实标注。
泛化能力：在未见过的测试集及复杂野外模型上，仍能稳定输出完整铰接骨骼 + 精确蒙皮，展现强大鲁棒性。