基于IMUs的面部捕捉系统IMUSIC：适用于多种场景，尤其是在视觉捕捉受限的情况下

500 0

来自上海科技大学、灵秘科技、影眸科技和ElanTech的研究人员推出了一种创新面部捕捉系统 IMUSIC，它基于惯性测量单元（IMUs）来捕捉面部表情，而不是依赖于传统的视觉输入。IMUSIC的设计旨在解决视觉捕捉方法在隐私保护、遮挡敏感性和对复杂光照条件下的局限性。

项目主页

论文

与依赖摄像头的方法不同，IMUs不需要拍摄视频，通过捕捉微小面部动作，来捕捉表情，所以更能保护个人隐私。即使在脸部部分被遮挡的情况下，它也能有效工作。

基于IMUs的面部捕捉系统IMUSIC：适用于多种场景，尤其是在视觉捕捉受限的情况下

主要功能：

使用特制的微型IMUs捕捉面部运动。

提供与视觉信号同步的IMU数据集（IMU-ARKit），用于训练和验证面部表情捕捉模型。

通过Transformer扩散模型，从IMU信号中准确预测面部混合形状参数。

主要特点：

设计了微型IMUs，适合面部应用，强调小型化，以减少对自然面部运动的干扰。

提出了一种基于解剖学驱动的IMU放置方案，以确保捕捉到关键面部肌肉群的运动。

开发了IMU-ARKit数据集，包含了丰富的面部表情和表演的IMU/视觉信号配对。

使用了两阶段训练策略，先使用模拟数据进行预训练，然后使用真实IMU数据进行微调。

工作原理：

硬件设计：设计了微型IMUs，将其放置在面部的关键区域，如颧骨、颊肌和额肌等，以捕捉面部表情。

数据采集：通过IMUs收集面部运动数据，同时使用ARKit记录视觉信号，创建IMU-ARKit数据集。

数据同步与校准：确保所有IMUs的信号同步，并校准以消除头部运动对数据的影响。

面部运动恢复：利用收集到的IMU数据，通过神经网络模型（Transformer扩散模型）预测面部混合形状参数，从而重建面部表情。

应用场景：

隐私保护面部捕捉：在虚拟YouTuber（VTubers）领域，IMUSIC可以用于在不暴露真实身份的情况下捕捉和动画化数字角色的面部表情。

混合捕捉：在录音棚等环境中，当面部被麦克风遮挡时，IMUSIC可以补充ARKit捕捉不到的面部运动，确保音频与面部动画同步。

微小面部运动捕捉：IMUSIC能够捕捉到视觉摄像头难以捕捉的微小面部运动，如轻微的脸颊鼓起，为情感分析提供更丰富的数据。

IMUSIC是一个创新的面部捕捉技术，它通过IMUs提供了一种新的、隐私友好的方式来捕捉和分析面部表情，适用于多种场景，尤其是在视觉捕捉受限的情况下。

文章版权归作者所有，未经允许请勿转载。

华为诺亚方舟实验室推出多模态大语言模型ILLUME

新技术 # ILLUME # 华为诺亚方舟实验室 # 多模态大语言模型

4个月前

01460

新型文本到图像生成系统NIRVANA：利用近似缓存技术，高效地服务基于扩散模型的文本到图像生成任务

新技术 # NIRVANA # 文生图

4个月前

01380

3DTrajMaster：专注于在视频生成中控制多实体的三维（3D）运动轨迹

新技术 # 3DTrajMaster # 3D运动轨迹

4个月前

01300

AI视频生成模型Animated Stickers：让静态表情包动起来

新技术 # AI视频生成模型 # Animated Stickers # 表情包

1年前

04070

暂无评论

暂无评论...

基于IMUs的面部捕捉系统IMUSIC：适用于多种场景，尤其是在视觉捕捉受限的情况下

主要功能：

主要特点：

工作原理：

应用场景：

AI音乐模型Stable Audio：结合文本提示和时间控制长音频生成

AI视频生成系统Direct-a-Video：像导演拍摄视频一样生成视频

相关文章

华为诺亚方舟实验室推出多模态大语言模型ILLUME

新型文本到图像生成系统NIRVANA：利用近似缓存技术，高效地服务基于扩散模型的文本到图像生成任务

3DTrajMaster：专注于在视频生成中控制多实体的三维（3D）运动轨迹

AI视频生成模型Animated Stickers：让静态表情包动起来

暂无评论

文章

新AccVideo：通过知识蒸馏技术，将HunyuanVideo模型生成速度提高了 8.5 倍，同时保持生成质量

卷积重建模型CRM：将一张普通的2D图片转换成一个带有纹理的3D模型

用于从单张图像生成灵活视角 3D 场景的框架FlexWorld：从单张图像生成具有灵活视角（如 360° 旋转和缩放）的高质量 3D 场景

百度宣布文心大模型 4.5 系列将于6月30日起正式开源，并推出多项 AI 开放政策

谷歌开放免费版 Gemini 文件上传及分析功能

豆包“AI编程”功能重大升级：HTML预览、Python运行以及生成完整项目的能力，进一步提升了用户的开发体验

Google AI Studio

Krisp

通义万象

Open ASR 排行榜

Reve Image

Qwen Chat

基于IMUs的面部捕捉系统IMUSIC：适用于多种场景，尤其是在视觉捕捉受限的情况下

主要功能：

主要特点：

工作原理：

应用场景：

AI音乐模型Stable Audio：结合文本提示和时间控制长音频生成

AI视频生成系统Direct-a-Video：像导演拍摄视频一样生成视频

相关文章

文章

标签云

网址

Google AI Studio

Krisp

通义万象

Open ASR 排行榜

Reve Image

Qwen Chat