“笑得太假”、“愤怒变成了厌恶”、“改完表情不像本人了”——这些曾是AI人脸编辑难以逾越的鸿沟。如今,复旦大学与StepFun的研究团队共同推出了 PixelSmile,一款基于扩散模型的细粒度面部表情编辑框架。它不仅能精准区分相似表情,还能像调节音量一样连续控制表情强度,同时完美保留人物身份特征,标志着AI表情编辑从“粗放式替换”迈向了“精细化操控”的新阶段。
- 项目主页:https://ammmob.github.io/PixelSmile
- GitHub:https://github.com/Ammmob/PixelSmile
- 模型:https://huggingface.co/PixelSmile/PixelSmile
- Demo:https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo
核心突破:解决三大行业痛点
传统的AI表情编辑往往将人类丰富的情感简化为离散的标签(如“开心”、“难过”),导致编辑结果生硬、易混淆且丢失身份。PixelSmile 通过以下三大创新直击痛点:
1. 连续强度调控:告别“非黑即白”
- 功能:支持从“中性”到“极致夸张”的无级调节。
- 体验:用户可以像滑动进度条一样,精准控制笑容的深浅(浅笑 → 微笑 → 大笑 → 狂笑),过程自然流畅,无断层感。
- 技术:基于文本潜在空间插值技术,确保参数变化与视觉强度高度线性相关,操作可预测。
2. 精准语义解耦:不再“张冠李戴”
- 功能:精准区分易混淆表情对,如恐惧vs惊讶、愤怒vs厌恶。
- 效果:编辑“愤怒”时不会意外带入“厌恶”的特征,结构混淆率低至 0.055(远低于同类模型的0.2+)。
- 技术:采用完全对称联合训练与对比学习,强制模型学习相似表情间的细微差异。
3. 身份完美保留:表情变,人不变
- 功能:在大幅修改甚至夸张化表情时,牢牢锁定人物的五官轮廓、肤色等核心身份特征。
- 效果:解决了“修图后认不出是谁”的难题,身份相似度始终保持在合理范围(0.6-0.7)。
- 技术:引入预训练人脸识别模型作为监督信号,构建身份保留损失机制。
技术基石:数据与算法的双重革新
PixelSmile 的强大性能离不开其背后的坚实支撑:
- FFE 数据集:团队构建了包含 6万张 图片(真人/动漫各半)的 Flex Facial Expression (FFE) 数据集。摒弃传统离散标签,采用 12维连续情感标注,精准记录每种表情的强度及重叠情况(如:恐惧0.8 + 惊讶0.3)。
- FFE-Bench 评测基准:建立了行业首个专注于细粒度表情编辑的评测标准,涵盖结构混淆、编辑准确性、线性可控性及身份保留权衡四大维度。
- 扩散模型架构:
- 对称对比训练:通过正负样本互换的对称训练策略,强行解耦相似表情语义。
- 多任务损失优化:融合强度监督、对称对比、身份保留三重损失,实现多目标最优平衡。
实测表现:全面碾压竞品
在 FFE-Bench 基准测试中,PixelSmile 展现了统治级实力:
| 指标 | PixelSmile | Nano Banana Pro | GPT-Image | SliderEdit |
|---|---|---|---|---|
| 基础表情准确率 | 86.27% | 84.31% | 80.39% | - |
| 结构混淆率 | 0.055 | >0.2 | >0.2 | >0.2 |
| 线性可控性评分 | 0.8078 | - | - | <0.6 |
| 身份保留度 | 优 (平衡最佳) | 一般 | 差 | 一般 |
| 用户满意度 | 4.48/5.0 | - | - | - |
- 跨域适配:不仅适用于真人照片,在动漫角色上也表现出同等水平的精准度,支持二次元角色的表情定制。
- 复合表情生成:支持多表情线性融合,成功生成“惊喜”(开心+惊讶)、“腼腆”(害羞+开心)等自然复合表情,15种组合中9种效果合理。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...









