PixelSmile:复旦与StepFun联手打造,AI表情编辑迎来“微操”时代

图像模型2小时前发布 小马良
3 0

“笑得太假”、“愤怒变成了厌恶”、“改完表情不像本人了”——这些曾是AI人脸编辑难以逾越的鸿沟。如今,复旦大学与StepFun的研究团队共同推出了 PixelSmile,一款基于扩散模型的细粒度面部表情编辑框架。它不仅能精准区分相似表情,还能像调节音量一样连续控制表情强度,同时完美保留人物身份特征,标志着AI表情编辑从“粗放式替换”迈向了“精细化操控”的新阶段。

  • 项目主页:https://ammmob.github.io/PixelSmile
  • GitHub:https://github.com/Ammmob/PixelSmile
  • 模型:https://huggingface.co/PixelSmile/PixelSmile
  • Demo:https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo
PixelSmile:复旦与StepFun联手打造,AI表情编辑迎来“微操”时代

核心突破:解决三大行业痛点

传统的AI表情编辑往往将人类丰富的情感简化为离散的标签(如“开心”、“难过”),导致编辑结果生硬、易混淆且丢失身份。PixelSmile 通过以下三大创新直击痛点:

1. 连续强度调控:告别“非黑即白”

  • 功能:支持从“中性”到“极致夸张”的无级调节。
  • 体验:用户可以像滑动进度条一样,精准控制笑容的深浅(浅笑 → 微笑 → 大笑 → 狂笑),过程自然流畅,无断层感。
  • 技术:基于文本潜在空间插值技术,确保参数变化与视觉强度高度线性相关,操作可预测。

2. 精准语义解耦:不再“张冠李戴”

  • 功能:精准区分易混淆表情对,如恐惧vs惊讶愤怒vs厌恶
  • 效果:编辑“愤怒”时不会意外带入“厌恶”的特征,结构混淆率低至 0.055(远低于同类模型的0.2+)。
  • 技术:采用完全对称联合训练与对比学习,强制模型学习相似表情间的细微差异。

3. 身份完美保留:表情变,人不变

  • 功能:在大幅修改甚至夸张化表情时,牢牢锁定人物的五官轮廓、肤色等核心身份特征。
  • 效果:解决了“修图后认不出是谁”的难题,身份相似度始终保持在合理范围(0.6-0.7)。
  • 技术:引入预训练人脸识别模型作为监督信号,构建身份保留损失机制

技术基石:数据与算法的双重革新

PixelSmile 的强大性能离不开其背后的坚实支撑:

  • FFE 数据集:团队构建了包含 6万张 图片(真人/动漫各半)的 Flex Facial Expression (FFE) 数据集。摒弃传统离散标签,采用 12维连续情感标注,精准记录每种表情的强度及重叠情况(如:恐惧0.8 + 惊讶0.3)。
  • FFE-Bench 评测基准:建立了行业首个专注于细粒度表情编辑的评测标准,涵盖结构混淆、编辑准确性、线性可控性及身份保留权衡四大维度。
  • 扩散模型架构
    • 对称对比训练:通过正负样本互换的对称训练策略,强行解耦相似表情语义。
    • 多任务损失优化:融合强度监督、对称对比、身份保留三重损失,实现多目标最优平衡。

实测表现:全面碾压竞品

在 FFE-Bench 基准测试中,PixelSmile 展现了统治级实力:

指标PixelSmileNano Banana ProGPT-ImageSliderEdit
基础表情准确率86.27%84.31%80.39%-
结构混淆率0.055>0.2>0.2>0.2
线性可控性评分0.8078--<0.6
身份保留度 (平衡最佳)一般一般
用户满意度4.48/5.0---
  • 跨域适配:不仅适用于真人照片,在动漫角色上也表现出同等水平的精准度,支持二次元角色的表情定制。
  • 复合表情生成:支持多表情线性融合,成功生成“惊喜”(开心+惊讶)、“腼腆”(害羞+开心)等自然复合表情,15种组合中9种效果合理。
© 版权声明

相关文章

暂无评论

none
暂无评论...