PixelSmile：复旦与StepFun联手打造，AI表情编辑迎来“微操”时代

“笑得太假”、“愤怒变成了厌恶”、“改完表情不像本人了”——这些曾是AI人脸编辑难以逾越的鸿沟。如今，复旦大学与StepFun的研究团队共同推出了 PixelSmile，一款基于扩散模型的细粒度面部表情编辑框架。它不仅能精准区分相似表情，还能像调节音量一样连续控制表情强度，同时完美保留人物身份特征，标志着AI表情编辑从“粗放式替换”迈向了“精细化操控”的新阶段。

项目主页：https://ammmob.github.io/PixelSmile
GitHub：https://github.com/Ammmob/PixelSmile
模型：https://huggingface.co/PixelSmile/PixelSmile
Demo：https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo

PixelSmile：复旦与StepFun联手打造，AI表情编辑迎来“微操”时代

核心突破：解决三大行业痛点

传统的AI表情编辑往往将人类丰富的情感简化为离散的标签（如“开心”、“难过”），导致编辑结果生硬、易混淆且丢失身份。PixelSmile 通过以下三大创新直击痛点：

1. 连续强度调控：告别“非黑即白”

功能：支持从“中性”到“极致夸张”的无级调节。
体验：用户可以像滑动进度条一样，精准控制笑容的深浅（浅笑 → 微笑 → 大笑 → 狂笑），过程自然流畅，无断层感。
技术：基于文本潜在空间插值技术，确保参数变化与视觉强度高度线性相关，操作可预测。

2. 精准语义解耦：不再“张冠李戴”

功能：精准区分易混淆表情对，如恐惧vs惊讶、愤怒vs厌恶。
效果：编辑“愤怒”时不会意外带入“厌恶”的特征，结构混淆率低至 0.055（远低于同类模型的0.2+）。
技术：采用完全对称联合训练与对比学习，强制模型学习相似表情间的细微差异。

3. 身份完美保留：表情变，人不变

功能：在大幅修改甚至夸张化表情时，牢牢锁定人物的五官轮廓、肤色等核心身份特征。
效果：解决了“修图后认不出是谁”的难题，身份相似度始终保持在合理范围（0.6-0.7）。
技术：引入预训练人脸识别模型作为监督信号，构建身份保留损失机制。

技术基石：数据与算法的双重革新

PixelSmile 的强大性能离不开其背后的坚实支撑：

FFE 数据集：团队构建了包含 6万张 图片（真人/动漫各半）的 Flex Facial Expression (FFE) 数据集。摒弃传统离散标签，采用 12维连续情感标注，精准记录每种表情的强度及重叠情况（如：恐惧0.8 + 惊讶0.3）。
FFE-Bench 评测基准：建立了行业首个专注于细粒度表情编辑的评测标准，涵盖结构混淆、编辑准确性、线性可控性及身份保留权衡四大维度。
扩散模型架构：
- 对称对比训练：通过正负样本互换的对称训练策略，强行解耦相似表情语义。
- 多任务损失优化：融合强度监督、对称对比、身份保留三重损失，实现多目标最优平衡。

实测表现：全面碾压竞品

在 FFE-Bench 基准测试中，PixelSmile 展现了统治级实力：

指标	PixelSmile	Nano Banana Pro	GPT-Image	SliderEdit
基础表情准确率	86.27%	84.31%	80.39%	-
结构混淆率	0.055	>0.2	>0.2	>0.2
线性可控性评分	0.8078	-	-	<0.6
身份保留度	优 (平衡最佳)	一般	差	一般
用户满意度	4.48/5.0	-	-	-