微软正在测试一项名为 CopilotPortraits 的新实验性功能,通过引入可动画面孔增强用户在语音交互中的沉浸感。该功能目前面向美国、英国和加拿大部分用户开放,提供 40 个风格化的人类头像,可在实时语音对话中实现自然的面部表情、口型同步与头部动作。
这一更新并非为了娱乐化 AI,而是探索如何让语音助手的交互更具临场感与人性化反馈。

功能核心:让 AI 对话“看得见”
当启用 Portraits 后,用户可在语音模式下看到所选头像随对话动态变化:
- 嘴唇运动与语音节奏匹配;
- 表情随语义调整(如提问时皱眉、回应时微笑);
- 头部轻微摆动,模拟真实交流中的微动作。
用户可以从 40 种预设头像中选择一个,并将其与特定声音组合使用,构建个性化的视觉交互体验。
使用场景示例:
用户:“今天天气怎么样?”
Copilot 头像抬头看向“上方”,略作思考后开口回答,同时嘴唇准确跟随语音输出。
微软表示,此举是为了回应部分用户的反馈——“与一张脸交谈比对着空白界面更自然”。

技术基础:基于 VASA-1 的单图驱动生成
Portraits 的核心技术来自 微软研究院的 VASA-1(Visual Agent Synthesis and Animation),一种用于生成实时视觉 AI 对话的先进模型。
其关键能力包括:
- 仅需一张静态人脸图像即可生成逼真的面部动画;
- 实现高精度唇形同步(lip-sync)与情感化表情控制;
- 支持低延迟响应,适配实时语音交互;
- 无需传统 3D 建模或动作捕捉设备。
这意味着系统可以在消费级设备上运行,而不需要复杂的图形资源支持。
与“Copilot Appearances”的区别
今年 7 月,微软曾推出名为 Copilot Appearances 的功能,允许用户自定义 AI 的视觉形象,但其角色为抽象化的卡通 blob 形态。
| 特性 | Copilot Appearances | Copilot Portraits |
|---|---|---|
| 视觉风格 | 抽象动画角色 | 风格化人类头像 |
| 是否支持表情 | 有限动画 | 自然面部动态 |
| 底层技术 | 简单动画引擎 | VASA-1 单图生成 |
| 交互模式 | 主要配合文本 | 专为语音对话优化 |
Portraits 更聚焦于提升语音交互的自然度,是向多模态 AI 助手演进的重要一步。
安全策略:克制设计 + 使用限制
尽管竞争对手已在推进更具拟人甚至浪漫色彩的 AI 形象(如 xAI 的 Grok 提供受动漫启发的“伴侣”角色,含 NSFW 模式),微软对此类功能采取了更为谨慎的态度。
针对 Portraits,微软实施了多项限制措施:
- 头像均为风格化处理,避免高度写实引发“恐怖谷效应”或过度情感投射;
- 仅限 18 岁及以上用户 访问;
- 设置 每日与会话时间上限,防止沉迷;
- 明确标注“你正在与 AI 互动”,防止误解为真人;
- 当前为小范围灰度测试,未全面推送。
微软在官方博客中强调:“每个头像都经过刻意设计,以提供视觉多样性,同时保留 Copilot 所依赖的可信性与安全性。”
行业背景:AI 虚拟形象竞争升温
Copilot Portraits 的推出紧随多家公司探索 AI 视觉交互的趋势之后:
- xAI 为其 Grok 聊天机器人添加 3D 可视化形象;
- Character.AI 因用户与虚拟角色发展不当关系正面临监管审查;
- Google 和 Amazon 也在内部测试带面部动画的助理原型。
在此背景下,微软的选择显示出一种平衡路径:既不完全回避视觉化 AI,也不急于推向拟真或情感陪伴方向。















