微软为 Copilot 推出“Portraits”功能:语音对话中加入动态头像

早报2个月前发布 小马良
160 0

微软正在测试一项名为 CopilotPortraits 的新实验性功能,通过引入可动画面孔增强用户在语音交互中的沉浸感。该功能目前面向美国、英国和加拿大部分用户开放,提供 40 个风格化的人类头像,可在实时语音对话中实现自然的面部表情、口型同步与头部动作。

这一更新并非为了娱乐化 AI,而是探索如何让语音助手的交互更具临场感与人性化反馈。

微软为 Copilot 推出“Portraits”功能:语音对话中加入动态头像

功能核心:让 AI 对话“看得见”

当启用 Portraits 后,用户可在语音模式下看到所选头像随对话动态变化:

  • 嘴唇运动与语音节奏匹配;
  • 表情随语义调整(如提问时皱眉、回应时微笑);
  • 头部轻微摆动,模拟真实交流中的微动作。

用户可以从 40 种预设头像中选择一个,并将其与特定声音组合使用,构建个性化的视觉交互体验。

使用场景示例:

用户:“今天天气怎么样?”
Copilot 头像抬头看向“上方”,略作思考后开口回答,同时嘴唇准确跟随语音输出。

微软表示,此举是为了回应部分用户的反馈——“与一张脸交谈比对着空白界面更自然”。

微软为 Copilot 推出“Portraits”功能:语音对话中加入动态头像

技术基础:基于 VASA-1 的单图驱动生成

Portraits 的核心技术来自 微软研究院的 VASA-1(Visual Agent Synthesis and Animation),一种用于生成实时视觉 AI 对话的先进模型。

微软亚洲研究院推出新框架VASA-1

其关键能力包括:

  • 仅需一张静态人脸图像即可生成逼真的面部动画;
  • 实现高精度唇形同步(lip-sync)与情感化表情控制;
  • 支持低延迟响应,适配实时语音交互;
  • 无需传统 3D 建模或动作捕捉设备。

这意味着系统可以在消费级设备上运行,而不需要复杂的图形资源支持。

与“Copilot Appearances”的区别

今年 7 月,微软曾推出名为 Copilot Appearances 的功能,允许用户自定义 AI 的视觉形象,但其角色为抽象化的卡通 blob 形态。

特性Copilot AppearancesCopilot Portraits
视觉风格抽象动画角色风格化人类头像
是否支持表情有限动画自然面部动态
底层技术简单动画引擎VASA-1 单图生成
交互模式主要配合文本专为语音对话优化

Portraits 更聚焦于提升语音交互的自然度,是向多模态 AI 助手演进的重要一步。

安全策略:克制设计 + 使用限制

尽管竞争对手已在推进更具拟人甚至浪漫色彩的 AI 形象(如 xAI 的 Grok 提供受动漫启发的“伴侣”角色,含 NSFW 模式),微软对此类功能采取了更为谨慎的态度。

针对 Portraits,微软实施了多项限制措施:

  • 头像均为风格化处理,避免高度写实引发“恐怖谷效应”或过度情感投射;
  • 仅限 18 岁及以上用户 访问;
  • 设置 每日与会话时间上限,防止沉迷;
  • 明确标注“你正在与 AI 互动”,防止误解为真人;
  • 当前为小范围灰度测试,未全面推送。

微软在官方博客中强调:“每个头像都经过刻意设计,以提供视觉多样性,同时保留 Copilot 所依赖的可信性与安全性。”

行业背景:AI 虚拟形象竞争升温

Copilot Portraits 的推出紧随多家公司探索 AI 视觉交互的趋势之后:

  • xAI 为其 Grok 聊天机器人添加 3D 可视化形象;
  • Character.AI 因用户与虚拟角色发展不当关系正面临监管审查;
  • Google 和 Amazon 也在内部测试带面部动画的助理原型。

在此背景下,微软的选择显示出一种平衡路径:既不完全回避视觉化 AI,也不急于推向拟真或情感陪伴方向。

© 版权声明

相关文章

暂无评论

none
暂无评论...