微软亚洲研究院推出新框架VASA-1:基于一张静态图片和一个语音音频片段,实时生成逼真的会说话的面孔 微软亚洲研究院推出新框架VASA-1,它可以根据单张静态图像和语音音频片段,生成具有吸引力的视觉情感技能(VAS)的虚拟角色栩栩如生的说话面孔。这个技术的核心在于它能够精确地捕捉到人脸的微妙动态和头部... 新技术# VASA-1 10个月前03470