阿里EMO 模型上线通义千问APP,用照片 + 音频生成唱歌视频

阿里巴巴在今年2月份就公开了创新框架EMO,它是一个能够根据音频生成表情丰富的肖像视频的系统。你只需要提供一张静态的照片和一段语音,EMO就能创造出一个视频,视频中的人物头像会根据语音的内容和情感变化做出相应的表情和头部动作,就像真人在说话或唱歌一样。阿里巴巴虽然在当时公开了论文,但迟迟没有公开代码,这让大家怀疑阿里是否要开源?

而在4月25日,EMO终于上线通义千问APP,开放给所有用户免费使用。打开通义APP,进入“全民舞台”频道,就可来到EMO产品页面“全民唱演”。在歌曲、热梗、表情包中任选一款模板,上传肖像照片,EMO随即就能合成视频。

通义 App 首批上线了 80 多个 EMO 模板,包括热门歌曲《上春山》《野狼 Disco》等,还有网络热梗“钵钵鸡”“回手掏”等,但目前暂未不开放自定义音频。从目前生成视频来看,效果非常好,不过目前使用人数比较多,生成所需时间比较长。

相关:

0

评论0

没有账号?注册  忘记密码?