EchoMimicV3:用一个13亿参数模型,统一处理音频、文本、图像驱动的人体动画你是否想象过这样的场景? 输入一段语音,AI 自动生成人物说话的视频,唇形精准对齐,表情自然生动; 给一张静态肖像,加上一句“他开始微笑并挥手”,画面立刻动起来; 结合提示词和参考图,生成一段人物动作...视频模型# EchoMimicV3# 人体动画4个月前01950