用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频
东京大学和CyberAgent 人工智能实验室的研究人员推出了一个用于生成同步语音体态...
FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能
韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP,提升预训练视觉和语...
视频插值方法ViBiDSampler:专门用于在两个关键帧之间生成平滑且逼真的中间帧,从而创建流畅的视频过渡效果
韩国科学技术研究院推出视频插值方法ViBiDSampler,这种方法专门用于在两个关键帧...
一种在推理阶段组合定制扩散模型的新方法TweedieMix:用于改进多概念融合在基于扩散的图像和视频生成中的应用
KRAFTON和韩国科学技术研究院AI研究生院的研究人员推出一种在推理阶段组合定制扩散...