高度一致且可控制运动的图像动画生成方法Cinemo:将一张静态图片转换成一段视频,并且在转换过程中保持图片原有的细节信息
莫纳什大学、上海人工智能实验室和南京邮电大学的研究人员推出Cinemo,它是一种用...
新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力
厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA,它专门设计用于处理高分辨...
基于扩散模型的2D虚拟试穿框架OutfitAnyone:通过上传自己的照片和想要试穿的衣服图片,就能在线看到衣服穿在自己身上的样子
阿里巴巴和中国科学技术大学的研究人员推出新的虚拟试穿技术OutfitAnyone,它是一...
参照音频-视觉分割RefAVS:依据融合了多模态提示(包括音频和视觉描述)的自然语言表达,对视觉场景中的目标物进行分割
中国人民大学、北京邮电大学和上海人工智能实验室的研究人员推出RefAVS(参照音频-...
针对姿势引导的人像图像动画技术TCAN:让图片中的人物根据某个动作序列(比如一个视频)来做出相应的动作
韩国科学技术院和Naver的研究人员推出一种针对姿势引导的人像图像动画技术TCAN,该...
视频增强技术Noise Calibration(噪声校准):使用预训练的视频扩散模型来改善视频质量,同时确保原始视频的内容保持不变
大连理工大学和腾讯AI实验室的研究人员推出视频增强技术“Noise Calibration(噪声...