清华大学和字节跳动的研究人员推出ACDIT,它是一种介于自回归模型和扩散模型之间的...
1周前 46

苹果公司介绍了一个名为STIV(Scalable Text and Image Conditioned Video Generat...
1周前 42

Adobe和伊利诺伊大学厄巴纳-香槟分校的研究人员介绍了一种名为NIRVANA的新型文本到...
1周前 46

华为诺亚方舟实验室发布多模态大语言模型ILLUME,旨在无缝集成图像和文本的理解与...
1周前 44

香港中文大学、快手科技和浙江大学的研究人员介绍了3DTrajMaster,一个用于多实体3...
1周前 42

近年来,人像动画生成模型在图像和视频领域取得了显著进展,但它们在身份一致性(I...
2周前 46

近年来,扩散模型在图像和视频生成领域取得了显著进展,但在运动迁移任务中,如何...
2周前 44

近年来,3D生成模型在图像和视频领域取得了显著进展,但它们通常依赖于有限规模的3...
2周前 46

近年来,大语言模型(LLMs)在图像理解和生成方面取得了显著进展,尤其是在将图像...
2周前 52

德克萨斯 A&M 大学、Leia和马克斯普朗克信息学研究所的研究人员推出新型方法Pa...
2周前 44

Snap Research、多伦多大学和向量研究所的研究人员推出多事件视频生成框架MinT(Mi...
2周前 44

香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC,旨在实现复...
2周前 46
没有账号?注册  忘记密码?