开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言...
1周前 44
现有的文本到图像(T2I)扩散模型虽然在生成高质量图像方面表现出色,但面临着几个...
1周前 44
香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig...
1周前 48
Adobe 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen,这是一...
1周前 42
西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)的研究人员推...
1周前 44
香港中文大学、英伟达、上海人工智能实验室、InnoHK和香港理工大学的研究人员推出...
1周前 44
香港科技大学和快手的研究人员推出视频风格化方法StyleMaster,它能够对视频进行艺...
1周前 44
使用预训练的文本到图像(T2I)扩散或流模型编辑真实图像是一项具有挑战性的任务。...
1周前 44
浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员推出一个用于训...
1周前 44
浙江大学、快手科技、清华大学和香港中文大学的研究人员推出一种用于多视角视频生...
1周前 40
文本到图像(T2I)生成任务的目标是从文本提示生成逼真的图像。尽管扩散模型在这一...
1周前 36
图像到视频(I2V)生成任务的目标是从单张图像生成一段连贯的视频,通常涉及对目标...
1周前 40