基准测试CommonsensenT2I:用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力
宾夕法尼亚大学和加州大学圣塔芭芭拉分校的研究人员推出基准测试CommonsensenT2I,...
新型图像压缩技术CMC(模态压缩):利用大型多模态模型来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像的大小
上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”(C...
扩散模型中“幻觉”(hallucinations)现象:生成了一些在训练数据中从未出现过的样本
卡内基梅隆大学和DatalogyAI的研究人员发布论文探讨扩散模型(diffusion models)...
文生图模型偏好优化方法MaPO(边界感知偏好优化):让计算机在学习生成图像时,能够更好地符合人类的偏好
韩国科学技术研究院、Huggingface和高丽大学的研究人员推出一种新的文本到图像扩散...
新型文本到视频生成框架VideoTetris:专门设计来解决现有方法在处理复杂场景(如多对象或对象数量动态变化的长视频)生成时面临的挑战
来自北京大学和快手科技的研究人员推出新型文本到视频生成框架VideoTetris,此框架...