对象插入和主体驱动生成是计算机视觉中的两个重要任务,旨在将给定的对象合成到由...
2024-12-16 94

视觉扩散模型(Diffusion Models)在图像和视频生成领域取得了显著进展,但由于缺...
2024-12-16 86

近年来,文本到视频生成技术取得了显著进展,但现有的视频字幕生成方法仍然存在一...
2024-12-16 90

理解、导航和探索三维物理现实世界一直是人工智能(AI)领域的一个核心挑战。传统...
2024-12-16 92

佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架...
2024-12-16 96

浙江大学、斯坦福大学和香港科技大学的研究人员发布论文,主题是关于如何高效地表...
2024-12-16 82

Meta Motivo 是一个创新的行为基础模型,旨在通过一种新的无监督强化学习(RL)算...
2024-12-15 94

尽管带有蒸馏的校正流(ReFlows)为快速采样提供了一种有前景的方法,但其...
2024-12-14 98

南洋理工大学(NTU)S-Lab提出了一种新的图像超分辨率(Super-Resolution, SR)技...
2024-12-14 96

近年来,文本到图像定制技术的进步使得个性化图像的高保真、内容丰富的生成成为可...
2024-12-14 76

开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言...
2024-12-14 90

现有的文本到图像(T2I)扩散模型虽然在生成高质量图像方面表现出色,但面临着几个...
2024-12-14 94
没有账号?注册  忘记密码?