最近的研究表明,尽管视觉信息被高度压缩,视觉-语言模型(VLMs)依然能在多种任务...
3周前 62

随着对沉浸式 AR/VR 应用和空间智能需求的增加,生成高质量的场景级和 360...
4周前 70

视频换脸技术近年来在各种应用中变得越来越流行,但现有方法主要集中在静态图像上...
4周前 64

字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder...
4周前 64

校正流模型(如 Flux)在图像生成中已成为主导方法,展示了高质量图像合成的卓越能...
4周前 78

多模态音乐生成旨在从多种输入模态(如文本、视频和图像)中生成音乐。尽管现有方...
4周前 78

对象插入和主体驱动生成是计算机视觉中的两个重要任务,旨在将给定的对象合成到由...
4周前 72

视觉扩散模型(Diffusion Models)在图像和视频生成领域取得了显著进展,但由于缺...
4周前 68

近年来,文本到视频生成技术取得了显著进展,但现有的视频字幕生成方法仍然存在一...
4周前 72

理解、导航和探索三维物理现实世界一直是人工智能(AI)领域的一个核心挑战。传统...
4周前 70

佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架...
4周前 80

浙江大学、斯坦福大学和香港科技大学的研究人员发布论文,主题是关于如何高效地表...
4周前 72
没有账号?注册  忘记密码?