基于图像扩散先验的深度修复模型DepthLab:从单张图像中生成完整的3D场景香港大学、香港科技大学、蚂蚁集团、阿尔托大学和通义实验室的研究人员推出DepthLab ,它是一个基于图像扩散先验的深度修复模型,用于从单张图像中生成完整的3D场景。DepthLab旨在解决深度数据中...新技术# 3D场景# DepthLab# 深度修复模型1年前03120
新型视频变分自编码器VideoVAE+:实现高保真视频编码随着多媒体内容的增长,学习一个鲁棒的视频变分自编码器(VAE)对于减少视频冗余和促进高效视频生成变得越来越重要。直接将图像VAE应用于单个帧可能会导致时间不一致性和次优压缩率,因为缺乏对时间维度的有效...新技术# VideoVAE+1年前02650
蒸馏解码DD:用于加速自回归(AR)模型在图像和文本生成任务中的采样步骤自回归(AR)模型在文本和图像生成方面取得了显著的进展,但其逐令牌生成的过程导致了速度上的局限性。为了克服这一问题,清华大学和微软研究院的研究人员提出了一项雄心勃勃的任务:能否将预训练的AR模型调整为...新技术# 自回归模型# 蒸馏解码1年前02530
前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象南京大学、中国科学院深圳先进技术研究院、清华大学、腾讯和深圳理工大学的研究人员共同推出了IDOL(Image-based Detailed and Optimized Avatar),这是一个具有快速...新技术# IDOL1年前02730
新型视频建模架构TRecViT:结合了时间序列处理和空间特征提取的优势,以提高视频理解任务的性能Google DeepMind发布一种新型的视频建模架构TRecViT(Temporal Recurrent Video Transformer)。这个架构是一种混合模型,它结合了时间序列处理和空间特...新技术# TRecViT# 视频建模架构1年前03040
类卷积局部注意力策略CLEAR:提升FLUX模型在高分辨率图像生成任务中的效率在图像生成领域,DiT(Diffusion Transformer)架构凭借其卓越的表现成为前沿技术。然而,该架构的核心——用于建模令牌间关系的注意力机制,由于其计算复杂度为二次方,导致在处理高分辨率...新技术# CLEAR# FLUX模型1年前03430
并行自回归视觉生成方法PAR:通过并行生成视觉标记来加速图像和视频的生成过程,同时确保生成质量自回归模型在视觉生成领域表现出色,但其逐个预测token的顺序过程导致了推理速度较慢。为了解决这一问题,香港大学、字节跳动和北京大学的研究人员提出了一种简单而有效的并行自回归视觉生成方法——PAR(P...新技术# PAR1年前03010
超分辨率渲染新技术框架DFASRR:实现任意比例的超分辨率渲染,以实时生成高清晰度图像南京大学计算机软件新技术国家重点实验室的研究人员介绍了一种名为“DFASRR(Deep Fourier-based Arbitrary-scale Super-resolution for Real...新技术# DFASRR# 超分辨率渲染1年前03740
Enhance-A-Video:利用时间注意力温度调整提升DiT架构模型的视频生成质量尽管基于DiT架构模型的视频生成技术取得了显著进展,现有模型在捕捉关键细节方面仍面临挑战。为了提高视频质量,视频增强成为一种直观的方法,其主要目标是: 保持帧间一致性:确保相邻帧之间的视觉和语义一致性...新技术# CogVideoX-2B# DiT架构模型# Enhance-A-Video1年前03920
用于跨模态音频-视频生成的统一框架AV-Link莱斯大学和Snap的研究人员推出统一框架AV-Link,用于跨模态音频-视频生成。AV-Link利用冻结的视频和音频扩散模型的激活来进行时间对齐的跨模态条件生成,这意味着它可以基于视频内容生成与之语义...新技术# AV-Link1年前02740
新型图像编辑框架PixelMan:基于扩散模型,通过像素操作和生成来实现一致性的对象编辑阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型图像编辑框架PixelMan,它基于扩散模型(Diffusion Models, DMs),通过像素操作和生成来实...新技术# PixelMan# 图像编辑1年前03230
无监督指令驱动图像编辑框架UIP2P:在不需要真实编辑图像数据集的情况下,根据文本指令对图像进行编辑现有的基于指令的图像编辑方法通常依赖于监督学习,需要包含输入图像、编辑图像和编辑指令的三元组数据集。这些数据集通常通过现有编辑方法或人工标注生成,引入了偏差并限制了模型的泛化能力。为了克服这些挑战,苏...新技术# UIP2P# 图像编辑1年前03490