新型框架SplatFlow:用于3D高斯绘制(3DGS)的合成和编辑Twelvelabs和韩国科学技术研究院的研究人员推出新型框架SplatFlow,它用于3D高斯绘制(3D Gaussian Splatting,简称3DGS)的合成和编辑。SplatFlow通过结合...新技术# 3DGS# SplatFlow1年前02820
华中科技大学推出VA-VAE和LightningDiT框架:在不牺牲重建质量的前提下,显著提升生成性能华中科技大学的研究团队聚焦于潜在扩散模型(latent diffusion models)中的优化困境,即视觉分词器(visual tokenizer)中每令牌特征维度的增加虽能提升重建质量,但会降低...新技术# LightningDiT# VA-VAE1年前02810
华为诺亚方舟实验室推出多模态大语言模型ILLUME华为诺亚方舟实验室发布多模态大语言模型ILLUME,旨在无缝集成图像和文本的理解与生成。ILLUME凭借其创新的架构和训练策略,在显著减少预训练所需数据量的同时,达到了最先进的性能。ILLUME基于统...新技术# ILLUME# 华为诺亚方舟实验室# 多模态大语言模型1年前02810
无需训练的视频重新打光方法Light-A-Video:对任意给定的视频序列或前景序列进行平滑且高质量的光照控制上海交通大学、中国科学技术大学、香港中文大学、香港科技大学、斯坦福大学和上海人工智能实验室的研究人员推出Light-A-Video,这是一个无需训练(training-free)的视频重新打光(vid...新技术# Light-A-Video# 重新打光1年前02800
图像编辑框架Edicho:能够在野外环境(即非受控环境)中实现一致性的图像编辑在处理真实场景图像时,实现一致的编辑效果是一个长期存在的技术挑战。这主要由于物体姿态、光照条件和摄影环境等不可控因素的影响。为了应对这些挑战,香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学的研究人员...新技术# Edicho# 图像编辑框架1年前02800
MotionShop:用于视频扩散模型中的零样本(Zero-Shot)运动转移方法,通过混合分数引导(MSG)实现近年来,扩散模型在图像和视频生成领域取得了显著进展,但在运动迁移任务中,如何将一个视频中的运动模式迁移到另一个视频中,同时保持内容的完整性,仍然是一个具有挑战性的问题。传统的运动迁移方法通常依赖于复杂...新技术# MotionShop# MSG1年前02800
新型框架ZipAR:用于加速自回归(AR)视觉生成模型的图像生成过程浙江大学、上海人工智能实验室和阿德莱德大学的研究人员推出新型框架ZipAR,它用于加速自回归(Auto-Regressive,AR)视觉生成模型的图像生成过程。ZipAR的核心思想是利用图像的空间局部...新技术# ZipAR# 自回归视觉生成模型1年前02800
前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象南京大学、中国科学院深圳先进技术研究院、清华大学、腾讯和深圳理工大学的研究人员共同推出了IDOL(Image-based Detailed and Optimized Avatar),这是一个具有快速...新技术# IDOL1年前02790
用于跨模态音频-视频生成的统一框架AV-Link莱斯大学和Snap的研究人员推出统一框架AV-Link,用于跨模态音频-视频生成。AV-Link利用冻结的视频和音频扩散模型的激活来进行时间对齐的跨模态条件生成,这意味着它可以基于视频内容生成与之语义...新技术# AV-Link1年前02780
LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成在图像到视频合成领域,基于拖动交互的方法因其直观性和易用性而受到广泛关注。然而,现有的2D拖动方法在处理物体的平面外运动时存在模糊性,难以精确控制物体在3D空间中的运动轨迹。为了解决这一问题,南京大学...新技术# LeviTor# SVD-XT1年前02780
字节推出新型视觉自回归(VAR)模型Infinity:根据语言指令生成高分辨率、逼真的图像字节跳动的研究团队提出了一种名为Infinity的新方法,该方法在位级标记预测框架下重新定义了视觉自回归(VAR)模型,能够根据语言指令生成高分辨率、逼真的图像。Infinity通过引入无限词汇标记器...新技术# Infinity# 视觉自回归模型1年前02780
图像修复模型ABAIR:在从受到未知退化影响的输入图像中恢复出高质量的图像在图像处理领域,盲目的全功能图像恢复(Blind All-in-One Image Restoration, BAIR)旨在从未知失真退化的输入中恢复高质量的图像。然而,传统方法在训练阶段需要预先定义...新技术# ABAIR模型1年前02780