强调了结构化注释的使用!用于训练复杂图像-文本模型的大规模数据集LAION-SG 浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员推出一个用于训练复杂图像-文本模型的大规模数据集LAION-SG,特别强调了结构化注释的使用。LAION-SG通过提供场景图(Scene ... 新技术# LAION-SG# 数据集 2个月前01230
多视角视频生成新技术SynCamMaster:能够从不同的视点生成同步的、一致性高的动态场景视频 浙江大学、快手科技、清华大学和香港中文大学的研究人员推出一种用于多视角视频生成的技术SynCamMaster,能够从不同的视点生成同步的、一致性高的动态场景视频。这项技术特别适用于虚拟拍摄等应用,它通... 新技术# SynCamMaster# 多视角视频 2个月前01040
用于组合式文生图新框架GraPE:将复杂的多步生成任务分解为三个独立的步骤 文本到图像(T2I)生成任务的目标是从文本提示生成逼真的图像。尽管扩散模型在这一领域取得了显著进展,但现有方法在处理复杂的多步推理和组合性提示时仍面临挑战。特别是,当文本提示包含多个对象及其属性之间的... 新技术# GraPE# 文生图 2个月前01190
ObjCtrl-2.5D:用于图像到视频(I2V)生成中的训练无关对象控制技术 图像到视频(I2V)生成任务的目标是从单张图像生成一段连贯的视频,通常涉及对目标对象进行空间移动或变形。现有的方法大多依赖于2D轨迹来表示对象的运动,这虽然简单但存在局限性: 无法捕捉用户意图:2D轨... 新技术# ObjCtrl-2.5D# 图生视频 2个月前01190
用于主题-风格条件图像生成新技术LoRA.rar:通过使用超网络(hypernetworks)来学习合并内容和风格的LoRAs,从而实现个性化图像的快速生成 三星和帕多瓦大学的研究人员推出一种用于主题-风格条件图像生成技术LoRA.rar,通过使用超网络(hypernetworks)来学习合并内容(subject)和风格(style)的低秩适应参数(LoR... 新技术# LoRA.rar 2个月前01130
专为DiT架构模型设计的运动转移方法DiTFlow 牛津大学、Snap和MBZUAI的研究人员介绍了一种名为DiTFlow的方法,它是一种专为DiT架构模型设计的运动转移方法。DiTFlow通过分析参考视频,提取出一种名为注意力运动流(Attentio... 新技术# DiTFlow# DiT模型 2个月前01120
高通AI研究院推出专为移动设备优化的视频编辑模型MoViE:能够在手机上实现每秒12帧的快速视频编辑 高通AI研究院推出一个专为移动设备优化的视频编辑模型MoViE,能够在手机上实现每秒12帧的快速视频编辑。MoViE通过一系列优化,使得在移动设备上进行视频编辑变得可行,这些优化包括架构优化、轻量级自... 新技术# MoViE# 视频编辑模型# 高通 2个月前01170
高通AI研究院推出一个为移动设备优化的视频生成模型MobileVD 高通AI研究院推出了一个为移动设备优化的视频生成模型Mobile Video Diffusion(MobileVD),该模型的目标是在保持生成视频的质量和控制力的同时,显著降低计算需求,使得在移动设备... 新技术# MobileVD# 视频生成模型 2个月前01120
解决图像生成与编辑任务的统一框架UniReal 图像生成和编辑任务在计算机视觉领域中具有广泛的应用,如图像合成、风格迁移、图像修复等。然而,现有的解决方案通常针对特定任务设计,缺乏一个统一的框架来处理多种图像级任务。香港大学和Adobe Resea... 新技术# UniReal# 图像生成# 图像编辑 2个月前01080
ACDIT:介于自回归模型和扩散模型之间的插值方法,用于处理视觉信息 清华大学和字节跳动的研究人员推出ACDIT,它是一种介于自回归模型和扩散模型之间的插值方法,用于处理视觉信息。ACDIT的核心思想是将自回归建模扩展到块级别,而不是单个文本标记,使得每个块的生成可以基... 新技术# ACDIT 2个月前01170
苹果推出用于文本和图像条件下的视频生成新方法STIV 苹果公司介绍了一个名为STIV(Scalable Text and Image Conditioned Video Generation)的系统,它是一种用于文本和图像条件下的视频生成方法。STIV系... 新技术# STIV# 苹果 2个月前01200
新型文本到图像生成系统NIRVANA:利用近似缓存技术,高效地服务基于扩散模型的文本到图像生成任务 Adobe和伊利诺伊大学厄巴纳-香槟分校的研究人员介绍了一种名为NIRVANA的新型文本到图像生成系统,它利用了一种称为近似缓存(Approximate Caching)的技术,旨在高效地服务基于扩散... 新技术# NIRVANA# 文生图 2个月前01130