视觉条件多视图扩散模型See3D:通过大规模互联网视频数据进行训练,从而实现开放世界的3D创作近年来,3D生成模型在图像和视频领域取得了显著进展,但它们通常依赖于有限规模的3D“黄金标签”或2D扩散先验来进行3D内容创作。这种依赖性限制了模型的性能,因为现有的3D数据集规模较小且标注成本高昂...新技术# See3D# 多视图扩散模型1年前03040
腾讯推出新型视频分词器Divot:统一视频的理解和生成近年来,大语言模型(LLMs)在图像理解和生成方面取得了显著进展,尤其是在将图像编码为离散标记并结合LLMs进行多模态任务时。然而,将这一成功扩展到视频领域面临着更大的挑战,因为视频不仅包含空间信息...新技术# Divot# 视频分词器1年前03150
PanoDreamer:从单一图像生成360°的3D全景场景德克萨斯 A&M 大学、Leia和马克斯普朗克信息学研究所的研究人员推出新型方法PanoDreamer,它能够从单一图像生成360°的3D全景场景。这种方法的核心在于它不是顺序地生成场景,而是...新技术# 3D全景场景# PanoDreamer1年前02600
多事件视频生成框架MinT:根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列Snap Research、多伦多大学和向量研究所的研究人员推出多事件视频生成框架MinT(Mind the Time),它能够根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列。MinT...新技术# MinT# 多事件视频生成1年前02600
多代理协作框架GENMAC:实现复杂的文本到视频生成,特别是针对组合性文本提示的生成香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC,旨在实现复杂的文本到视频生成,特别是针对组合性文本提示的生成。传统的文本到视频生成模型在处理复杂场景时常常面临挑战,例如多个对象...新技术# GENMAC# 文生视频1年前02790
图像编辑工具SwiftEdit:通过简单的文本提示实现快速的图像编辑VinAI 研究中心、越南科技大学邮电研究所的研究人员推出图像编辑工具SwiftEdit,它能够通过简单的文本提示实现快速的图像编辑。SwiftEdit的核心优势在于其极速的编辑能力,能够在0.23秒...新技术# SwiftEdit# 图像编辑1年前03050
Golden Noise:将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”香港科技大学(广州)、穆罕默德·本·扎耶德人工智能大学和香港浸会大学的研究人员推出一种名为“Golden Noise for Diffusion Models”的学习框架,旨在提高文生图模型的性能。这...新技术# Golden Noise# 黄金噪声1年前03800
MEMO:用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术天工 AI、南洋理工大学和新加坡国立大学的研究人员提出了MEMO(Memory-Guided Emotion-Aware Diffusion),这是一种端到端的音频驱动肖像动画方法,旨在生成身份一致且...新技术# MEMO# 肖像动画1年前03450
LumiNet:利用生成模型和潜在内在表示进行有效光照传输的新架构博世和芝加哥丰田技术研究所的研究人员提出了LumiNet,这是一种创新的光照传输架构,旨在给定一个源图像和一个目标光照图像的情况下,合成一个捕捉目标光照的源场景重照明版本。LumiNet通过两个关键贡...新技术# LumiNet# 光照1年前02690
端到端的训练框架Mimir:通过大语言模型增强文本到视频生成蚂蚁集团和清华大学的研究人员提出了Mimir,这是一个端到端的训练框架,旨在解决当前视频扩散模型在文本理解方面的不足,并充分利用大语言模型(LLMs)的强大文本处理能力。Mimir通过引入精心设计的标...新技术# Mimir# 大语言模型1年前02910
Inst-IT:增强大型多模态模型实例级理解能力复旦大学计算机学院、上海创新学院和华为诺亚方舟实验室的研究人员提出了Inst-IT,这是一种通过明确的视觉提示指令调优来增强大型多模态模型(LMMs)实例级理解能力的解决方案。尽管现有的LMMs在整体...新技术# Inst-IT# 多模态模型1年前02980
CleanDIFT:从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示慕尼黑大学的研究人员推出一种名为CleanDIFT的新方法,用于从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示。这种方法特别针对的是,以往在使用扩散模型提取特征时需要向图像添加噪声...新技术# CleanDIFT1年前04830