LumiNet:利用生成模型和潜在内在表示进行有效光照传输的新架构 博世和芝加哥丰田技术研究所的研究人员提出了LumiNet,这是一种创新的光照传输架构,旨在给定一个源图像和一个目标光照图像的情况下,合成一个捕捉目标光照的源场景重照明版本。LumiNet通过两个关键贡... 新技术# LumiNet# 光照 3个月前01230
端到端的训练框架Mimir:通过大语言模型增强文本到视频生成 蚂蚁集团和清华大学的研究人员提出了Mimir,这是一个端到端的训练框架,旨在解决当前视频扩散模型在文本理解方面的不足,并充分利用大语言模型(LLMs)的强大文本处理能力。Mimir通过引入精心设计的标... 新技术# Mimir# 大语言模型 3个月前01130
Inst-IT:增强大型多模态模型实例级理解能力 复旦大学计算机学院、上海创新学院和华为诺亚方舟实验室的研究人员提出了Inst-IT,这是一种通过明确的视觉提示指令调优来增强大型多模态模型(LMMs)实例级理解能力的解决方案。尽管现有的LMMs在整体... 新技术# Inst-IT# 多模态模型 3个月前01120
CleanDIFT:从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示 慕尼黑大学的研究人员推出一种名为CleanDIFT的新方法,用于从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示。这种方法特别针对的是,以往在使用扩散模型提取特征时需要向图像添加噪声,... 新技术# CleanDIFT 3个月前01180
从单张图片生成3D场景的新型框架MIDI 北京航空航天大学、VAST、清华大学和香港大学的研究人员推出新型框架MIDI(Multi-Instance Diffusion),它用于从单张图片生成3D场景。这项技术的核心在于将预训练的图像到3D对... 新技术# 3D场景# MIDI 3个月前01270
One Shot, One Talk:从单张图像构建全身说话虚拟形象 中国科学技术大学和香港理工大学的研究人员提出了一种名为One Shot, One Talk的新颖流程,旨在解决从单张图像构建全身说话虚拟形象的挑战。该方法解决了两个关键问题:1)复杂的动态建模;2)对... 新技术# One Shot# One Talk# 虚拟形象 3个月前01090
新型多视图生成新视角合成(NVS)模型NVComposer 香港中文大学、腾讯PCG ARC实验室和北京大学的研究人员推出新型多视图生成新视角合成(NVS)模型NVComposer,它能够从少量未对准的稀疏图像中生成新视角的视图,而无需依赖外部的多视图对齐过程... 新技术# NVComposer 3个月前01020
Imagine360框架:能够将标准透视视频转换为360°全景视频 香港中文大学、上海交通大学、南洋理工大学和上海人工智能实验室的研究人员推出Imagine360框架,它能够将标准透视视频转换为360°全景视频,从而为用户提供全方位的沉浸式视频体验。Imagine36... 新技术# Imagine360# 全景视频 3个月前01270
SNOOPI:提高一步式(one-step)文生图模型的稳定性和控制能力 VinAI Research和越南邮电技术学院的研究人员提出了SNOOPI,这是一个旨在解决现有一步骤扩散模型局限性的新颖框架。SNOOPI通过增强训练和推理过程中的指导,解决了现有一步式扩散模型在处... 新技术# SNOOPI 3个月前01000
多服装虚拟试穿技术AnyDressing:能够根据任何组合的服装和个性化文本提示来定制角色形象 字节跳动和清华大学的研究人员提出了一种名为AnyDressing的新方法,专注于解决多服装虚拟试衣任务中的挑战,这项技术特别适用于需要在多种场景和服装组合中保持服装细节的同时,还要忠实于文本提示的应用... 新技术# AnyDressing# 虚拟试穿 3个月前01110
数据增强方法MaskRIS:用于改进指代表像分割任务的性能 延世大学、NAVER AI LAB和韩国科学技术研究院的研究人员推出一种新的数据增强方法,名为MaskRIS(Masked Referring Image Segmentation),它用于改进指代表... 新技术# MaskRIS 3个月前01480
Motion Prompting框架:通过动轨迹控制视频生成 Google DeepMind、密歇根大学和布朗大学的研究人员推出一个名为“Motion Prompting”的框架,它用于控制视频生成中的动作轨迹。该框架通过使用运动轨迹作为条件信号,来生成具有特定... 新技术# Motion Prompting# 运动轨迹控 3个月前0990