Bounded Attention:解决文生图模型在生成包含多个主题(subjects)的图像时遇到的挑战来自特拉维夫大学和Snap的研究人员推出Bounded Attention,它旨在解决文生图模型在生成包含多个主题(subjects)的图像时遇到的挑战。这些模型通常难以准确地捕捉到复杂输入提示中的意...新技术# Bounded Attention# 多主题# 文生图模型2年前05820
3D内容生成框架DreamGaussian:提高基于图像和文本生成3D模型的效率和质量来自南洋理工大学、百度和北京大学的研究人员推出3D内容生成框架DreamGaussian,专门设计用于提高基于优化方法创建三维(3D)模型的效率和质量。该框架旨在解决当前从图像或文本快速生成高质量3D...新技术# 3D内容生成框架# DreamGaussian2年前05820
TextCraftor:通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容来自Snap和美国东北大学的研究人员推出文本编码器TextCraftor,它通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容。这种方法减少了对大量数据集的依...新技术# TextCraftor# 文本编码器2年前05810
3D重建技术MVD2:针对多视角扩散图像进行高效的三维形状重建来自清华大学和微软亚洲研究院的研究人员推出新型3D重建技术MVD2,它专门针对多视角扩散(Multiview Diffusion,简称MVD)图像进行高效的三维形状重建。 论文地址 MVD是一种新兴的...新技术# 3D重建技术# MVD22年前05810
LightIt:实现图像生成过程中的显式光照控制来自慕尼黑大学和Adobe Research的研究人员推出LightIt,它能够对由扩散模型生成的图像进行明确的照明控制。研究人员提出了将生成过程与阴影和法线图相结合的新思路。在光照建模方面,采用了单...新技术# LightIt# 光照控制2年前05800
MVideo:用于生成具有精确、流畅动作的长时视频无限光年、上海交通大学和复旦大学的研究人员推出新型框架MVideo,它专门设计用于生成具有精确、流畅动作的长时视频。MVideo通过结合文本提示和掩码序列(mask sequences)作为额外的运动...新技术# MVideo# 文生视频1年前05790
大型多模态模型VideoGLaMM:专为用户提供的文本输入进行视频中细粒度像素级定位而设计视频与文本之间的细粒度对齐是一个具有挑战性的问题,因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型(LMMs)虽然可以处理基本对话,但在视频中进行精确的像素级定位方面存在困难。 大型...新技术# VideoGLaMM# 大型多模态模型1年前05790
新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF,提高神经渲染中相机姿态和场景几何表示的联合优化性能,特别是在处理复杂场景时的鲁棒性,这对于许多3D视觉和图形应用领...新技术# Joint-TensoRF# 神经网络渲染2年前05790
Diffusion-4K:利用潜在扩散模型(如SD3、Flux)进行超高清(4K)图像生成北京航空航天大学和美团的研究人员推出 Diffusion-4K,即利用潜在扩散模型(Latent Diffusion Models)进行超高清(4K)图像合成。该研究的核心目标是直接生成高质量的4K图...新技术# Diffusion-4K# FLUX# SD312个月前05780
CameraCtrl:为文生视频模型提供精确的摄像机控制能力来自香港中文大学、上海人工智能实验室和斯坦福大学的研究人员推出CameraCtrl,它能够为文本到视频(Text-to-Video, T2V)生成模型提供精确的摄像机控制能力。在视频创作中,摄像机的移...新技术# CameraCtrl# 文生视频模型2年前05780
动态视频模型DynamiCrafter:为静态图片添加动画效果来自香港中文大学、腾讯人工智能实验室、北京大学的研究人员推出动态视频模型DynamiCrafter,它是一个利用视频扩散模型(Video Diffusion Models)来为静态图片添加动画效果的工...新技术# DynamiCrafter# 视频模型2年前05780
3D重建模型MeshLRM:基于LRM的方法,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网格模型来自加州大学圣地亚哥分校和Adobe的研究人员推出大型3D重建模型MeshLRM,这是一种新颖的基于LRM的方法,它能在不到一秒的时间内,能够从极少量的输入图像(仅需四张)快速重建出高质量的3D网...新技术# 3D重建模型# MeshLRM2年前05760