多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF(Query Neural Radiance Field),这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...新技术# QNeRF# 多视角图像编辑2年前05710
去噪方法GeneOH Diffusion:解决手-物体交互(HOI)去噪的问题来自清华大学、上海人工智能实验室、上海启智研究院的研究人员推出GeneOH Diffusion,它旨在解决手-物体交互(HOI)去噪的问题。在手-物体交互中,我们经常需要准确地追踪手部动作,尤其是在游...新技术# GeneOH Diffusion2年前07400
基于Transformer架构的新型视频生成模型Snap Video来自Snap、特伦托大学、加州大学默塞德分校、布鲁诺·凯斯勒基金会的研究人员推出新型视频生成模型Snap Video,此模型基于Transformer架构,目标是将文本描述转换成高质量的视频内容。 项...新技术# Snap Video# Transformer# 视频生成模型2年前06190
新型图像编辑框架Differential Diffusion:精确地控制图像的编辑过程来自特拉维夫大学、赖希曼大学的研究人员推出新型图像编辑框架Differential Diffusion,此框架的核心特点是能够让用户对图像的每个像素或区域进行不同程度的编辑,这在以往的图像编辑技术中是...新技术# Differential Diffusion# 图像编辑2年前09060
新型实时目标检测系统YOLOv9:通过创新的网络设计和梯度信息处理来提高目标检测的准确性和效率来自中国台湾的研究人员推出新型实时目标检测系统YOLOv9,通过引入可编程梯度信息(Programmable Gradient Information, PGI)和一种新的轻量级网络架构——广义高效层...新技术# YOLOv9# 目标检测系统2年前05620
ToDo:为了提高高分辨率图像生成的效率而设计来自Leonardo AI的研究人员推出ToDo(Token Downsampling),它是为了提高高分辨率图像生成的效率而设计的。这种方法主要是为了解决图像扩散模型在处理大图像时面临的时间和内存限...新技术# ToDo# 扩散模型2年前08020
D-Flow框架:更加精确地控制生成模型的输出D-Flow框架是一种用于控制生成过程的方法,通过在流中进行微分来控制生成过程,以优化源(噪声)点。该方法的主要局限是生成时间相对较长(通常需要5-15分钟),这可能会在某些应用中限制其使用。 论文地...新技术# D-Flow框架# 生成模型2年前05610
字节跳动推出文生图模型SDXL-Lightning:基于SDXL1.0基础模型提炼SDXL-Lightning是由字节跳动发布的一款速度极快的文生图模型,它采用新型扩散模型蒸馏方法,优化扩散模型,能在短时间内高效生成分辨率为1024像素的高品质图像。 模型地址:https://hu...新技术# SDXL-Lightning# SDXL1.0# 字节跳动2年前06210
DiLightNet:用于文生图模型图像生成过程中对照明效果精细控制来自浙江大学、微软亚洲研究院、威廉玛丽学院和清华大学的研究人员提出一种新方法DiLightNet,它用于在基于文本提示的扩散模型图像生成过程中实现精细的照明控制。 论文地址 扩散模型是一种能够根据文本...新技术# DiLightNet# 照明效果2年前05910
视觉语言模型CoLLaVO:提高视觉语言模型在零样本视觉语言任务中的性能韩国研究人员推出视觉语言模型CoLLaVO(Crayon Large Language and Vision mOdel),此模型旨在通过增强对象级别的图像理解能力,提高视觉语言模型(VLMs)在零样...新技术# CoLLaVO# 视觉语言模型2年前01,0220
神经网络扩散(Neural Network Diffusion):利用扩散模型来生成高性能的神经网络参数来自新加坡国立大学、Meta AI和加州大学伯克利分校的研究人员提出了一种名为“神经网络扩散(Neural Network Diffusion)”的新型方法,它利用扩散模型(diffusion mod...新技术# Neural Network Diffusion# 神经网络扩散2年前08790
全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。 GitHub 论文 RealCompo利用了文本到...新技术# GLIGEN模型# RealCompo# 文生图框架2年前07390