新型实时目标检测系统YOLOv9:通过创新的网络设计和梯度信息处理来提高目标检测的准确性和效率来自中国台湾的研究人员推出新型实时目标检测系统YOLOv9,通过引入可编程梯度信息(Programmable Gradient Information, PGI)和一种新的轻量级网络架构——广义高效层...新技术# YOLOv9# 目标检测系统2年前05550
ToDo:为了提高高分辨率图像生成的效率而设计来自Leonardo AI的研究人员推出ToDo(Token Downsampling),它是为了提高高分辨率图像生成的效率而设计的。这种方法主要是为了解决图像扩散模型在处理大图像时面临的时间和内存限...新技术# ToDo# 扩散模型2年前07670
D-Flow框架:更加精确地控制生成模型的输出D-Flow框架是一种用于控制生成过程的方法,通过在流中进行微分来控制生成过程,以优化源(噪声)点。该方法的主要局限是生成时间相对较长(通常需要5-15分钟),这可能会在某些应用中限制其使用。 论文地...新技术# D-Flow框架# 生成模型2年前05530
字节跳动推出文生图模型SDXL-Lightning:基于SDXL1.0基础模型提炼SDXL-Lightning是由字节跳动发布的一款速度极快的文生图模型,它采用新型扩散模型蒸馏方法,优化扩散模型,能在短时间内高效生成分辨率为1024像素的高品质图像。 模型地址:https://hu...新技术# SDXL-Lightning# SDXL1.0# 字节跳动2年前06160
DiLightNet:用于文生图模型图像生成过程中对照明效果精细控制来自浙江大学、微软亚洲研究院、威廉玛丽学院和清华大学的研究人员提出一种新方法DiLightNet,它用于在基于文本提示的扩散模型图像生成过程中实现精细的照明控制。 论文地址 扩散模型是一种能够根据文本...新技术# DiLightNet# 照明效果2年前05860
视觉语言模型CoLLaVO:提高视觉语言模型在零样本视觉语言任务中的性能韩国研究人员推出视觉语言模型CoLLaVO(Crayon Large Language and Vision mOdel),此模型旨在通过增强对象级别的图像理解能力,提高视觉语言模型(VLMs)在零样...新技术# CoLLaVO# 视觉语言模型2年前09390
神经网络扩散(Neural Network Diffusion):利用扩散模型来生成高性能的神经网络参数来自新加坡国立大学、Meta AI和加州大学伯克利分校的研究人员提出了一种名为“神经网络扩散(Neural Network Diffusion)”的新型方法,它利用扩散模型(diffusion mod...新技术# Neural Network Diffusion# 神经网络扩散2年前08570
全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。 GitHub 论文 RealCompo利用了文本到...新技术# GLIGEN模型# RealCompo# 文生图框架2年前07320
神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++,它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下,生成密集且高分...新技术# 3D# MVDiffusion++# 神经网络架构2年前06440
视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap,它能够为长达数小时的视频生成多层次的字幕。 这个模型的设计受到了人类行为层次结构的启发,人类行为通常...新技术# Video ReCap# 视频字幕生成模型2年前05200
视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...新技术# VideoPrism# 视频编码器# 谷歌7个月前06920
新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF,提高神经渲染中相机姿态和场景几何表示的联合优化性能,特别是在处理复杂场景时的鲁棒性,这对于许多3D视觉和图形应用领...新技术# Joint-TensoRF# 神经网络渲染2年前05670