D-Flow框架:更加精确地控制生成模型的输出D-Flow框架是一种用于控制生成过程的方法,通过在流中进行微分来控制生成过程,以优化源(噪声)点。该方法的主要局限是生成时间相对较长(通常需要5-15分钟),这可能会在某些应用中限制其使用。 论文地...新技术# D-Flow框架# 生成模型2年前05530
Stable Diffusion中迭代步数 (Steps)的作用及优化指南近年来,生成模型取得了显著进步,使得用户能够创造出极具创意与真实感的艺术作品。从DALL-E、Midjourney到Stable Diffusion,市场上每天都有各种扩散模型在尝试改进之前发布的模型...科普# Stable Diffusion# Steps# 迭代步数10个月前06,9040
字节跳动推出文生图模型SDXL-Lightning:基于SDXL1.0基础模型提炼SDXL-Lightning是由字节跳动发布的一款速度极快的文生图模型,它采用新型扩散模型蒸馏方法,优化扩散模型,能在短时间内高效生成分辨率为1024像素的高品质图像。 模型地址:https://hu...新技术# SDXL-Lightning# SDXL1.0# 字节跳动2年前06160
DiLightNet:用于文生图模型图像生成过程中对照明效果精细控制来自浙江大学、微软亚洲研究院、威廉玛丽学院和清华大学的研究人员提出一种新方法DiLightNet,它用于在基于文本提示的扩散模型图像生成过程中实现精细的照明控制。 论文地址 扩散模型是一种能够根据文本...新技术# DiLightNet# 照明效果2年前05850
视觉语言模型CoLLaVO:提高视觉语言模型在零样本视觉语言任务中的性能韩国研究人员推出视觉语言模型CoLLaVO(Crayon Large Language and Vision mOdel),此模型旨在通过增强对象级别的图像理解能力,提高视觉语言模型(VLMs)在零样...新技术# CoLLaVO# 视觉语言模型2年前09220
神经网络扩散(Neural Network Diffusion):利用扩散模型来生成高性能的神经网络参数来自新加坡国立大学、Meta AI和加州大学伯克利分校的研究人员提出了一种名为“神经网络扩散(Neural Network Diffusion)”的新型方法,它利用扩散模型(diffusion mod...新技术# Neural Network Diffusion# 神经网络扩散2年前08550
全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。 GitHub 论文 RealCompo利用了文本到...新技术# GLIGEN模型# RealCompo# 文生图框架2年前07320
神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++,它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下,生成密集且高分...新技术# 3D# MVDiffusion++# 神经网络架构2年前06380
视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap,它能够为长达数小时的视频生成多层次的字幕。 这个模型的设计受到了人类行为层次结构的启发,人类行为通常...新技术# Video ReCap# 视频字幕生成模型2年前05170
视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...新技术# VideoPrism# 视频编码器# 谷歌6个月前06910
新型神经网络渲染技术Joint-TensoRF:使用2D图像作为监督,实现相机姿态和场景几何的精细调整来自中国台湾阳明交通大学的研究人员推出新型神经网络渲染技术Joint-TensoRF,提高神经渲染中相机姿态和场景几何表示的联合优化性能,特别是在处理复杂场景时的鲁棒性,这对于许多3D视觉和图形应用领...新技术# Joint-TensoRF# 神经网络渲染2年前05650
FlashTex:使用LightControlNet实现快速可重新照明的网格纹理生成来自Roblox、卡内基梅隆大学、斯坦福大学的研究人员推出FlashTex技术,它能够快速地为3D模型生成可重新照明(relittable)的纹理。这项技术的核心在于,它可以根据用户提供的文字提示,自...新技术# 3D模型# FlashTex2年前05480