SPRIGHT T2I:改进文生图模型在生成图像时保持空间一致性的能力来自亚利桑那州立大学、英特尔实验室、Hugging Face和华盛顿大学的研究人员推出SPRIGHT T2I,探讨如何改进文生图(Text-to-Image,简称T2I)模型在生成图像时保持空间一致性...新技术# SPRIGHT T2I# 文生图模型2年前09190
Controlnet作者新项目IC-Light:根据文本提示或参考背景图重新打光生成符合新背景环境光照的图片IC-Light是Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新开源项目,这是一款控制图像照明效果的模型,简单来说其主...新技术# controlnet# IC-Light# 打光2年前09170
开源人像生成器InstantID:只需一张人脸照片,快速生成不同风格的人物照片开源人像生成器InstantID今天在推特引发了热议,InstantID只需要一张人脸照片,就能快速生成多种风格的人物照片,无需复杂的训练或微调过程。InstantID还能与流行的图像扩散模型(如 S...新技术# controlnet# InstantID# LCM2年前09140
新型可控图像动画方法MOFA-Video:能够根据给定的图像和额外的可控信号(例如人体标记、手动轨迹或提供的其他视频)或它们的组合生成视频来自东京大学和腾讯AI实验室推出新型可控图像动画方法MOFA-Video,能够根据给定的图像和额外的可控信号(例如人体标记、手动轨迹或提供的其他视频)或它们的组合,从给定的图像中生成视频。这与以往的方...新技术# MOFA-Video# 可控图像动画生成2年前09120
MVEdit:用于3D对象合成和编辑的通用3D扩散适配器来自斯坦福大学、加州大学圣地亚哥分校和Apparate Labs的研究人员推出MVEdit,这是一个用于3D对象合成和编辑的通用3D扩散适配器。 项目主页 Demo GitHub MVEdit的核心功...新技术# 3D# MVEdit2年前09120
文生图模型GLIGEN:用于将Stable Diffusion模型扩展为可定制模型威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型,用于将Stable Diffusion模型扩展为可定制的模型。这个模型的核心目标是让计算机能够根据文本描述生成图像,并且能够...新技术# GLIGEN# Stable Diffusion# 文生图模型2年前09080
基于指令的高质量图像编辑数据集HQ-Edit加州大学圣克鲁斯分校的研究人员推出高质量数据集HQ-Edit,它专门用于基于指令的图像编辑任务。例如,你有一张图片,想要根据某些具体的指令来修改它,比如改变背景、调整物体的颜色或者添加一些新元素。HQ...新技术# HQ-Edit# 图像编辑数据集2年前09070
新型视频生成框架MovieDreamer:专门用于制作长篇视频内容,比如电影浙江大学和阿里巴巴的研究人员推出新型视频生成框架MovieDreamer,专门用于制作长篇视频内容,比如电影。与传统的短时视频生成技术不同,MovieDreamer能够处理复杂的叙事结构和情节发展,同...新技术# MovieDreamer# 视频生成框架2年前09060
新型图像编辑框架Differential Diffusion:精确地控制图像的编辑过程来自特拉维夫大学、赖希曼大学的研究人员推出新型图像编辑框架Differential Diffusion,此框架的核心特点是能够让用户对图像的每个像素或区域进行不同程度的编辑,这在以往的图像编辑技术中是...新技术# Differential Diffusion# 图像编辑2年前09000
采样调节器AlignYouSteps:优化采样步骤,从而提高生成图像的细节和质量英伟达、多伦多大学和矢量研究所的研究人员推出新的采样调节器AlignYouSteps(调整步伐),用于优化采样步骤,从而提高生成图像的细节和质量。这是一种通用且原则性的方法,用于优化扩散模型的采样计划...新技术# AlignYouSteps# 英伟达# 采样调节器2年前08940
创新框架MotionBooth:生成具有定制主体和可控主体及摄像机运动的动画视频北京大学、南洋理工大学、上海人工智能实验室、浙江大学和上海交通大学的研究人员推出创新框架MotionBooth,它专门用于生成具有定制主体和可控主体及摄像机运动的动画视频。简单来说,MotionBoo...新技术# MotionBooth2年前08890
视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型,以提高它们之间的协同工作效果。 论文 它能够有效地将传统的视觉编码器(vision encoders)和大语言模型(LL...新技术# PaLM2-VAdapter# 大语言模型# 视觉编码器2年前08890