SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果 扩散模型(Diffusion Models)在生成高质量图像方面表现出色,但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性,来自美国东北大学和 Adobe Researc... 图像模型# Adobe Research# SliderSpace# 东北大学 16小时前030
基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程 新加坡国立大学的研究团队推出 MakeAnything,这是一个基于DiT模型的多领域程序化序列生成框架,能够根据文本描述或图像生成分步骤的教程,也就是生成一致性图片序列。 GitHub:https:... 图像模型# DiT模型# MakeAnything 4天前0100
通义实验室推出基于指令的图像生成和编辑框架ACE++:基于FLUX.1-dev模型,实现多种图像生成和编辑任务 阿里巴巴通义实验室推出基于指令的图像生成和编辑框架ACE++,这是之前介绍过的新型多模态生成模型ACE升级版,ACE++ 通过改进的长上下文条件单元(LCU++)和两阶段训练方案,能够高效地利用预训练... 图像模型# ACE# FLUX.1-dev# 图像生成 2周前0670
Stability AI释出Stable Diffusion 3 Medium模型,8G显存显卡即可使用 Stability AI终于在6月12日释出了万众期待的Stable Diffusion 3模型,不过此次释出的仅是 20 亿个参数的Stable Diffusion 3 Medium 模型,该型号尺... 图像模型# SD3模型# Stability AI# Stable Diffusion 3 Medium 2周前04,3730
单目深度估算模型Depth Anything V2:通过分析单张图片来预测物体距离 来自香港大学和TikTok的研究人员推出单目深度估算模型Depth Anything的升级版Depth Anything V2,让计算机通过分析单张图片来预测物体距离的技术,这在自动驾驶、3D建模和虚... 图像模型# Depth Anything V2# 单目深度估算模型 2周前07760
Fal.ai平台推出新DiT模型AuraFlow:支持文字,百分百开源 Stability AI因为Stable Diffusion 3 Medium模型的许可证问题备受诟病,虽然后来更改了许可证,但此模型在人物尤其是躺倒后人物的糟糕表现还是不受开源社区待见。不少人开始转... 图像模型# AuraFlow# DiT模型# Fal.ai 2周前04320
以Stable Cascade为基础!新型超高分辨率图像生成方法UltraPixel:生成从1K至6K多种分辨率的高品质图像 香港科技大学(广州)、 华为诺亚方舟实验室、马克斯普朗克信息研究所和香港科技大学的研究人员推出一种新型超高分辨率图像生成方法UltraPixel,此方法是以Stability AI的模型Stable... 图像模型# Stable Cascade# UltraPixel# 超高分辨率图像生成 2周前05130
日本团队推出浮世绘风格专用生成模型Evo-Ukiyoe和浮世绘上色模型Evo-Nishikie 日本AI团队Sakana AI发布了专门用于生成浮世绘风格的生成模型Evo-Ukiyoe和浮世绘上色模型Evo-Nishikie,此模型是是以转为日语打造的图像生成模型Evo-SDXL-JP为基础,通... 图像模型# Evo-Nishikie# Evo-Ukiyoe# 浮世绘 2周前03590
Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版AuraSR-v2 Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版,上个月它们推出了AuraSR 第一版后,得到了开源社区积极回应,让他们立刻着手开发新版。AuraSR 以 Adobe 的 Giga... 图像模型# AuraSR# AuraSR-v2# Fal.ai 2周前04760
Meta推出图像和视频分割模型SAM 2:图像和视频中的可提示视觉分割 Meta在去年推出了图像分割模型Segment Anything,今年它们又推出了升级版Segment Anything Model 2 (SAM 2),这是一种用于图像和视频中可提示视觉分割的基础模... 图像模型# Meta# SAM 2# 分割模型 2周前03280
新型多模态自回归模型Lumina-mGPT:能够执行各种视觉和语言任务,尤其擅长根据文本描述生成逼真的图片 上海人工智能实验室和香港中文大学的研究人员推出新型多模态自回归模型Lumina-mGPT,它能够执行各种视觉和语言任务,尤其擅长根据文本描述生成逼真的图片。与现有的基于自回归的图像生成方法不同,Lum... 图像模型# Lumina-mGPT# 多模态自回归模型 2周前04210
强大且高效的图像和视频生成控制方法ControlNeXt:同时支持图像和视频,并能整合多种形式的控制信息 香港中文大学和思谋科技的研究人员推出强大且高效的图像和视频生成控制方法ControlNeXt,它同时支持图像和视频,并能整合多种形式的控制信息。在这个项目中,我们提出了一种新方法,与 ControlN... 图像模型# ControlNeXt 2周前07100