Collov Labs推出非自回归掩码图像建模的文本到图像合成模型MoneticoCollov Labs 最近在8块H100 GPU上训练了一周时间,推出了新的非自回归掩码图像建模的文本到图像合成模型——Monetico。这款模型能够生成高分辨率图像,并且被设计为在消费级显卡上高效...图像模型# Monetico# 文生图模型1年前04830
基于扩散模型(SDXL)的新型图像恢复方法InstantIR盲图像恢复(Blind Image Restoration, BIR)的主要挑战之一是处理测试时未知的退化,这需要模型具备高泛化能力。北京大学、InstantX团队和香港中文大学的研究人员提出了一种新...图像模型# InstantIR# 即时参考图像恢复# 高清修复1年前08600
高容量真实世界图像恢复模型DreamClear:结合隐私安全的数据处理流程(GenIR)和DiT技术,以实现对低质量图像的高质量恢复现实世界中的图像恢复(IR)面临着显著的挑战,主要是缺乏高容量模型和全面的数据集。为了解决这些问题,中国科学院自动化研究所、中国科学院大学人工智能学院、字节跳动公司和中国科学技术大学的研究人员提出了一...图像模型# DreamClear# 图像恢复模型1年前04820
高效、可扩展框架CtrLoRA:结合了基础 ControlNet 和条件特定 LoRAs 的可控图像生成框架来自中国科学院计算技术研究所和中国科学院大学的研究人员推出一种用于可控图像生成的高效、可扩展框架CtrLoRA,这是一个结合了基础 ControlNet 和条件特定 LoRAs 的可控图像生成框架。简...图像模型# ControlNe# CtrLoRA# LoRAs1年前04420
Stability AI推出其最新的图像生成模型系列Stable Diffusion 3.5(SD3.5):更具可定制性和多功能性,同时在性能上也有所提升在经历了一系列由技术故障和许可变更引发的争议后,Stability AI宣布了其最新的图像生成模型系列—Stable Diffusion 3.5(SD3.5),新的Stable Diffusion 3...图像模型# SD3.5# Stability AI# Stable Diffusion 3.51年前04670
混合自回归变换器HART:高效生成高分辨率图像现有的自回归(AR)视觉生成模型在生成高分辨率图像时面临两大挑战:离散分词器的图像重建质量较差,以及生成1024px图像的训练成本过高。为了解决这些问题,麻省理工学院、英伟达和清华大学的研究人员提出了...图像模型# HART# 混合自回归变换器1年前03970
MagicTailor框架:让用户对生成的图像中的特定视觉元素进行精确控制近年来,文本到图像(T2I)扩散模型取得了显著进展,能够从简单的文本提示中生成高质量的图像。然而,这些模型在精确控制特定视觉概念生成方面仍然面临挑战。现有的方法可以通过参考图像学习复制给定的概念,但缺...图像模型# MagicTailor# 图像定制1年前06230
文字处理能力出众!Playground推出最新文生图模型Playground v3Playground 推出了Playground v3(PGv3),这是Playground最新的文本到图像模型,在多个测试基准上达到了最先进的(SoTA)性能,在图形设计能力上表现出色,并引入了新的...图像模型# Playground v3# 文生图模型1年前04540
非自回归 MIM 文生图合成模型Meissonic:生成高质量、高分辨率的图像随着大语言模型(LLMs)在自然语言处理任务中的显著进步,研究人员开始探索类似的文本到图像合成方法。与此同时,扩散模型已经成为视觉生成的主流方法。然而,由于语言和视觉任务之间存在显著的操作差异,开发统...图像模型# Meissonic# 文生图合成模型1年前03910
新型图像抠图方法SEMat:能够在复杂的自然场景中实现更精确的前景对象抠图近年来,交互式分割模型(如 SAM)在图像分割任务中取得了显著进展。然而,这些模型在应用于交互式抠图任务时面临挑战,尤其是在处理复杂和遮挡场景时。现有的方法通常在合成数据上训练模型,但这些模型难以泛化...图像模型# SEMat# 图像抠图1年前06940
新型文生图框架SANA:能够高效地生成高达4096×4096分辨率的高清晰度图像英伟达、麻省理工学院和清华大学的研究人员推出新型文本到图像生成框架SANA,它能够高效地生成高达4096×4096分辨率的高清晰度图像。SANA的核心优势在于它不仅生成的图像质量高,而且与文本的匹配度...图像模型# SANA# 文生图框架1年前08000
用于长篇故事视觉化的迭代框架Story-Adapter:根据长篇故事的文字描述生成一系列既连贯又具有丰富细节的图像加州大学圣克鲁斯分校、杭州电子科技大学和新加坡理工学院的研究人员推出一个用于长篇故事视觉化的迭代框架Story-Adapter,Story-Adapter能够根据长篇故事的文字描述生成一系列既连贯又具...图像模型# Story-Adapter# 长篇故事视觉化1年前09810