非自回归 MIM 文生图合成模型Meissonic:生成高质量、高分辨率的图像 随着大语言模型(LLMs)在自然语言处理任务中的显著进步,研究人员开始探索类似的文本到图像合成方法。与此同时,扩散模型已经成为视觉生成的主流方法。然而,由于语言和视觉任务之间存在显著的操作差异,开发统... 图像模型# Meissonic# 文生图合成模型 2周前02190
文字处理能力出众!Playground推出最新文生图模型Playground v3 Playground 推出了Playground v3(PGv3),这是Playground最新的文本到图像模型,在多个测试基准上达到了最先进的(SoTA)性能,在图形设计能力上表现出色,并引入了新的... 图像模型# Playground v3# 文生图模型 2周前02080
MagicTailor框架:让用户对生成的图像中的特定视觉元素进行精确控制 近年来,文本到图像(T2I)扩散模型取得了显著进展,能够从简单的文本提示中生成高质量的图像。然而,这些模型在精确控制特定视觉概念生成方面仍然面临挑战。现有的方法可以通过参考图像学习复制给定的概念,但缺... 图像模型# MagicTailor# 图像定制 2周前02560
混合自回归变换器HART:高效生成高分辨率图像 现有的自回归(AR)视觉生成模型在生成高分辨率图像时面临两大挑战:离散分词器的图像重建质量较差,以及生成1024px图像的训练成本过高。为了解决这些问题,麻省理工学院、英伟达和清华大学的研究人员提出了... 图像模型# HART# 混合自回归变换器 2周前02350
Stability AI推出其最新的图像生成模型系列Stable Diffusion 3.5(SD3.5):更具可定制性和多功能性,同时在性能上也有所提升 在经历了一系列由技术故障和许可变更引发的争议后,Stability AI宣布了其最新的图像生成模型系列—Stable Diffusion 3.5(SD3.5),新的Stable Diffusion 3... 图像模型# SD3.5# Stability AI# Stable Diffusion 3.5 2周前02490
高效、可扩展框架CtrLoRA:结合了基础 ControlNet 和条件特定 LoRAs 的可控图像生成框架 来自中国科学院计算技术研究所和中国科学院大学的研究人员推出一种用于可控图像生成的高效、可扩展框架CtrLoRA,这是一个结合了基础 ControlNet 和条件特定 LoRAs 的可控图像生成框架。简... 图像模型# ControlNe# CtrLoRA# LoRAs 2周前02160
高容量真实世界图像恢复模型DreamClear:结合隐私安全的数据处理流程(GenIR)和DiT技术,以实现对低质量图像的高质量恢复 现实世界中的图像恢复(IR)面临着显著的挑战,主要是缺乏高容量模型和全面的数据集。为了解决这些问题,中国科学院自动化研究所、中国科学院大学人工智能学院、字节跳动公司和中国科学技术大学的研究人员提出了一... 图像模型# DreamClear# 图像恢复模型 2周前02260
基于扩散模型(SDXL)的新型图像恢复方法InstantIR 盲图像恢复(Blind Image Restoration, BIR)的主要挑战之一是处理测试时未知的退化,这需要模型具备高泛化能力。北京大学、InstantX团队和香港中文大学的研究人员提出了一种新... 图像模型# InstantIR# 即时参考图像恢复# 高清修复 2周前03000
Collov Labs推出非自回归掩码图像建模的文本到图像合成模型Monetico Collov Labs 最近在8块H100 GPU上训练了一周时间,推出了新的非自回归掩码图像建模的文本到图像合成模型——Monetico。这款模型能够生成高分辨率图像,并且被设计为在消费级显卡上高效... 图像模型# Monetico# 文生图模型 2周前02010
BRIA AI推出最新开源背景移除模型RMBG v2.0 RMBG v2.0 是由 BRIA AI 最新研发的先进背景移除模型,能够在各种类别和图像类型中有效地将前景与背景分离。该模型经过精心挑选的数据集训练,包括通用库存图片、电子商务、游戏和广告内容,使其... 图像模型# BRIA AI# RMBG v2.0# 背景移除模型 2周前01960
背景移除模型BEN:自动从图像中移除背景,生成二值掩码和前景图像 BEN(Background Erasure Network)是由Prama LLC推出的一款深度学习模型,旨在自动从图像中移除背景,生成二值掩码和前景图像。 模型:https://huggingfa... 图像模型# BEN# 背景移除模型 2周前02370
基于扩散的肖像动画生成新方法JoyVASA:用于生成音频驱动的面部动画,包括面部动态和头部运动 音频驱动的肖像动画在基于扩散模型的推动下取得了显著进展,提高了视频质量和唇同步的准确性。然而,这些模型的复杂性增加导致了训练和推理的低效,以及对视频长度和帧间连续性的限制。为了解决这些问题,京东健康国... 图像模型# JoyVASA# 肖像动画 2周前02030