用于定制漫画生成的新框架DiffSensei:将多模态大语言模型和扩散模型结合起来,以实现对漫画角色形象和布局的精确控制 故事可视化,即将文本描述转化为视觉叙事的任务,近年来随着文本到图像生成模型的发展取得了显著进展。然而,现有的模型在处理多角色场景时,特别是在控制角色外观和互动方面,仍然存在局限性。具体来说,这些模型难... 图像模型# DiffSensei# 定制漫画 2周前01230
单步扩散方法NitroFusion:通过动态对抗框架实现高质量的图像生成 萨里大学和NetMind.AI的研究人员提出了NitroFusion,这是一种根本不同的单步扩散方法,旨在通过动态对抗框架实现高质量的图像生成。尽管单步方法在速度上具有显著优势,但它们通常在生成质量上... 图像模型# NitroFusion# 单步扩散 2周前01190
字节跳动推出新型统一图像标记器TokenFlow:弥合多模态理解和生成之间的长期存在的差距 字节跳动的研究团队提出了TokenFlow,这是一种新颖的统一图像标记器,旨在弥合多模态理解和生成之间的长期存在的差距。先前的方法尝试使用单一的重建导向向量量化(VQ)编码器来统一这两项任务,但这种做... 图像模型# TokenFlow# 统一图像标记器 2周前01020
新型生成模型OmniFlow:用于处理任何到任何(any-to-any)的多模态生成任务,例如文本到图像、文本到音频以及音频到图像的合成 加州大学洛杉矶分校、松下AI研究院和Salesforce AI研究院的研究人员共同提出了OmniFlow,这是一种新颖的生成模型,专为处理“任何到任何”(any-to-any)生成任务设计,如文本到图... 图像模型# OmniFlow# 多模态生成 2周前01070
多功能即插即用适配器MV-Adapter:将SDXL模型及其衍生模型适配为多视图生成器。 现有的多视图图像生成方法通常对预训练的文生图模型进行侵入性修改,并需要全面微调,导致高计算成本和图像质量下降。为了解决这些问题,北京航空航天大学、VAST 和上海交通大学的研究人员提出了 MV-Ada... 图像模型# MV-Adapter# SDXL模型# 多视图 2周前01070
SWITTI:用于文本到图像合成的新型规模感知变换器模型 Yandex Research、HSE 大学、MIPT 和 Skoltech 的研究人员提出了 Switti,这是一个专门设计用于文本到图像(T2I)生成的尺度变换器。Switti 从现有的下一尺度预... 图像模型# SWITTI# 文生图模型 2周前0970
虚拟脱衣TryOffDiff:使用SD模型进行高保真服装重建的虚拟试穿 比勒费尔德大学 CITEC 机器学习小组提出了一项新颖的任务——虚拟脱衣(Virtual Try-Off, VTOFF),旨在从穿着衣服的单张照片中生成标准化的服装图像。与传统的虚拟试穿(Virtua... 图像模型# TryOffDiff# 虚拟脱衣# 虚拟试穿 2周前01250
自动T2I生成系统ChatGen:以自由聊天的形式简单描述需求,从而轻松获得高质量的图像 尽管文本到图像(T2I)生成模型在近年来取得了显著进展,用户在实际应用中仍然面临着诸多挑战。制作合适的提示、选择适当的模型和配置特定参数等繁琐步骤的复杂性和不确定性,使得用户不得不通过反复试验来获得满... 图像模型# ChatGen 2周前01200
Stability AI发布适用于Stable Diffusion 3.5 Large的官方ControlNets模型:Blur、Canny和Depth 在Black Forest Labs发布了官方FLUX.1 Tools系列开源模型后,Stability AI也不甘落后,于今天发布了三款官方ControlNets模型:Blur、Canny和Dept... 图像模型# ControlNets模型# SD3.5# Stability AI 2周前01220
多功能大规模扩散模型OneDiffusion:能够无缝支持双向图像合成和理解,跨越多种不同的任务 AI2、加州大学欧文分校和华盛顿大学的研究人员介绍了一种名为OneDiffusion的多功能、大规模扩散模型。OneDiffusion能够无缝支持在多样化任务中进行双向图像合成和理解,涵盖从文本、深度... 图像模型# OneDiffusion# 扩散模型 2周前01260
跨模态图像生成模型Qwen2vl-Flux:将Qwen2VL的视觉语言理解能力与FLUX框架相结合,实现了更精确和上下文感知的图像生成 Qwen2vl-Flux 是一种先进的跨模态图像生成模型,它将Qwen2VL的视觉语言理解能力与FLUX框架相结合,实现了更精确和上下文感知的图像生成。该模型在文本提示和视觉参考的基础上生成高质量图像... 图像模型# Qwen2vl-Flux# 视觉语言模型 2周前01370
SD3.5M-Booster :专门为 SD3.5 Medium 模型设计的增强 LoRA SD3.5M-Booster 是一个专门为 SD3.5 Medium 模型设计的增强 LoRA,旨在将模型的性能提升到最高水平。通过增强细节、颜色和对比度,SD3.5M-Booster 能够显著改善生... 图像模型# SD3.5 Medium# SD3.5M-Booster 2周前01490