文生图模型新架构MoA:根据用户的个性化需求生成包含特定人物的图像,同时保持原有模型的风格和多样性 Snap推出新架构注意力混合(Mixture-of-Attention,简称MoA),即在个性化图像生成中实现主体与上下文解耦的注意力混合模型(MoA),用于个性化文本到图像的扩散模型。简单来说,Mo... 图像模型# MoA# 文生图模型 2周前07490
attribute-control:对文生图模型生成的图像中的特定属性进行精细控制 来自慕尼黑工业大学的研究人员推出attribute-control,它能够对文本到图像(T2I)模型生成的图像中的特定属性进行精细控制。 项目主页 GitHub Demo 开发团队发现,在常用的基于t... 新技术# attribute-control# 文生图模型# 精细控制 11个月前07460
SPRIGHT T2I:改进文生图模型在生成图像时保持空间一致性的能力 来自亚利桑那州立大学、英特尔实验室、Hugging Face和华盛顿大学的研究人员推出SPRIGHT T2I,探讨如何改进文生图(Text-to-Image,简称T2I)模型在生成图像时保持空间一致性... 新技术# SPRIGHT T2I# 文生图模型 11个月前07130
新型文生图模型的微调算法SPIN-Diffusion SPIN-Diffusion是一种新型文生图模型的微调算法。这个算法特别适用于那些只有单个图像与文本提示(prompt)相关联的数据集,它通过一种自我博弈(self-play)的机制,让模型不断地与自... 新技术# SPIN-Diffusion# 文生图模型 1年前07040
华为PixArt系列最新模型—PIXART-Σ:基于DiT,可直接生成4K分辨率的图像 来自华为诺亚方舟实验室、大连理工大学、香港大学的研究人员推出了最新的PixArt模型—PIXART-Σ,PixArt-Σ基于Diffusion Transformer架构 (DiT,与Sora、Sta... 图像模型# DiT# PIXART-Σ# 文生图模型 2周前06920
英伟达推出新型文生图模型BlobGEN:基于blob(斑点)的文本到图像扩散模型 英伟达推出新型文生图模型BlobGEN,这个模型的核心思想是将场景分解为视觉原语——被称为密集的blob(斑点)表示——这些表示包含了场景的细粒度细节,同时具备模块化、易于理解和构建的特点。例如,一个... 新技术# BlobGEN# 文生图模型# 英伟达 9个月前06430
CosmicMan:专注于生成高保真人类图像的文生图基础模型 上海人工智能实验室推出CosmicMan,这是一款专注于生成高保真人类图像的文本到图像基础模型。CosmicMan能够生成外观精细、结构合理,并且与详细描述精确对齐的逼真人类图像。 项目主页:http... 图像模型# CosmicMan# 文生图模型 2周前06430
新型图像生成模型MoMA:具有灵活的零样本能力,专注于主体驱动的个性化图像生成 来自字节跳动和罗格斯大学的研究人员推出新型图像生成模型MoMA(Multimodal LLM Adapter),这是一个开放词汇、无需训练的个性化图像模型,具有灵活的零样本能力,专注于主体驱动的个性化... 图像模型# MoMA# 个性化图像生成# 文生图模型 2周前06250
新型文生图模型CoMat:更好地理解和执行文本描述,提高了文本到图像生成的质量和准确性 来自香港中文大学、商汤科技和上海人工智能实验室的研究人员推出新型文生图模型CoMat,这是一种具有图像到文本概念匹配机制的端到端扩散模型微调策略。开发团队借助图像字幕模型来评估图像与文本的对齐程度,并... 图像模型# CoMat# 文生图模型 2周前06050
ControlNet++:通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程 中佛罗里达大学计算机视觉研究中心和字节跳动的研究人员推出ControlNet++,这是一种新方法,通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程。具体来说,对于给定的条件控制... 新技术# controlnet# 可控性# 文生图模型 9个月前05260
腾讯混元团队推出支持中英双语提示词的文生图模型Hunyuan-DiT:能够根据上下文与用户进行多轮多模态对话,生成并优化图像 腾讯混元团队推出支持中英双语提示词的文生图模型Hunyuan-DiT,它特别擅长理解中文和英文的文本提示,并据此生成图像,Hunyuan-DiT能够根据上下文与用户进行多轮多模态对话,生成并优化图像。... 新技术# Hunyuan-DiT# 提示词# 文生图模型 9个月前05250
文生图模型GLIGEN:用于将Stable Diffusion模型扩展为可定制模型 威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型,用于将Stable Diffusion模型扩展为可定制的模型。这个模型的核心目标是让计算机能够根据文本描述生成图像,并且能够... 新技术# GLIGEN# Stable Diffusion# 文生图模型 1年前05010