个性化图像生成和编辑方法SISO:适合在只有单张主题图像的情况下使用巴伊兰大学和英伟达的研究人员推出一种无需训练的方法SISO,用于从单张主题图像进行个性化图像生成和编辑。SISO 是一种无需训练的方法,通过优化与输入主题图像的相似度分数来实现图像的个性化生成和编辑...图像模型# SISO# 图像生成# 图像编辑9个月前01990
新型框架 EliGen:用于实现图像生成中的实体级控制浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...图像模型# EliGen# 图像生成8个月前01970
基于像素空间流的图像生成模型PixelFlow:根据给定的文本描述生成高质量、语义一致的图像香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow,它直接在像素空间中进行操作,与传统的基于潜在空间(latent space)的模型不同。PixelFlow通过高效的级...图像模型# PixelFlow# 图像生成模型8个月前01920
GNER-T5-XXL:GNER 提升零样本实体识别能力,可用于 Flux、Chroma 等模型在多模态生成系统中,精准识别文本中的关键语义元素,是生成高质量图像或内容的前提。例如,当输入提示词“一位身着红色礼服的女人,手持手枪,站在黑暗小巷中”,模型需要准确识别出“红色礼服”“手枪”“黑暗小巷...图像模型# Chroma# FLUX# GNER-T5-XXL4个月前01910
字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升今日,字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0,融合多样化的训练数据与奖励机制,在图像主体与背景一致性、指令理解能...图像模型# SeedEdit 3.0# 字节跳动6个月前01880
英伟达提出 DC-Gen:用于加速扩散模型的后训练框架,生成速度快 53 倍在文生图领域,高分辨率输出(如 4K)正成为标配。然而,随之而来的计算成本和推理延迟问题日益凸显——以当前领先的 FLUX.1-Krea-12B 模型为例,在英伟达H100 GPU 上生成一张 4K ...图像模型# DC-Gen# 文生图模型# 英伟达2个月前01850
字节跳动推出新型框架 InfiniteYou (InfU):用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片字节跳动推出新型框架 InfiniteYou (InfU),用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器(Diffusion Transformers...图像模型# InfiniteYou# InfU# 字节跳动9个月前01820
阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里Qwen项目组今日正式推出 Qwen-Image-Edit,基于 Qwen-Image 20B 模型进一步训练而成,是 Qwen-Image 系列在图像编辑方向的重要延伸。 该模型不仅继承了 Qw...图像模型# Qwen-Image-Edit# 图像编辑模型4个月前01810
专为漫画线稿上色设计的Cobra框架:能将黑白线稿转化为生动的插图在漫画生产行业中,基于参考图像的线稿上色是一项既复杂又关键的任务。一页漫画通常包含多样的人物、物体和背景,这不仅要求上色过程具备高准确性、上下文一致性,还需要灵活控制以满足不同场景需求。然而,传统的扩...图像模型# Cobra# 上色模型# 漫画线稿7个月前01750
RecA:一种高效提升统一多模态模型图像生成能力的后训练方法近年来,统一多模态模型(Unified Multimodal Models, UMMs)因其在视觉理解与生成任务中的双重能力而受到广泛关注。这类模型旨在通过单一架构实现对图像和文本的联合建模,既能“看...图像模型# RecA# 统一多模态模型3个月前01730
中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型由上海人工智能实验室牵头,联合上海创智学院、上海交通大学、悉尼大学、南京大学、香港中文大学和清华大学的研究团队,共同推出 Lumina-DiMOO ——一个面向多模态生成与理解一体化的新型基础模型。 ...图像模型# Lumina-DiMOO# 多模态模型3个月前01710
GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集在图像生成领域,闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力,能够精准执行复杂的文本引导编辑任务。相比之下,开源社区虽有进展,却始终受限于高质量、大规模...图像模型# GPT-Image-Edit# GPT-IMAGE-EDIT-1.5M# 图像编辑模型4个月前01710