图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

三阶段扩散模型框架ColorFlow：专门用于解决黑白图像的自动着色问题

ColorFlow 是由清华大学和腾讯ARC实验室提出的一个创新性三阶段扩散模型框架，专门用于解决黑白图像序列的自动着色问题。该模型旨在确保角色和对象的身份（ID）在着色过程中得到一致保留，同时生成高...

图像模型 # ColorFlow

12个月前

03330

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

在多模态生成系统中，精准识别文本中的关键语义元素，是生成高质量图像或内容的前提。例如，当输入提示词“一位身着红色礼服的女人，手持手枪，站在黑暗小巷中”，模型需要准确识别出“红色礼服”“手枪”“黑暗小巷...

图像模型 # Chroma # FLUX # GNER-T5-XXL

5个月前

03320

FLUX.1 Tools 系列模型FP8量化版本，适合小显存用户使用

黑森林实验室（Black Forest Labs）在上个月发布了 FLUX.1 Tools 系列开源模型，旨在为图像处理和生成任务提供强大的工具。该系列包括以下三个主要模型： FLUX.1 Fill...

图像模型 # FLUX.1 Canny # FLUX.1 Depth # FLUX.1 Fill

12个月前

03300

多功能即插即用适配器MV-Adapter：将SDXL模型及其衍生模型适配为多视图生成器。

现有的多视图图像生成方法通常对预训练的文生图模型进行侵入性修改，并需要全面微调，导致高计算成本和图像质量下降。为了解决这些问题，北京航空航天大学、VAST 和上海交通大学的研究人员提出了 MV-Ada...

图像模型 # MV-Adapter # SDXL模型 # 多视图

12个月前

03300

跨模态图像生成模型Qwen2vl-Flux：将Qwen2VL的视觉语言理解能力与FLUX框架相结合，实现了更精确和上下文感知的图像生成

Qwen2vl-Flux 是一种先进的跨模态图像生成模型，它将Qwen2VL的视觉语言理解能力与FLUX框架相结合，实现了更精确和上下文感知的图像生成。该模型在文本提示和视觉参考的基础上生成高质量图像...

图像模型 # Qwen2vl-Flux # 视觉语言模型

12个月前

03290

字节跳动开源UMO：统一多身份优化框架，让AI准确“认出”每个人

在图像定制领域，个性化生成已逐渐从“一个人一个风格”迈向“多人协同场景”的复杂需求。然而，当一张图中需要同时呈现多个真实人物时，模型常常出现“张冠李戴”——面部特征混淆、身份错位，导致输出失真。这不仅...

图像模型 # UMO # 字节跳动

5个月前

03270

基于修复的指令引导图像编辑框架BrushEdit：通过自然语言指令进行无缝编辑，包括添加对象、移除元素或进行结构性更改等多样化编辑操作

图像编辑技术近年来在基于反演（inversion-based）和基于指令（instruction-based）的方法上取得了显著进步。然而，这些方法各自存在局限性：基于反演的方法：在处理重大修改（如...

图像模型 # BrushEdit # 图像编辑

12个月前

03270

多功能大规模扩散模型OneDiffusion：能够无缝支持双向图像合成和理解，跨越多种不同的任务

AI2、加州大学欧文分校和华盛顿大学的研究人员介绍了一种名为OneDiffusion的多功能、大规模扩散模型。OneDiffusion能够无缝支持在多样化任务中进行双向图像合成和理解，涵盖从文本、深度...

图像模型 # OneDiffusion # 扩散模型

12个月前

03260

NovelAI 正式公开了其基于SD1.5的第二代图像生成模型 NovelAI Diffusion V2

NovelAI 正式公开了其第二代图像生成模型 NovelAI Diffusion V2 的权重文件，供研究、个人使用及历史保存。这一举动意味着即使该模型在 NovelAI 官网停止服务后，用户仍可通...

图像模型 # NovelAI Diffusion V2 # SD1.5

7个月前

03230

新型图像生成框架DREAM ENGINE：结合多模态模型和扩散模型，实现复杂文本-图像交错控制的图像生成任务

北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE，它通过两阶段训练方法，将 QwenVL 等多模态编码器与扩散模型集成在一起，从而...

图像模型 # DREAM ENGINE # 图像生成 # 多模态模型

11个月前

03230

用于定制漫画生成的新框架DiffSensei：将多模态大语言模型和扩散模型结合起来，以实现对漫画角色形象和布局的精确控制

故事可视化，即将文本描述转化为视觉叙事的任务，近年来随着文本到图像生成模型的发展取得了显著进展。然而，现有的模型在处理多角色场景时，特别是在控制角色外观和互动方面，仍然存在局限性。具体来说，这些模型难...

图像模型 # DiffSensei # 定制漫画

12个月前

03210

Lumina-Accessory：专为 Lumina 系列模型设计的多任务指令微调框架

Lumina-Accessory 是一个专为 Lumina 系列模型设计的多任务指令微调框架，目前支持 Lumina-Image-2.0。该框架通过一系列创新设计，为图像生成和编辑任务提供了强大的支持...

图像模型 # Lumina-Accessory # Lumina-Image 2.0 # 图像生成

9个月前

03200

加载更多

三阶段扩散模型框架ColorFlow：专门用于解决黑白图像的自动着色问题

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

FLUX.1 Tools 系列模型FP8量化版本，适合小显存用户使用

多功能即插即用适配器MV-Adapter：将SDXL模型及其衍生模型适配为多视图生成器。

跨模态图像生成模型Qwen2vl-Flux：将Qwen2VL的视觉语言理解能力与FLUX框架相结合，实现了更精确和上下文感知的图像生成

字节跳动开源UMO：统一多身份优化框架，让AI准确“认出”每个人

基于修复的指令引导图像编辑框架BrushEdit：通过自然语言指令进行无缝编辑，包括添加对象、移除元素或进行结构性更改等多样化编辑操作

多功能大规模扩散模型OneDiffusion：能够无缝支持双向图像合成和理解，跨越多种不同的任务

NovelAI 正式公开了其基于SD1.5的第二代图像生成模型 NovelAI Diffusion V2

新型图像生成框架DREAM ENGINE：结合多模态模型和扩散模型，实现复杂文本-图像交错控制的图像生成任务

用于定制漫画生成的新框架DiffSensei：将多模态大语言模型和扩散模型结合起来，以实现对漫画角色形象和布局的精确控制

Lumina-Accessory：专为 Lumina 系列模型设计的多任务指令微调框架

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)

图像模型

网址

新QoderWork

OpenClaw（Clawdbot/Moltbot）

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)