图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

随着多模态大模型在图文理解、文本到图像生成、图像编辑等任务中表现日益强大，其高昂的推理成本也逐渐成为落地瓶颈。传统的自回归解码与扩散去噪过程需要大量迭代计算，在长上下文或多轮交互场景下响应迟缓。为此...

图像模型 # Hyper-Bagel # 字节跳动

4个月前

02180

阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509：支持多图输入与更强一致性

通义实验室发布 Qwen-Image-Edit-2509，作为 Qwen-Image-Edit 系列的月度迭代版本。该模型已在 Qwen Chat 平台上线，用户可通过“图像编辑”功能直接体验。 Hu...

图像模型 # Qwen-Image-Edit # Qwen-Image-Edit-2509 # 图像编辑模型

4个月前

05260

字节跳动发布OneReward 框架：用单一奖励模型革新多任务图像编辑

在图像生成领域，AI 已经能完成许多复杂操作：补全残缺画面、扩展图像边界、移除干扰物体，甚至在图中添加可读文本。但这些任务通常由不同模型分别处理——每个任务有自己的训练流程、评估标准和奖励机制。这带...

图像模型 # FLUX.1-Fill-dev-OneReward # OneReward # 字节跳动

5个月前

02990

UFC：韩国科学技术院推出的通用少样本图像控制适配器

在文本到图像生成领域，如何让预训练模型快速适应新的空间控制条件（如边缘图、深度图、人体姿态等），一直是一个挑战。传统方法通常需要大量标注数据和高昂的训练成本，限制了其灵活性与实用性。 GitHub：h...

图像模型 # UFC # 图像控制适配器

5个月前

01210

RecA：一种高效提升统一多模态模型图像生成能力的后训练方法

近年来，统一多模态模型（Unified Multimodal Models, UMMs）因其在视觉理解与生成任务中的双重能力而受到广泛关注。这类模型旨在通过单一架构实现对图像和文本的联合建模，既能“看...

图像模型 # RecA # 统一多模态模型

5个月前

02120

FLUX-Reason-6M & PRISM-Bench：600 万级 T2I 推理数据集 + 七轨道基准，开源模型研发新助力

在文本到图像（Text-to-Image, T2I）生成领域，一个长期存在的困境是：开源模型越做越像，却始终难以真正“理解”复杂指令。问题不在架构，而在数据与评估 —— 缺乏大规模、注重语义推理的训...

图像模型 # FLUX-Reason-6M # PRISM-Bench

5个月前

01180

腾讯混元联合高校提出 Direct-Align：用“一步恢复”实现扩散模型的高效偏好对齐

在文生图模型日益成熟的今天，提升生成质量已不再是唯一目标——如何让图像真正符合人类的审美偏好，成为更高阶的挑战。现有方法通常依赖强化学习或可微奖励机制，将模型输出与人类偏好对齐。但这些方法普遍存在两...

图像模型 # Direct-Align # flux.1-dev-SRPO # 腾讯混元

5个月前

01760

字节跳动开源UMO：统一多身份优化框架，让AI准确“认出”每个人

在图像定制领域，个性化生成已逐渐从“一个人一个风格”迈向“多人协同场景”的复杂需求。然而，当一张图中需要同时呈现多个真实人物时，模型常常出现“张冠李戴”——面部特征混淆、身份错位，导致输出失真。这不仅...

图像模型 # UMO # 字节跳动

5个月前

03270

中国团队推出 Lumina-DiMOO：支持生成与理解的全能多模态模型

由上海人工智能实验室牵头，联合上海创智学院、上海交通大学、悉尼大学、南京大学、香港中文大学和清华大学的研究团队，共同推出 Lumina-DiMOO ——一个面向多模态生成与理解一体化的新型基础模型。 ...

图像模型 # Lumina-DiMOO # 多模态模型

5个月前

02120

字节跳动发布 Seedream 4.0：首次支持多模态生图，同一模型实现文生图、图像编辑、组图生成

字节跳动正式推出 Seedream 4.0（即梦图片4.0），新一代图像创作模型。该模型在前代 Seedream 3.0 和 SeedEdit 3.0 的基础上，全面增强逻辑理解与多模态推理能力，首次...

图像模型 # Seedream 4.0 # 即梦图片4.0 # 字节跳动

5个月前

03080

腾讯混元开源 HunyuanImage 2.1：支持 2K 分辨率的高效文生图模型

腾讯混元项目组正式开源HunyuanImage 2.1，一款支持 2048×2048 超高分辨率（2K）生成的文生图模型。该模型在语义对齐、细节控制与推理效率方面实现显著提升，具备电影级构图能力，并原...

图像模型 # HunyuanImage 2.1 # 文生图模型

5个月前

03420

突破 SD3.5/FLUX.1！TiM模型实现少步高效与多步高质无缝衔接

来自香港中文大学MMLab、上海人工智能实验室和悉尼大学的研究团队，推出了一款名为Transition Models (TiM) 的新型生成模型。该模型通过重构生成学习的核心目标，成功破解了生成模型领...

图像模型 # Transition Models # 生成模型

5个月前

02230

加载更多

字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509：支持多图输入与更强一致性

字节跳动发布OneReward 框架：用单一奖励模型革新多任务图像编辑

UFC：韩国科学技术院推出的通用少样本图像控制适配器

RecA：一种高效提升统一多模态模型图像生成能力的后训练方法

FLUX-Reason-6M & PRISM-Bench：600 万级 T2I 推理数据集 + 七轨道基准，开源模型研发新助力

腾讯混元联合高校提出 Direct-Align：用“一步恢复”实现扩散模型的高效偏好对齐

字节跳动开源UMO：统一多身份优化框架，让AI准确“认出”每个人

中国团队推出 Lumina-DiMOO：支持生成与理解的全能多模态模型

字节跳动发布 Seedream 4.0：首次支持多模态生图，同一模型实现文生图、图像编辑、组图生成

腾讯混元开源 HunyuanImage 2.1：支持 2K 分辨率的高效文生图模型

突破 SD3.5/FLUX.1！TiM模型实现少步高效与多步高质无缝衔接

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU

图像模型

网址

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU