图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

字节跳动 Seed 团队正式发布 SeedEdit 3.0：支持 4K 图像编辑，编辑可用率显著提升

今日，字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0，融合多样化的训练数据与奖励机制，在图像主体与背景一致性、指令理解能...

8个月前

01920

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

阿里Qwen项目组今日正式推出 Qwen-Image-Edit，基于 Qwen-Image 20B 模型进一步训练而成，是 Qwen-Image 系列在图像编辑方向的重要延伸。该模型不仅继承了 Qw...

图像模型 # Qwen-Image-Edit # 图像编辑模型

6个月前

01910

字节跳动推出新型框架 InfiniteYou (InfU)：用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片

字节跳动推出新型框架 InfiniteYou (InfU)，用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器（Diffusion Transformers...

图像模型 # InfiniteYou # InfU # 字节跳动

11个月前

01890

专为漫画线稿上色设计的Cobra框架：能将黑白线稿转化为生动的插图

在漫画生产行业中，基于参考图像的线稿上色是一项既复杂又关键的任务。一页漫画通常包含多样的人物、物体和背景，这不仅要求上色过程具备高准确性、上下文一致性，还需要灵活控制以满足不同场景需求。然而，传统的扩...

图像模型 # Cobra # 上色模型 # 漫画线稿

9个月前

01860

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

在图像生成领域，闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力，能够精准执行复杂的文本引导编辑任务。相比之下，开源社区虽有进展，却始终受限于高质量、大规模...

图像模型 # GPT-Image-Edit # GPT-IMAGE-EDIT-1.5M # 图像编辑模型

6个月前

01790

腾讯混元联合高校提出 Direct-Align：用“一步恢复”实现扩散模型的高效偏好对齐

在文生图模型日益成熟的今天，提升生成质量已不再是唯一目标——如何让图像真正符合人类的审美偏好，成为更高阶的挑战。现有方法通常依赖强化学习或可微奖励机制，将模型输出与人类偏好对齐。但这些方法普遍存在两...

图像模型 # Direct-Align # flux.1-dev-SRPO # 腾讯混元

5个月前

01770

智谱AI开源GLM-Image：自回归+扩散混合架构，攻克知识密集型图像生成难题

智谱AI正式推出GLM-Image——业界首个开源的工业级离散自回归图像生成模型。这款模型创新性地采用自回归模块+扩散解码器的混合架构，既继承了自回归模型对复杂语义的精准理解能力，又兼具扩散模型高保真...

图像模型 # GLM-Image # 智谱AI

2周前

01720

CoMPaSS：让AI“看懂”空间关系，提升文生图模型的空间理解能力

尽管当前的文本到图像（Text-to-Image, T2I）扩散模型能够生成高度逼真的图像，但在一个关键任务上仍频频失手：准确理解并渲染文本中描述的空间关系。例如，当用户输入： “一个棕色皮革沙发放...

图像模型 # CoMPaSS

5个月前

01620

基于Flux模型的图像编辑框架Insert Anything：通过用户指定的灵活控制，将参考图像中的对象无缝整合到目标场景中

来自浙江大学、哈佛大学和南洋理工大学的研究人员提出了一种名为 Insert Anything 的创新框架，通过用户指定的灵活控制，将参考图像中的对象无缝整合到目标场景中。这一方法无需为每个任务...

图像模型 # Insert Anything # 图像编辑

9个月前

01620

DreamOmni2：支持图文指令的统一图像生成与编辑模型

香港中文大学、香港科技大学与字节跳动联合推出开源模型 DreamOmni2，旨在突破当前 AI 图像编辑与生成的两大瓶颈：纯文本指令表达力有限，以及现有模型难以处理抽象概念（如风格、纹理、妆容等）。 ...

图像模型 # DreamOmni2 # 图像生成

4个月前

01590

BRIA AI 推出 Bria 3.2：专为商业设计的下一代文本到图像模型

BRIA AI 正式发布其最新文本到图像模型 Bria 3.2。作为一款专为企业和商业应用打造的生成模型，Bria 3.2 凭借仅 40 亿参数的轻量架构，在美学效果与文本渲染能力方面表现优异，经评...

图像模型 # Bria 3.2 # BRIA AI

7个月前

01560

MOSAIC：通过语义对齐与特征解耦实现高保真的多主体个性化生成

在个性化图像生成任务中，我们常常希望将多个参考主体（如人物、动物、物体）的特征融合到一张新图像中——例如，“让A的脸型、B的发型、C的表情和D的服饰出现在同一人身上”。这类任务被称为多主体个性化生成...

图像模型 # MOSAIC # 个性化生成

5个月前

01510

加载更多

字节跳动 Seed 团队正式发布 SeedEdit 3.0：支持 4K 图像编辑，编辑可用率显著提升

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

字节跳动推出新型框架 InfiniteYou (InfU)：用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片

专为漫画线稿上色设计的Cobra框架：能将黑白线稿转化为生动的插图

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

腾讯混元联合高校提出 Direct-Align：用“一步恢复”实现扩散模型的高效偏好对齐

智谱AI开源GLM-Image：自回归+扩散混合架构，攻克知识密集型图像生成难题

CoMPaSS：让AI“看懂”空间关系，提升文生图模型的空间理解能力

基于Flux模型的图像编辑框架Insert Anything：通过用户指定的灵活控制，将参考图像中的对象无缝整合到目标场景中

DreamOmni2：支持图文指令的统一图像生成与编辑模型

BRIA AI 推出 Bria 3.2：专为商业设计的下一代文本到图像模型

MOSAIC：通过语义对齐与特征解耦实现高保真的多主体个性化生成

新QoderWork

OpenClaw（Clawdbot/Moltbot）

新OpenClaw

Fogsight (雾象)

Skills.sh

ITELLOU

图像模型

网址

新QoderWork

OpenClaw（Clawdbot/Moltbot）

新OpenClaw

Fogsight (雾象)

Skills.sh

ITELLOU