SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    图像模型

    共 225 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    今日,字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0,融合多样化的训练数据与奖励机制,在图像主体与背景一致性、指令理解能...
    图像模型# SeedEdit 3.0# 字节跳动
    8个月前
    01920
    阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

    阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

    阿里Qwen项目组今日正式推出 Qwen-Image-Edit,基于 Qwen-Image 20B 模型进一步训练而成,是 Qwen-Image 系列在图像编辑方向的重要延伸。 该模型不仅继承了 Qw...
    图像模型# Qwen-Image-Edit# 图像编辑模型
    6个月前
    01910
    字节跳动推出新型框架 InfiniteYou (InfU):用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片

    字节跳动推出新型框架 InfiniteYou (InfU):用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片

    字节跳动推出新型框架 InfiniteYou (InfU),用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器(Diffusion Transformers...
    图像模型# InfiniteYou# InfU# 字节跳动
    11个月前
    01890
    专为漫画线稿上色设计的Cobra框架:能将黑白线稿转化为生动的插图

    专为漫画线稿上色设计的Cobra框架:能将黑白线稿转化为生动的插图

    在漫画生产行业中,基于参考图像的线稿上色是一项既复杂又关键的任务。一页漫画通常包含多样的人物、物体和背景,这不仅要求上色过程具备高准确性、上下文一致性,还需要灵活控制以满足不同场景需求。然而,传统的扩...
    图像模型# Cobra# 上色模型# 漫画线稿
    9个月前
    01860
    GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集

    GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集

    在图像生成领域,闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力,能够精准执行复杂的文本引导编辑任务。相比之下,开源社区虽有进展,却始终受限于高质量、大规模...
    图像模型# GPT-Image-Edit# GPT-IMAGE-EDIT-1.5M# 图像编辑模型
    6个月前
    01790
    腾讯混元联合高校提出 Direct-Align:用“一步恢复”实现扩散模型的高效偏好对齐

    腾讯混元联合高校提出 Direct-Align:用“一步恢复”实现扩散模型的高效偏好对齐

    在文生图模型日益成熟的今天,提升生成质量已不再是唯一目标——如何让图像真正符合人类的审美偏好,成为更高阶的挑战。 现有方法通常依赖强化学习或可微奖励机制,将模型输出与人类偏好对齐。但这些方法普遍存在两...
    图像模型# Direct-Align# flux.1-dev-SRPO# 腾讯混元
    5个月前
    01770
    智谱AI开源GLM-Image:自回归+扩散混合架构,攻克知识密集型图像生成难题

    智谱AI开源GLM-Image:自回归+扩散混合架构,攻克知识密集型图像生成难题

    智谱AI正式推出GLM-Image——业界首个开源的工业级离散自回归图像生成模型。这款模型创新性地采用自回归模块+扩散解码器的混合架构,既继承了自回归模型对复杂语义的精准理解能力,又兼具扩散模型高保真...
    图像模型# GLM-Image# 智谱AI
    2周前
    01720
    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系。 例如,当用户输入: “一个棕色皮革沙发放...
    图像模型# CoMPaSS
    5个月前
    01620
    基于Flux模型的图像编辑框架Insert Anything:通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中

    基于Flux模型的图像编辑框架Insert Anything:通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中

    来自 浙江大学、哈佛大学 和 南洋理工大学 的研究人员提出了一种名为 Insert Anything 的创新框架,通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中。这一方法无需为每个任务...
    图像模型# Insert Anything# 图像编辑
    9个月前
    01620
    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    香港中文大学、香港科技大学与字节跳动联合推出开源模型 DreamOmni2,旨在突破当前 AI 图像编辑与生成的两大瓶颈:纯文本指令表达力有限,以及现有模型难以处理抽象概念(如风格、纹理、妆容等)。 ...
    图像模型# DreamOmni2# 图像生成
    4个月前
    01590
    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 正式发布其最新文本到图像模型 Bria 3.2。作为一款专为企业和商业应用打造的生成模型,Bria 3.2 凭借仅 40 亿参数 的轻量架构,在美学效果与文本渲染能力方面表现优异,经评...
    图像模型# Bria 3.2# BRIA AI
    7个月前
    01560
    MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

    MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

    在个性化图像生成任务中,我们常常希望将多个参考主体(如人物、动物、物体)的特征融合到一张新图像中——例如,“让A的脸型、B的发型、C的表情和D的服饰出现在同一人身上”。这类任务被称为多主体个性化生成...
    图像模型# MOSAIC# 个性化生成
    5个月前
    01510
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    新OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单