SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    图像模型

    共 220 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    随着生成模型的飞速发展,AI 合成图像已变得越来越逼真。然而,这种进步也带来了严峻挑战:虚假内容泛滥、误导信息传播、数字信任危机加剧。 作为应对,合成图像检测技术应运而生。但当前方法普遍存在三大局限...
    图像模型# LEGION# 多模态分析框架
    5个月前
    01510
    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    “能否用同一个模型,既写诗又作画?”这是多模态模型长期以来追求的目标。 近年来,研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域,构建统一的离散自回归模型,期望实现图像生成与语...
    图像模型# X-Omni# 自回归模型
    5个月前
    01840
    上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

    上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

    上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型(Stable Diffusion),支持点、框和掩码三种视觉提示,能够从自然图像中...
    图像模型# SDMatte# 图像抠图
    5个月前
    03260
    图像质量评估体系HPSv3:用“人类偏好”重新定义图像生成质量评估

    图像质量评估体系HPSv3:用“人类偏好”重新定义图像生成质量评估

    当AI画出一张“森林中休息的鹿”,我们如何判断它画得好不好? 是看它是否包含“鹿”和“树木”?还是看光影是否自然、构图是否美观、整体是否令人愉悦?显然,后者更贴近人类的真实审美。然而,当前大多数文本到...
    图像模型# HPSv3# 图像质量评估体系
    5个月前
    03570
    PixNerd:无需 VAE,用神经场实现端到端像素级图像生成

    PixNerd:无需 VAE,用神经场实现端到端像素级图像生成

    在图像生成领域,扩散模型已成主流,但其典型架构依赖变分自编码器(VAE)将图像压缩至低维潜在空间,再在该空间进行生成。这种“两阶段”范式虽能降低计算负担,却也带来了解码伪影与信息损失等固有缺陷。 为突...
    图像模型# PixNerd
    5个月前
    02590
    阿里 Qwen 项目组发布 Qwen-Image:首个 20B 级 MMDiT 图像生成基础模型

    阿里 Qwen 项目组发布 Qwen-Image:首个 20B 级 MMDiT 图像生成基础模型

    阿里 Qwen 项目组正式推出 Qwen-Image,这是通义千问系列中首个专注于图像生成的基础大模型。基于 20B 参数的 MMDiT(Multimodal Diffusion Transforme...
    图像模型# Qwen-Image# 图像生成模型
    5个月前
    03100
    GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集

    GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集

    在图像生成领域,闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力,能够精准执行复杂的文本引导编辑任务。相比之下,开源社区虽有进展,却始终受限于高质量、大规模...
    图像模型# GPT-Image-Edit# GPT-IMAGE-EDIT-1.5M# 图像编辑模型
    5个月前
    01750
    腾讯混元项目组联合北京大学提出新框架MixGRPO:用混合微分方程提升图像对齐效率

    腾讯混元项目组联合北京大学提出新框架MixGRPO:用混合微分方程提升图像对齐效率

    在图像生成领域,如何让模型输出更符合人类审美与偏好,已成为对齐研究的核心目标。基于流匹配(Flow Matching)的生成模型近年来展现出强大潜力,而 Group Relative Policy O...
    图像模型# MixGRPO
    5个月前
    02780
    黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]: 实现更真实、更自然的图像生成

    黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]: 实现更真实、更自然的图像生成

    黑森林实验室(Black Forest Labs, BFL)与创意 AI 平台 KREA AI 正式宣布推出 FLUX.1 Krea [dev] —— 一个全新的开源文本到图像生成模型,也是 Krea...
    图像模型# FLUX.1 Krea [dev]# 图像生成# 黑森林实验室
    5个月前
    05300
    腾讯混元提出 X-Omni:用强化学习突破离散自回归图像生成瓶颈

    腾讯混元提出 X-Omni:用强化学习突破离散自回归图像生成瓶颈

    在当前多模态生成模型的发展中,研究者始终在探索一个统一的建模范式:能否用类似语言模型“预测下一个词”的方式,来生成图像?这种被称为“下一令牌预测(next-token prediction)”的自回归...
    图像模型# X-Omni# 腾讯混元
    5个月前
    03410
    Anzhc 开源系列 YOLO 模型:专注细粒度图像分割与分类任务

    Anzhc 开源系列 YOLO 模型:专注细粒度图像分割与分类任务

    在图像检测与分割领域,高质量的专用模型往往能显著提升下游任务的表现。开发者 Anzhc 基于自建标注数据集,训练并开源了一系列面向特定视觉任务的 YOLO 模型,涵盖面部、眼部、头部、胸部等细粒度目标...
    图像模型# YOLO 模型# 图像分割
    6个月前
    03950
    南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ,精准消除物体及其阴影、反射

    南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ,精准消除物体及其阴影、反射

    在图像编辑任务中,移除一个物体看似简单,实则极具挑战。 不仅要将目标对象从画面中“擦除”,还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当,即便主体消失,残留的影子或反光仍...
    图像模型# ObjectClear# 南洋理工大学# 对象移除
    6个月前
    03350
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Obsidian-Skills

    新Obsidian-Skills

    obsidian-skills是一套专为 Obsidian 用户设计的 Claude Skills 插件,允许 Claude Code 直接在你的本地知识库中创建、读取和修改文件——无需离开 Obsidian 生态,也无需额外转换格式。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单