SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    图像模型

    共 225 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    随着多模态大模型在图文理解、文本到图像生成、图像编辑等任务中表现日益强大,其高昂的推理成本也逐渐成为落地瓶颈。传统的自回归解码与扩散去噪过程需要大量迭代计算,在长上下文或多轮交互场景下响应迟缓。 为此...
    图像模型# Hyper-Bagel# 字节跳动
    4个月前
    02180
    阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509:支持多图输入与更强一致性

    阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509:支持多图输入与更强一致性

    通义实验室发布 Qwen-Image-Edit-2509,作为 Qwen-Image-Edit 系列的月度迭代版本。该模型已在 Qwen Chat 平台上线,用户可通过“图像编辑”功能直接体验。 Hu...
    图像模型# Qwen-Image-Edit# Qwen-Image-Edit-2509# 图像编辑模型
    4个月前
    05260
    字节跳动发布OneReward 框架:用单一奖励模型革新多任务图像编辑

    字节跳动发布OneReward 框架:用单一奖励模型革新多任务图像编辑

    在图像生成领域,AI 已经能完成许多复杂操作:补全残缺画面、扩展图像边界、移除干扰物体,甚至在图中添加可读文本。但这些任务通常由不同模型分别处理——每个任务有自己的训练流程、评估标准和奖励机制。 这带...
    图像模型# FLUX.1-Fill-dev-OneReward# OneReward# 字节跳动
    5个月前
    02990
    UFC:韩国科学技术院推出的通用少样本图像控制适配器

    UFC:韩国科学技术院推出的通用少样本图像控制适配器

    在文本到图像生成领域,如何让预训练模型快速适应新的空间控制条件(如边缘图、深度图、人体姿态等),一直是一个挑战。传统方法通常需要大量标注数据和高昂的训练成本,限制了其灵活性与实用性。 GitHub:h...
    图像模型# UFC# 图像控制适配器
    5个月前
    01210
    RecA:一种高效提升统一多模态模型图像生成能力的后训练方法

    RecA:一种高效提升统一多模态模型图像生成能力的后训练方法

    近年来,统一多模态模型(Unified Multimodal Models, UMMs)因其在视觉理解与生成任务中的双重能力而受到广泛关注。这类模型旨在通过单一架构实现对图像和文本的联合建模,既能“看...
    图像模型# RecA# 统一多模态模型
    5个月前
    02120
    FLUX-Reason-6M & PRISM-Bench:600 万级 T2I 推理数据集 + 七轨道基准,开源模型研发新助力

    FLUX-Reason-6M & PRISM-Bench:600 万级 T2I 推理数据集 + 七轨道基准,开源模型研发新助力

    在文本到图像(Text-to-Image, T2I)生成领域,一个长期存在的困境是:开源模型越做越像,却始终难以真正“理解”复杂指令。 问题不在架构,而在数据与评估 —— 缺乏大规模、注重语义推理的训...
    图像模型# FLUX-Reason-6M# PRISM-Bench
    5个月前
    01180
    腾讯混元联合高校提出 Direct-Align:用“一步恢复”实现扩散模型的高效偏好对齐

    腾讯混元联合高校提出 Direct-Align:用“一步恢复”实现扩散模型的高效偏好对齐

    在文生图模型日益成熟的今天,提升生成质量已不再是唯一目标——如何让图像真正符合人类的审美偏好,成为更高阶的挑战。 现有方法通常依赖强化学习或可微奖励机制,将模型输出与人类偏好对齐。但这些方法普遍存在两...
    图像模型# Direct-Align# flux.1-dev-SRPO# 腾讯混元
    5个月前
    01760
    字节跳动开源UMO:统一多身份优化框架,让AI准确“认出”每个人

    字节跳动开源UMO:统一多身份优化框架,让AI准确“认出”每个人

    在图像定制领域,个性化生成已逐渐从“一个人一个风格”迈向“多人协同场景”的复杂需求。然而,当一张图中需要同时呈现多个真实人物时,模型常常出现“张冠李戴”——面部特征混淆、身份错位,导致输出失真。这不仅...
    图像模型# UMO# 字节跳动
    5个月前
    03260
    腾讯混元开源 HunyuanImage 2.1:支持 2K 分辨率的高效文生图模型

    腾讯混元开源 HunyuanImage 2.1:支持 2K 分辨率的高效文生图模型

    腾讯混元项目组正式开源HunyuanImage 2.1,一款支持 2048×2048 超高分辨率(2K)生成的文生图模型。该模型在语义对齐、细节控制与推理效率方面实现显著提升,具备电影级构图能力,并原...
    图像模型# HunyuanImage 2.1# 文生图模型
    5个月前
    03420
    中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型

    中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型

    由上海人工智能实验室牵头,联合上海创智学院、上海交通大学、悉尼大学、南京大学、香港中文大学和清华大学的研究团队,共同推出 Lumina-DiMOO ——一个面向多模态生成与理解一体化的新型基础模型。 ...
    图像模型# Lumina-DiMOO# 多模态模型
    5个月前
    02120
    字节跳动发布 Seedream 4.0:首次支持多模态生图,同一模型实现 文生图、图像编辑、组图生成

    字节跳动发布 Seedream 4.0:首次支持多模态生图,同一模型实现 文生图、图像编辑、组图生成

    字节跳动正式推出 Seedream 4.0(即梦图片4.0),新一代图像创作模型。该模型在前代 Seedream 3.0 和 SeedEdit 3.0 的基础上,全面增强逻辑理解与多模态推理能力,首次...
    图像模型# Seedream 4.0# 即梦图片4.0# 字节跳动
    5个月前
    03080
    突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接

    突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接

    来自香港中文大学MMLab、上海人工智能实验室和悉尼大学的研究团队,推出了一款名为Transition Models (TiM) 的新型生成模型。该模型通过重构生成学习的核心目标,成功破解了生成模型领...
    图像模型# Transition Models# 生成模型
    5个月前
    02230
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    CivitAI

    CivitAI

    CivitAI是一个AI图像及视频模型托管平台,主要聚焦于 AI 生成的图像、视频和模型。它为用户提供了一个空间,可以上传、分享和发现由特定数据集训练的自定义 AI 模型,这些模型可用于生成独特的内容,如图像、视频。
    打滑作业平台

    打滑作业平台

    “打滑作业”是一个面向学生和自学者的开源工具,帮助用户快速理解题目、获取答案,从而节省时间,把精力投入到更重要的兴趣与生活中。
    查看完整榜单