SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    图像模型

    共 220 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系。 例如,当用户输入: “一个棕色皮革沙发放...
    图像模型# CoMPaSS
    4个月前
    01570
    复旦等团队联合突破文生图模型生成瓶颈:Pref-GRPO解决奖励操控,UniGenBench补上评估短板

    复旦等团队联合突破文生图模型生成瓶颈:Pref-GRPO解决奖励操控,UniGenBench补上评估短板

    文本到图像(T2I)生成技术的进步,离不开强化学习方法的优化与基准测试的支撑。但当前领域存在两大核心问题:一是传统强化学习依赖“点式奖励模型”打分,易出现“分数涨而质量降”的奖励操控现象;二是现有基准...
    图像模型# Pref-GRPO# 文生图模型
    4个月前
    02870
    字节跳动推出 USO:统一风格与主体生成模型,开源全方案赋能创作

    字节跳动推出 USO:统一风格与主体生成模型,开源全方案赋能创作

    字节跳动智能创作实验室UXO项目组近期发布了UXO家族的新成员——USO(统一风格-主体优化定制模型)。这款模型打破了现有技术中“风格驱动”与“主体驱动”生成相互孤立的困境,能在单一框架下自由组合任意...
    图像模型# USO# 字节跳动# 统一风格与主体生成模型
    4个月前
    04980
    nano-banana正式版!谷歌发布全新图像模型Gemini 2.5 Flash Image,更精准的 AI 图像编辑

    nano-banana正式版!谷歌发布全新图像模型Gemini 2.5 Flash Image,更精准的 AI 图像编辑

    谷歌正在为其 Gemini 聊天机器人引入一项重要升级:全新的 AI 图像模型 Gemini 2.5 Flash Image。该模型不仅提升了图像生成质量,更在编辑精度、角色一致性与多图融合方面实现了...
    图像模型# AI 图像编辑# Gemini 2.5 Flash Image# nano-banana
    5个月前
    04800
    Chroma 模型家族正式发布:基于 FLUX.1-schnell,8.9亿参数开源无限制,4大分支适配不同需求

    Chroma 模型家族正式发布:基于 FLUX.1-schnell,8.9亿参数开源无限制,4大分支适配不同需求

    开发者 lodestones 近期宣布,基于 FLUX.1-schnell 构建的 8.9 亿参数生成模型 Chroma 已完成全部基础训练,正式开放供开发者与研究者使用。作为完全遵循 Apache ...
    图像模型# Chroma# FLUX.1 [schnell]
    5个月前
    09790
    GNER-T5-XXL:GNER 提升零样本实体识别能力,可用于 Flux、Chroma 等模型

    GNER-T5-XXL:GNER 提升零样本实体识别能力,可用于 Flux、Chroma 等模型

    在多模态生成系统中,精准识别文本中的关键语义元素,是生成高质量图像或内容的前提。例如,当输入提示词“一位身着红色礼服的女人,手持手枪,站在黑暗小巷中”,模型需要准确识别出“红色礼服”“手枪”“黑暗小巷...
    图像模型# Chroma# FLUX# GNER-T5-XXL
    5个月前
    02880
    阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

    阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

    阿里Qwen项目组今日正式推出 Qwen-Image-Edit,基于 Qwen-Image 20B 模型进一步训练而成,是 Qwen-Image 系列在图像编辑方向的重要延伸。 该模型不仅继承了 Qw...
    图像模型# Qwen-Image-Edit# 图像编辑模型
    5个月前
    01910
    Nunchaku发布量化版Qwen-Image模型,支持高效图像生成

    Nunchaku发布量化版Qwen-Image模型,支持高效图像生成

    Nunchaku 官方宣布,其基于Qwen-Image的四个量化版本模型已正式上线 Hugging Face和魔塔!这些模型专为高效文本到图像生成而优化,尤其在复杂文本渲染方面表现突出。 Huggin...
    图像模型# Nunchaku# Qwen-Image
    5个月前
    05410
    Meta AI 发布 DINOv3:无需微调、无需标注的下一代视觉模型

    Meta AI 发布 DINOv3:无需微调、无需标注的下一代视觉模型

    Meta AI 正式推出 DINOv3 —— 一项在计算机视觉领域具有里程碑意义的自监督学习模型。它不仅刷新了密集预测任务的性能上限,更首次证明:一个通用、冻结的视觉骨干,可以在无需微调的情况下,在多...
    图像模型# DINOv3# 视觉模型
    5个月前
    05270
    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    在图像生成领域,自回归模型长期被视作“文本专家,视觉弱项”——它们擅长逐词生成语言,却难以像扩散模型那样精细构建图像。而如今,阶跃星辰(StepFun)正试图打破这一边界。 GitHub:https...
    图像模型# NextStep-1# 图像生成# 图像编辑
    5个月前
    05050
    Pattern Diffusion:专为无缝图案生成而生的扩散模型

    Pattern Diffusion:专为无缝图案生成而生的扩散模型

    由开发者 Alex Reid 推出的 Pattern Diffusion,是一个专为生成可平铺(tiling)表面图案而从零训练的扩散模型。它基于 Stable Diffusion 2-Base 架构...
    图像模型# Pattern Diffusion# 无缝图案
    5个月前
    02580
    天工AI发布 UniPic-2.0:轻量高效、统一多模态图像生成与编辑新范式

    天工AI发布 UniPic-2.0:轻量高效、统一多模态图像生成与编辑新范式

    天工AI正式推出 UniPic-2.0 系列模型,基于 SD3.5-Medium 架构与创新训练策略,在文本到图像生成、细粒度图像编辑和多模态理解任务中实现全面性能突破。 GitHub:https...
    图像模型# UniPic-2.0# 天工AI
    5个月前
    03300
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    素食烹饪指南

    素食烹饪指南

    素食烹饪指南(HowToCookVegan)是一个开源项目,旨在为所有热爱素食、关注健康与地球的人,提供一份简单、实用、有趣的纯素食烹饪指南。
    NotebookLM 网页导入器

    NotebookLM 网页导入器

    由社区开发者推出的浏览器扩展 NotebookLM Web Importer,让你一键将当前浏览的网页或正在观看的 YouTube 视频导入 NotebookLM,无需复制粘贴、无需手动下载转文本。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Apple Wallpapers

    Apple Wallpapers

    AppleWalls 提供 iPhone、iPad 与 Mac 系统原生高清壁纸下载,收录 iOS 与 macOS 各版本官方壁纸。探索苹果设计美学,体验纯粹的 Apple 风格。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    查看完整榜单