SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    图像模型

    共 225 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Freepik 推出基于商业授权图像训练的 AI 图像生成模型 F Lite

    Freepik 推出基于商业授权图像训练的 AI 图像生成模型 F Lite

    在线图形设计平台 Freepik 于周二宣布推出一款新的开源图像生成模型——F Lite。这款模型完全基于商业授权的、“适合工作场所(SFW)”的图像进行训练,为用户提供安全、合法且高质量的图像生成服...
    图像模型# F Lite# Freepik# 图像生成模型
    9个月前
    02340
    阿里Ovis团队发布统一多模态模型Ovis-U1:理解、生成与编辑三位一体

    阿里Ovis团队发布统一多模态模型Ovis-U1:理解、生成与编辑三位一体

    近日,阿里巴巴通义实验室Ovis团队正式发布了新一代统一多模态大模型——Ovis-U1。该模型以30亿参数为基础,实现了对多模态任务的全面覆盖,涵盖图像理解、文本到图像生成以及图像编辑三大核心能力。 ...
    图像模型# Ovis-U1# 统一多模态模型
    7个月前
    02320
    突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接

    突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接

    来自香港中文大学MMLab、上海人工智能实验室和悉尼大学的研究团队,推出了一款名为Transition Models (TiM) 的新型生成模型。该模型通过重构生成学习的核心目标,成功破解了生成模型领...
    图像模型# Transition Models# 生成模型
    5个月前
    02230
    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    Ovis-Image 是由阿里巴巴国际数字商务团队开发的 70亿参数 文本到图像(Text-to-Image)生成模型,专注于解决文生图系统中长期存在的文本模糊、拼写错误、排版失真等痛点。该模型在保持...
    图像模型# Ovis-Image# 文生图模型
    2个月前
    02210
    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    随着多模态大模型在图文理解、文本到图像生成、图像编辑等任务中表现日益强大,其高昂的推理成本也逐渐成为落地瓶颈。传统的自回归解码与扩散去噪过程需要大量迭代计算,在长上下文或多轮交互场景下响应迟缓。 为此...
    图像模型# Hyper-Bagel# 字节跳动
    4个月前
    02190
    RecA:一种高效提升统一多模态模型图像生成能力的后训练方法

    RecA:一种高效提升统一多模态模型图像生成能力的后训练方法

    近年来,统一多模态模型(Unified Multimodal Models, UMMs)因其在视觉理解与生成任务中的双重能力而受到广泛关注。这类模型旨在通过单一架构实现对图像和文本的联合建模,既能“看...
    图像模型# RecA# 统一多模态模型
    5个月前
    02120
    中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型

    中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型

    由上海人工智能实验室牵头,联合上海创智学院、上海交通大学、悉尼大学、南京大学、香港中文大学和清华大学的研究团队,共同推出 Lumina-DiMOO ——一个面向多模态生成与理解一体化的新型基础模型。 ...
    图像模型# Lumina-DiMOO# 多模态模型
    5个月前
    02120
    新型框架 EliGen:用于实现图像生成中的实体级控制

    新型框架 EliGen:用于实现图像生成中的实体级控制

    浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...
    图像模型# EliGen# 图像生成
    10个月前
    02100
    Face-MoGLE:一种面向高保真与可控人脸生成的新框架

    Face-MoGLE:一种面向高保真与可控人脸生成的新框架

    在生成模型中,可控人脸合成是一项极具挑战的任务。既要保证生成图像的真实感与细节质量,又要实现对发型、五官、表情等语义属性的精确控制,二者往往难以兼顾。 现有方法常将语义条件直接拼接或交叉注意力注入生成...
    图像模型# Face-MoGLE# 人脸生成
    5个月前
    02050
    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    “能否用同一个模型,既写诗又作画?”这是多模态模型长期以来追求的目标。 近年来,研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域,构建统一的离散自回归模型,期望实现图像生成与语...
    图像模型# X-Omni# 自回归模型
    6个月前
    02050
    个性化图像生成和编辑方法SISO:适合在只有单张主题图像的情况下使用

    个性化图像生成和编辑方法SISO:适合在只有单张主题图像的情况下使用

    巴伊兰大学和英伟达的研究人员推出一种无需训练的方法SISO,用于从单张主题图像进行个性化图像生成和编辑。SISO 是一种无需训练的方法,通过优化与输入主题图像的相似度分数来实现图像的个性化生成和编辑...
    图像模型# SISO# 图像生成# 图像编辑
    10个月前
    02020
    基于像素空间流的图像生成模型PixelFlow:根据给定的文本描述生成高质量、语义一致的图像

    基于像素空间流的图像生成模型PixelFlow:根据给定的文本描述生成高质量、语义一致的图像

    香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow,它直接在像素空间中进行操作,与传统的基于潜在空间(latent space)的模型不同。PixelFlow通过高效的级...
    图像模型# PixelFlow# 图像生成模型
    10个月前
    01940
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    新OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    查看完整榜单