SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    图像模型

    共 220 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Yandex Research推出分层蒸馏框架SWD:加速扩散模型(如FLUX和SD3.5)的生成过程

    Yandex Research推出分层蒸馏框架SWD:加速扩散模型(如FLUX和SD3.5)的生成过程

    Yandex Research 推出了一种名为 “Scale-wise Distillation of Diffusion Models (SWD)” 的新型框架,通过分层采样策略加速扩散模型(DMs...
    图像模型# FLUX# SD3.5# SWD
    10个月前
    04980
    新型图像编辑框架PhotoDoodle:通过文字提示在照片中添加艺术化装饰

    新型图像编辑框架PhotoDoodle:通过文字提示在照片中添加艺术化装饰

    新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat的研究人员推出新型图像编辑框架PhotoDoodle,通过少量样本学习艺术家的独特风格,将装饰元素(如手绘线条、装饰图案等)无缝叠加到...
    图像模型# PhotoDoodle# 图像编辑框架# 照片涂鸦
    10个月前
    02900
    字节跳动推出新型框架 InfiniteYou (InfU):用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片

    字节跳动推出新型框架 InfiniteYou (InfU):用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片

    字节跳动推出新型框架 InfiniteYou (InfU),用于在保留个人身份特征的前提下,通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器(Diffusion Transformers...
    图像模型# InfiniteYou# InfU# 字节跳动
    10个月前
    01890
    SANA模型的升级版SANA 1.5:实现高质量的图像生成,同时显著降低了训练和推理成本

    SANA模型的升级版SANA 1.5:实现高质量的图像生成,同时显著降低了训练和推理成本

    英伟达、麻省理工学院、清华大学、Playground和北京大学的研究团队推出了SANA模型的升级版SANA 1.5,这是一款高效的DiT架构模型,通过创新的训练和推理策略,实现文本到图像生成任务中的高...
    图像模型# DiT架构模型# SANA 1.5# 文生图模型
    10个月前
    03080
    Illustrious XL v2.0正式发布,支持1024x1536原生分辨率生成

    Illustrious XL v2.0正式发布,支持1024x1536原生分辨率生成

    在开源AI绘画模型领域,Flux模型是众多衍生开发的基础。然而,在二次元领域,尤其是日式风格方面,情况有所不同。目前,大量用户依然以SDXL模型为基础进行衍生开发。在开源社区中,Pony、Illust...
    图像模型# Illustrious XL v2.0# SDXL# 二次元
    10个月前
    02,4860
    基于神经热场的无混叠任意尺度超分辨率(ASR)方法Thera:实现高质量的图像超分辨率重建

    基于神经热场的无混叠任意尺度超分辨率(ASR)方法Thera:实现高质量的图像超分辨率重建

    苏黎世联邦理工学院和苏黎世大学的研究人员推出一种基于神经热场(Neural Heat Fields)的无混叠任意尺度超分辨率(ASR)方法Thera,该方通过结合神经场(Neural Fields)和...
    图像模型# Thera# 图像放大# 图像高清
    10个月前
    05400
    全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

    全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

    CLIP(对比语言-图像预训练)是 OpenAI 开发的一种多模态模型,通过对比学习在大量图像-文本对上训练,将图像和文本嵌入到同一个共享空间中,便于零样本任务。然而,CLIP 在处理全局信息时存在一...
    图像模型# CLIP# CLIP-fine-tune-registers-gated
    10个月前
    02730
    谷歌开源野生动物识别 AI 模型 SpeciesNet

    谷歌开源野生动物识别 AI 模型 SpeciesNet

    谷歌本周宣布开源野生动物识别 AI 模型 SpeciesNet,帮助动物学家更高效地处理和分析大量野生动物监测影像。这一工具能够显著加快生物多样性监测和保育研究的进程。 SpeciesNet:AI 助...
    图像模型# SpeciesNet# 谷歌# 野生动物
    10个月前
    03970
    智谱开源首个支持汉字生成的开源文生图模型 CogView4

    智谱开源首个支持汉字生成的开源文生图模型 CogView4

    作为中国AI厂商中的开源先锋,智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作,开源了多个备受关注的AI模型系列,包括大语言模型GLM系列、文生图模型CogView系列...
    图像模型# CogView4# 文生图模型# 智谱
    10个月前
    03550
    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE,它通过两阶段训练方法,将 QwenVL 等多模态编码器与扩散模型集成在一起,从而...
    图像模型# DREAM ENGINE# 图像生成# 多模态模型
    10个月前
    03160
    新型多层透明图像生成方法ART:通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

    新型多层透明图像生成方法ART:通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

    微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究人员推出新型多层透明图像生成方法Anonymous Region Transformer (ART) ,通过全局文本提示和匿名区域布局直接生成...
    图像模型# ART# 透明图像
    11个月前
    02890
    新单目深度估计模型Distill-Any-Depth:新型知识蒸馏框架的单目深度估计方法

    新单目深度估计模型Distill-Any-Depth:新型知识蒸馏框架的单目深度估计方法

    单目深度估计(MDE)旨在从单一 RGB 图像中预测场景深度,是 3D 场景理解中的关键任务。近年来,零样本 MDE 的研究取得了显著进展,主要依赖归一化的深度表示和基于蒸馏的学习来提高模型在不同场景...
    图像模型# Distill-Any-Depth# 深度估计模型# 知识蒸馏框架
    11个月前
    03930
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Obsidian-Skills

    新Obsidian-Skills

    obsidian-skills是一套专为 Obsidian 用户设计的 Claude Skills 插件,允许 Claude Code 直接在你的本地知识库中创建、读取和修改文件——无需离开 Obsidian 生态,也无需额外转换格式。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    互联网大厂模拟器

    新互联网大厂模拟器

    《互联网大厂模拟器》或许不会改变现实,但它提供了一个出口:在虚拟世界里,我们可以安全地体验“另一种职场人生”,然后笑着关掉页面,继续面对明天的站会。
    查看完整榜单