SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    图像模型

    共 225 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    MARBLE:基于 CLIP 空间的图像材质编辑新方法

    MARBLE:基于 CLIP 空间的图像材质编辑新方法

    在计算机视觉与图形学领域,图像中对象材质的编辑是一项具有挑战性的任务。传统方法往往依赖复杂的建模与渲染流程,而近年来,借助预训练扩散模型与语义嵌入空间(如CLIP)的技术逐渐成为研究热点。 项目主页...
    图像模型# MARBLE# 图像材质编辑
    8个月前
    02770
    全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

    全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

    CLIP(对比语言-图像预训练)是 OpenAI 开发的一种多模态模型,通过对比学习在大量图像-文本对上训练,将图像和文本嵌入到同一个共享空间中,便于零样本任务。然而,CLIP 在处理全局信息时存在一...
    图像模型# CLIP# CLIP-fine-tune-registers-gated
    11个月前
    02740
    基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程

    基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程

    新加坡国立大学的研究团队推出 MakeAnything,这是一个基于DiT模型的多领域程序化序列生成框架,能够根据文本描述或图像生成分步骤的教程,也就是生成一致性图片序列。 GitHub:https...
    图像模型# DiT模型# MakeAnything
    12个月前
    02670
    开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务

    开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务

    在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能,火爆网络后,大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...
    图像模型# GPT‑4o# OpenAI# 多模态生成模型
    10个月前
    02630
    字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能

    字节跳动推出新型图像编辑方法 SuperEdit :通过改进监督信号来提升基于指令的图像编辑性能

    字节跳动和佛罗里达中央大学计算机视觉研究中心的研究人员推出新型图像编辑方法 SuperEdit ,通过改进监督信号来提升基于指令的图像编辑性能。 项目主页:https://liming-ai.gith...
    图像模型# SuperEdit# 图像编辑# 字节跳动
    9个月前
    02580
    对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型

    对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型

    传统的自回归图像生成方法(如VQGAN)通常按照光栅扫描(raster scan)顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大,从而影响生成效果。例如,当生成一张256...
    图像模型# DAR# 自回归模型
    10个月前
    02550
    IntrinsiX:能够直接从文本描述生成高质量的物理基础渲染(PBR)图像

    IntrinsiX:能够直接从文本描述生成高质量的物理基础渲染(PBR)图像

    传统的文生图模型(如 Stable Diffusion)能够根据文本描述生成高质量的 RGB 图像,但这些图像通常包含固定的光照效果(如反射、阴影、高光),这限制了它们在需要 PBR 地图(如游戏、V...
    图像模型# IntrinsiX# PBR
    10个月前
    02530
    基于图像编辑模型的 FE2E:革新单目密集几何预测

    基于图像编辑模型的 FE2E:革新单目密集几何预测

    在单目深度估计、表面法线预测等密集几何预测任务中,如何在有限标注数据下实现高精度的零样本泛化,一直是三维视觉的核心挑战。 近年来,研究者尝试利用文本到图像生成模型(如Stable Diffusion...
    图像模型# FE2E# 图像编辑
    5个月前
    02510
    基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

    基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

    复旦大学和阶跃星辰的研究人员推出基于视觉语言模型(VLMs)的端到端多模态 SVG 生成框架OmniSVG,能够生成从简单图标到复杂动漫角色的高质量 SVG 图形,支持文本到 SVG、图像到 SVG ...
    图像模型# OmniSVG# SVG# 视觉语言模型
    6个月前
    02510
    基于蒸馏的多功能图像生成模型DMM:通过蒸馏模型合并技术实现多功能图像生成

    基于蒸馏的多功能图像生成模型DMM:通过蒸馏模型合并技术实现多功能图像生成

    在文本到图像(Text-to-Image, T2I)生成领域,开发者通常会基于强大的基础模型(如Stable Diffusion 1.5)进行微调,以适应特定风格或场景的需求。例如,某些模型专注于生成...
    图像模型# DMM# 图像生成模型# 蒸馏模型
    10个月前
    02490
    英伟达提出 DC-Gen:用于加速扩散模型的后训练框架,生成速度快 53 倍

    英伟达提出 DC-Gen:用于加速扩散模型的后训练框架,生成速度快 53 倍

    在文生图领域,高分辨率输出(如 4K)正成为标配。然而,随之而来的计算成本和推理延迟问题日益凸显——以当前领先的 FLUX.1-Krea-12B 模型为例,在英伟达H100 GPU 上生成一张 4K ...
    图像模型# DC-Gen# 文生图模型# 英伟达
    4个月前
    02450
    Soul AI推出新型推出新型图像生成模型 TransDiff :将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成

    Soul AI推出新型推出新型图像生成模型 TransDiff :将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成

    Soul AI推出新型图像生成模型 TransDiff ,该模型将自回归(AR)Transformer 和扩散模型相结合,用于高质量的图像生成。TransDiff 通过将输入编码为高级语义特征,并利用...
    图像模型# TransDiff# 图像生成模型
    7个月前
    02420
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    OpenClaw

    新OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    MiroFish

    MiroFish

    MiroFish 是一款基于多智能体技术的新一代 AI 预测引擎。通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
    查看完整榜单