SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    图像模型

    共 234 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能

    字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能

    字节跳动近日推出了UNO,这是一个强大的通用框架,能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力,还能将多样化的任务统一在一个模型之下,为图像生成领域带来了新的突破。 项目主页...
    图像模型# FLUX# UNO# 字节跳动
    10个月前
    06510
    智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

    智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

    北京智象未来科技开源了一款全新的图像生成基础模型HiDream-I1,其拥有 170 亿个参数,能够在几秒内实现顶尖的图像生成效果。这一模型提供了三种变体:Full、Dev 和 Fast,以满足不同用...
    图像模型# HiDream-I1# 图像生成模型# 智象未来
    10个月前
    05340
    新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列

    新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列

    苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok,它能够将二维图像重新采样为长度可变的一维离散标记(token)序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...
    图像模型# FlexTok# 图像编码器
    11个月前
    04170
    HSMR:用于从单张图像中重建具有生物力学准确骨架的三维人体模型

    HSMR:用于从单张图像中重建具有生物力学准确骨架的三维人体模型

    德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR,用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络,估计生物力学模型 SKEL 的参...
    图像模型# HSMR# 三维人体模型# 骨架
    11个月前
    04570
    新型框架 EliGen:用于实现图像生成中的实体级控制

    新型框架 EliGen:用于实现图像生成中的实体级控制

    浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...
    图像模型# EliGen# 图像生成
    11个月前
    02180
    新型多模态生成模型UniDisc:基于离散扩散过程的统一生成模型,能够同时理解和生成文本和图像

    新型多模态生成模型UniDisc:基于离散扩散过程的统一生成模型,能够同时理解和生成文本和图像

    卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc(Unified Multimodal Discrete Diffusion),UniDisc 是一个基于离散扩散过程的统一生成模型,能够...
    图像模型# UniDisc# 多模态生成模型
    11个月前
    04140
    IntrinsiX:能够直接从文本描述生成高质量的物理基础渲染(PBR)图像

    IntrinsiX:能够直接从文本描述生成高质量的物理基础渲染(PBR)图像

    传统的文生图模型(如 Stable Diffusion)能够根据文本描述生成高质量的 RGB 图像,但这些图像通常包含固定的光照效果(如反射、阴影、高光),这限制了它们在需要 PBR 地图(如游戏、V...
    图像模型# IntrinsiX# PBR
    11个月前
    02650
    自回归模型Lumina-mGPT 2.0:支持文生图、多轮图像编辑、可控生成等

    自回归模型Lumina-mGPT 2.0:支持文生图、多轮图像编辑、可控生成等

    上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT,研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0,从头开始训练,统一了...
    图像模型# Lumina-mGPT 2.0# 自回归模型
    11个月前
    04000
    EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力

    EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力

    Tiamat AI、上海科技大学、新加坡国立大学和Liblib AI的研究人员推出 EasyControl 框架,为基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力。它通过一系列...
    图像模型# DiT架构# EasyControl
    11个月前
    02940
    基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调

    基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调

    ZenCtrl 是一款基于 GenAI 的视觉内容创作控制框架,专注于利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调。它通过精细的控制能力和模块化设计,为创作者提供了一个强大且灵活...
    图像模型# OminiControl# ZenCtrl# 图像控制框架
    10个月前
    05030
    Ideogram 3.0发布:更真实、更创意、更一致的生成式设计体验

    Ideogram 3.0发布:更真实、更创意、更一致的生成式设计体验

    Ideogram在今天正式发布了其最新模型Ideogram 3.0,这款最新的AI生成模型不仅在图像质量和文本渲染方面取得了重大突破,还通过强大的风格控制功能和高效的设计能力,为创作者和专业人士提供了...
    图像模型# AI绘画# Ideogram# Ideogram 3.0
    11个月前
    05390
    StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

    StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

    ServiceNow Research、魁北克人工智能研究所、加拿大 CIFAR 人工智能主席、不列颠哥伦比亚大学、高等工程技术学院和苹果的研究人员推出StarVector,利用多模态大语言模型(ML...
    图像模型# StarVector# SVG代码# 多模态大语言模型
    11个月前
    04650
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    OpenCloud

    OpenCloud

    OpenCloud 是海因莱因集团的文件共享与协作解决方案。通过智能文件管理和强大的开源社区,文件将转变为宝贵的资源,被有效地组织和长期使用。借助灵活的数据空间和智能权限管理,团队可以随时随地无障碍地访问数据并协同工作,从而大幅提升生产力。
    NanoClaw

    NanoClaw

    NanoClaw是个人 Claude 助手,可在容器中安全运行,一款轻量级助手,专为便于理解和按需自定义而构建。
    查看完整榜单