SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    图像模型

    共 212 篇文章
    用于文生图、图生图、图像编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Face-MoGLE:一种面向高保真与可控人脸生成的新框架

    Face-MoGLE:一种面向高保真与可控人脸生成的新框架

    在生成模型中,可控人脸合成是一项极具挑战的任务。既要保证生成图像的真实感与细节质量,又要实现对发型、五官、表情等语义属性的精确控制,二者往往难以兼顾。 现有方法常将语义条件直接拼接或交叉注意力注入生成...
    图像模型# Face-MoGLE# 人脸生成
    3个月前
    01690
    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

    随着多模态大模型在图文理解、文本到图像生成、图像编辑等任务中表现日益强大,其高昂的推理成本也逐渐成为落地瓶颈。传统的自回归解码与扩散去噪过程需要大量迭代计算,在长上下文或多轮交互场景下响应迟缓。 为此...
    图像模型# Hyper-Bagel# 字节跳动
    2个月前
    01680
    基于Flux模型的图像编辑框架Insert Anything:通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中

    基于Flux模型的图像编辑框架Insert Anything:通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中

    来自 浙江大学、哈佛大学 和 南洋理工大学 的研究人员提出了一种名为 Insert Anything 的创新框架,通过用户指定的灵活控制,将参考图像中的对象无缝整合到目标场景中。这一方法无需为每个任务...
    图像模型# Insert Anything# 图像编辑
    7个月前
    01610
    腾讯混元联合高校提出 Direct-Align:用“一步恢复”实现扩散模型的高效偏好对齐

    腾讯混元联合高校提出 Direct-Align:用“一步恢复”实现扩散模型的高效偏好对齐

    在文生图模型日益成熟的今天,提升生成质量已不再是唯一目标——如何让图像真正符合人类的审美偏好,成为更高阶的挑战。 现有方法通常依赖强化学习或可微奖励机制,将模型输出与人类偏好对齐。但这些方法普遍存在两...
    图像模型# Direct-Align# flux.1-dev-SRPO# 腾讯混元
    3个月前
    01580
    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    “能否用同一个模型,既写诗又作画?”这是多模态模型长期以来追求的目标。 近年来,研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域,构建统一的离散自回归模型,期望实现图像生成与语...
    图像模型# X-Omni# 自回归模型
    4个月前
    01560
    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    随着生成模型的飞速发展,AI 合成图像已变得越来越逼真。然而,这种进步也带来了严峻挑战:虚假内容泛滥、误导信息传播、数字信任危机加剧。 作为应对,合成图像检测技术应运而生。但当前方法普遍存在三大局限...
    图像模型# LEGION# 多模态分析框架
    4个月前
    01490
    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    Ovis-Image 是由阿里巴巴国际数字商务团队开发的 70亿参数 文本到图像(Text-to-Image)生成模型,专注于解决文生图系统中长期存在的文本模糊、拼写错误、排版失真等痛点。该模型在保持...
    图像模型# Ovis-Image# 文生图模型
    7天前
    01480
    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    香港中文大学、香港科技大学与字节跳动联合推出开源模型 DreamOmni2,旨在突破当前 AI 图像编辑与生成的两大瓶颈:纯文本指令表达力有限,以及现有模型难以处理抽象概念(如风格、纹理、妆容等)。 ...
    图像模型# DreamOmni2# 图像生成
    2个月前
    01470
    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 正式发布其最新文本到图像模型 Bria 3.2。作为一款专为企业和商业应用打造的生成模型,Bria 3.2 凭借仅 40 亿参数 的轻量架构,在美学效果与文本渲染能力方面表现优异,经评...
    图像模型# Bria 3.2# BRIA AI
    5个月前
    01470
    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系。 例如,当用户输入: “一个棕色皮革沙发放...
    图像模型# CoMPaSS
    3个月前
    01460
    阿里通义发布Z-Image-Turbo:60 亿参数高效图像模型,支持中英双语文本渲染与亚秒级生成

    阿里通义发布Z-Image-Turbo:60 亿参数高效图像模型,支持中英双语文本渲染与亚秒级生成

    在图像生成模型多依赖“大参数堆料”的行业趋势下,阿里通义MAX项目组推出的Z-Image,以60亿参数的轻量化体量实现了颠覆性突破。这款通过系统性优化打造的图像生成基础模型,不仅在照片级真实感生成、中...
    图像模型# Z-Image-Turbo
    2周前
    01370
    MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

    MOSAIC:通过语义对齐与特征解耦实现高保真的多主体个性化生成

    在个性化图像生成任务中,我们常常希望将多个参考主体(如人物、动物、物体)的特征融合到一张新图像中——例如,“让A的脸型、B的发型、C的表情和D的服饰出现在同一人身上”。这类任务被称为多主体个性化生成...
    图像模型# MOSAIC# 个性化生成
    3个月前
    01360
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    Eigent AI

    Eigent AI

    Eigent 是全球首个 多智能体工作流 桌面应用程序,帮助您构建、管理和部署定制化的 AI 工作团队,将最复杂的工作流程转化为自动化任务。基于 CAMEL-AI 广受赞誉的开源项目,我们的系统引入了 多智能体工作流,通过并行执行、定制化和隐私保护 提升生产力。
    oLLM

    oLLM

    oLLM 是一个轻量级的 Python 库,用于大型上下文 LLM 推理,基于 Huggingface Transformers 和 PyTorch 构建。它使运行像 gpt-oss-20B、qwen3-next-80B 或 Llama-3.1-8B-Instruct 这样的模型在 100k 上下文下使用约 200 美元的消费级 GPU(8GB VRAM)成为可能。不使用量化——仅使用 fp16/bf16 精度。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    查看完整榜单