SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    文生图模型

    共 55 篇文章
    排序
    发布更新浏览点赞
    新型文生图模型CoMat:更好地理解和执行文本描述,提高了文本到图像生成的质量和准确性

    新型文生图模型CoMat:更好地理解和执行文本描述,提高了文本到图像生成的质量和准确性

    来自香港中文大学、商汤科技和上海人工智能实验室的研究人员推出新型文生图模型CoMat,这是一种具有图像到文本概念匹配机制的端到端扩散模型微调策略。开发团队借助图像字幕模型来评估图像与文本的对齐程度,并...
    图像模型# CoMat# 文生图模型
    1年前
    01,1470
    CosmicMan:专注于生成高保真人类图像的文生图基础模型

    CosmicMan:专注于生成高保真人类图像的文生图基础模型

    上海人工智能实验室推出CosmicMan,这是一款专注于生成高保真人类图像的文本到图像基础模型。CosmicMan能够生成外观精细、结构合理,并且与详细描述精确对齐的逼真人类图像。 项目主页:http...
    图像模型# CosmicMan# 文生图模型
    1年前
    01,1010
    attribute-control:对文生图模型生成的图像中的特定属性进行精细控制

    attribute-control:对文生图模型生成的图像中的特定属性进行精细控制

    来自慕尼黑工业大学的研究人员推出attribute-control,它能够对文本到图像(T2I)模型生成的图像中的特定属性进行精细控制。 项目主页 GitHub Demo 开发团队发现,在常用的基于t...
    新技术# attribute-control# 文生图模型# 精细控制
    2年前
    01,0940
    华为PixArt系列最新模型—PIXART-Σ:基于DiT,可直接生成4K分辨率的图像

    华为PixArt系列最新模型—PIXART-Σ:基于DiT,可直接生成4K分辨率的图像

    来自华为诺亚方舟实验室、大连理工大学、香港大学的研究人员推出了最新的PixArt模型—PIXART-Σ,PixArt-Σ基于Diffusion Transformer架构 (DiT,与Sora、Sta...
    图像模型# DiT# PIXART-Σ# 文生图模型
    1年前
    01,0400
    英伟达推出新型文生图模型BlobGEN:基于blob(斑点)的文本到图像扩散模型

    英伟达推出新型文生图模型BlobGEN:基于blob(斑点)的文本到图像扩散模型

    英伟达推出新型文生图模型BlobGEN,这个模型的核心思想是将场景分解为视觉原语——被称为密集的blob(斑点)表示——这些表示包含了场景的细粒度细节,同时具备模块化、易于理解和构建的特点。例如,一个...
    新技术# BlobGEN# 文生图模型# 英伟达
    2年前
    01,0160
    文生图模型新架构MoA:根据用户的个性化需求生成包含特定人物的图像,同时保持原有模型的风格和多样性

    文生图模型新架构MoA:根据用户的个性化需求生成包含特定人物的图像,同时保持原有模型的风格和多样性

    Snap推出新架构注意力混合(Mixture-of-Attention,简称MoA),即在个性化图像生成中实现主体与上下文解耦的注意力混合模型(MoA),用于个性化文本到图像的扩散模型。简单来说,Mo...
    图像模型# MoA# 文生图模型
    1年前
    09950
    文生图模型GLIGEN:用于将Stable Diffusion模型扩展为可定制模型

    文生图模型GLIGEN:用于将Stable Diffusion模型扩展为可定制模型

    威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员推出的GLIGEN模型,用于将Stable Diffusion模型扩展为可定制的模型。这个模型的核心目标是让计算机能够根据文本描述生成图像,并且能够...
    新技术# GLIGEN# Stable Diffusion# 文生图模型
    2年前
    09620
    新型图像生成模型MoMA:具有灵活的零样本能力,专注于主体驱动的个性化图像生成

    新型图像生成模型MoMA:具有灵活的零样本能力,专注于主体驱动的个性化图像生成

    来自字节跳动和罗格斯大学的研究人员推出新型图像生成模型MoMA(Multimodal LLM Adapter),这是一个开放词汇、无需训练的个性化图像模型,具有灵活的零样本能力,专注于主体驱动的个性化...
    图像模型# MoMA# 个性化图像生成# 文生图模型
    1年前
    09510
    SPRIGHT T2I:改进文生图模型在生成图像时保持空间一致性的能力

    SPRIGHT T2I:改进文生图模型在生成图像时保持空间一致性的能力

    来自亚利桑那州立大学、英特尔实验室、Hugging Face和华盛顿大学的研究人员推出SPRIGHT T2I,探讨如何改进文生图(Text-to-Image,简称T2I)模型在生成图像时保持空间一致性...
    新技术# SPRIGHT T2I# 文生图模型
    2年前
    09250
    ControlNet++:通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程

    ControlNet++:通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程

    中佛罗里达大学计算机视觉研究中心和字节跳动的研究人员推出ControlNet++,这是一种新方法,通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程。具体来说,对于给定的条件控制...
    新技术# controlnet# 可控性# 文生图模型
    2年前
    09140
    新型文生图框架Ranni:利于大语言模型,更准确地理解和执行复杂的文本提示

    新型文生图框架Ranni:利于大语言模型,更准确地理解和执行复杂的文本提示

    阿里巴巴和蚂蚁集团推出新型文生图框架Ranni,Ranni的核心特点是它能够更准确地理解和执行复杂的文本提示,尤其是那些包含数量描述、对象属性绑定和多主题描述的提示。这使得Ranni在生成图像时能够更...
    图像模型# Ranni# 文生图模型
    1年前
    08810
    文生图模型偏好优化方法MaPO(边界感知偏好优化):让计算机在学习生成图像时,能够更好地符合人类的偏好

    文生图模型偏好优化方法MaPO(边界感知偏好优化):让计算机在学习生成图像时,能够更好地符合人类的偏好

    韩国科学技术研究院、Huggingface和高丽大学的研究人员推出一种新的文本到图像扩散模型的偏好优化方法,这种方法被称为“边界感知偏好优化”(Margin-aware Preference Opti...
    新技术# MaPO# 文生图模型# 边界感知偏好优化
    2年前
    08610
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    OpResume

    OpResume

    OpResume 是一款免登录、高颜值、数据纯本地存储的开源在线简历生成器。没有后端,没有数据库,你的所有信息只留在你的浏览器里,安全、私密且极致高效。
    Immich

    Immich

    Immich是一款私有、高性能且可持续维护的照片与视频管理方案,它允许你在自己的服务器上安全地备份、组织和浏览个人影像资料,无需将数据上传至第三方云服务。所有内容由你掌控——不追踪、无广告、不分析行为。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    查看完整榜单