SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    图像生成

    共 33 篇文章
    排序
    发布更新浏览点赞
    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    香港中文大学、香港科技大学与字节跳动联合推出开源模型 DreamOmni2,旨在突破当前 AI 图像编辑与生成的两大瓶颈:纯文本指令表达力有限,以及现有模型难以处理抽象概念(如风格、纹理、妆容等)。 ...
    图像模型# DreamOmni2# 图像生成
    2个月前
    01470
    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    在图像生成领域,自回归模型长期被视作“文本专家,视觉弱项”——它们擅长逐词生成语言,却难以像扩散模型那样精细构建图像。而如今,阶跃星辰(StepFun)正试图打破这一边界。 GitHub:https...
    图像模型# NextStep-1# 图像生成# 图像编辑
    4个月前
    04860
    如何兼顾“创意”与“真实”?用 Qwen-Image + Wan 2.2 实现高质量图像生成

    如何兼顾“创意”与“真实”?用 Qwen-Image + Wan 2.2 实现高质量图像生成

    阿里Qwen项目组近期发布的两款模型Qwen-Image和Wan 2.2都具有图像生成功能,但两款模型在生成图片的时候具有局限性: Qwen-Image 擅长创意构图,想象力丰富,但人物细节 AI 感...
    工作流# Qwen-Image# WAN 2.2# 图像生成
    4个月前
    01,2500
    WAN 2.2 图像生成 + 高分辨率修复工作流指南

    WAN 2.2 图像生成 + 高分辨率修复工作流指南

    尽管阿里发布的 WAN 2.1 和 WAN 2.2 主要定位为视频生成模型,但其强大的视觉建模能力同样适用于高质量静态图像生成任务。 网盘下载:https://www.123865.com/s/hyQ...
    工作流# WAN 2.2# 图像生成
    4个月前
    04150
    黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]: 实现更真实、更自然的图像生成

    黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]: 实现更真实、更自然的图像生成

    黑森林实验室(Black Forest Labs, BFL)与创意 AI 平台 KREA AI 正式宣布推出 FLUX.1 Krea [dev] —— 一个全新的开源文本到图像生成模型,也是 Krea...
    图像模型# FLUX.1 Krea [dev]# 图像生成# 黑森林实验室
    5个月前
    05150
    统一视觉理解与生成框架UniWorld:支持 20+语义图片编辑任务

    统一视觉理解与生成框架UniWorld:支持 20+语义图片编辑任务

    北京大学深圳研究生院、鹏城实验室、兔展AI的研究人员推出统一视觉理解与生成框架UniWorld,它基于强大的视觉-语言模型和对比语义编码器,能够同时处理图像感知和图像操控任务。 GitHub:http...
    图像模型# UniWorld# 图像生成# 图像编辑
    6个月前
    03350
    基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台

    基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台

    随着生成模型的飞速发展,“通用生成(General-Purpose Generation)”正成为 AI 领域的新焦点。它旨在通过一个统一系统,支持图像、视频、文本等多种模态任务的生成与编辑,为复杂创...
    新技术# ComfyMind# 图像生成# 视频生成
    7个月前
    02850
    谷歌提升Gemini 2.0 Flash图像生成和编辑功能的能力

    谷歌提升Gemini 2.0 Flash图像生成和编辑功能的能力

    基于开发者的热情反馈,谷歌激动地宣布,图像生成功能现已通过Gemini 2.0 Flash预览版推出。 开发者即日起可通过Google AI Studio和Vertex AI中的Gemini API...
    早报# Gemini 2.0 Flash# 图像生成# 谷歌
    7个月前
    03010
    Meta AI 推出高效图像生成新方法Token-Shuffle:在 Transformer 中减少图像 Token

    Meta AI 推出高效图像生成新方法Token-Shuffle:在 Transformer 中减少图像 Token

    自回归(AR)模型在语言生成领域取得了巨大成功,但在高分辨率图像合成中的应用却面临严峻挑战。与文本不同,图像需要数千个 token 来表示,导致计算成本呈二次方增长。这使得大多数基于 AR 的多模态模...
    新技术# Meta AI# Token-Shuffle# 图像生成
    8个月前
    02660
    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory 是一个专为 Lumina 系列模型设计的多任务指令微调框架,目前支持 Lumina-Image-2.0。该框架通过一系列创新设计,为图像生成和编辑任务提供了强大的支持...
    图像模型# Lumina-Accessory# Lumina-Image 2.0# 图像生成
    8个月前
    02870
    新型框架 EliGen:用于实现图像生成中的实体级控制

    新型框架 EliGen:用于实现图像生成中的实体级控制

    浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...
    图像模型# EliGen# 图像生成
    8个月前
    01970
    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    近年来,多模态大语言模型(MLLMs)在图像理解、生成和编辑任务中取得了显著进展。然而,现有的统一模型在同时处理这三种任务时面临挑战。例如,早期的模型(如 Chameleon 和 EMU3)使用 VQ...
    多模态模型# ILLUME# 图像生成# 多模态大语言模型
    9个月前
    04410
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    EdgeOne Pages

    EdgeOne Pages

    EdgeOne Pages 是基于 Tencent EdgeOne 基础设施打造的全栈开发部署平台,提供从前端页面到动态 API 的无服务器部署体验,适用于构建营销网站、AI 应用等现代 Web 项目。通过边缘网络全球加速,确保应用获得快速、稳定的访问体验。
    Ebook2Audiobook

    Ebook2Audiobook

    Ebook2Audiobook是一款将非DRM保护的电子书转换为高质量有声书的工具,并保留章节和元数据。通过结合Calibre、Coqui XTTSv2和Fairseq等开源项目,确保每本有声书听起来自然流畅。
    马卡龙(Macaron AI)

    马卡龙(Macaron AI)

    马卡龙是超懂你的个人智能体,一句话就能生成你的专属工具。马卡龙不是又一个“效率机器人”。它温暖、有共情,会记住你是谁、你喜欢什么、你在意什么;更会把每次对话都变成能真正帮上忙的工具,让每天更省心、更有趣。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    QM-Music 

    QM-Music 

    QM-Music 是一个基于 Subsonic 构建的轻量级私有云音乐服务器,专为音乐爱好者设计的轻量级高性能解决方案。支持 Docker 一键部署,完美兼容 Subsonic 生态客户端(如音流/Amperfy/substreamer/feishin/music-assistant),让您随时随地安全访问个人音乐库。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    查看完整榜单