SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    图像生成

    共 33 篇文章
    排序
    发布更新浏览点赞
    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    DreamOmni2:支持图文指令的统一图像生成与编辑模型

    香港中文大学、香港科技大学与字节跳动联合推出开源模型 DreamOmni2,旨在突破当前 AI 图像编辑与生成的两大瓶颈:纯文本指令表达力有限,以及现有模型难以处理抽象概念(如风格、纹理、妆容等)。 ...
    图像模型# DreamOmni2# 图像生成
    4周前
    01270
    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    在图像生成领域,自回归模型长期被视作“文本专家,视觉弱项”——它们擅长逐词生成语言,却难以像扩散模型那样精细构建图像。而如今,阶跃星辰(StepFun)正试图打破这一边界。 GitHub:https...
    图像模型# NextStep-1# 图像生成# 图像编辑
    3个月前
    04530
    如何兼顾“创意”与“真实”?用 Qwen-Image + Wan 2.2 实现高质量图像生成

    如何兼顾“创意”与“真实”?用 Qwen-Image + Wan 2.2 实现高质量图像生成

    阿里Qwen项目组近期发布的两款模型Qwen-Image和Wan 2.2都具有图像生成功能,但两款模型在生成图片的时候具有局限性: Qwen-Image 擅长创意构图,想象力丰富,但人物细节 AI 感...
    工作流# Qwen-Image# WAN 2.2# 图像生成
    3个月前
    01,0390
    WAN 2.2 图像生成 + 高分辨率修复工作流指南

    WAN 2.2 图像生成 + 高分辨率修复工作流指南

    尽管阿里发布的 WAN 2.1 和 WAN 2.2 主要定位为视频生成模型,但其强大的视觉建模能力同样适用于高质量静态图像生成任务。 网盘下载:https://www.123865.com/s/hyQ...
    工作流# WAN 2.2# 图像生成
    3个月前
    03540
    黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]: 实现更真实、更自然的图像生成

    黑森林实验室联合 KREA AI 发布 FLUX.1 Krea [dev]: 实现更真实、更自然的图像生成

    黑森林实验室(Black Forest Labs, BFL)与创意 AI 平台 KREA AI 正式宣布推出 FLUX.1 Krea [dev] —— 一个全新的开源文本到图像生成模型,也是 Krea...
    图像模型# FLUX.1 Krea [dev]# 图像生成# 黑森林实验室
    3个月前
    04880
    统一视觉理解与生成框架UniWorld:支持 20+语义图片编辑任务

    统一视觉理解与生成框架UniWorld:支持 20+语义图片编辑任务

    北京大学深圳研究生院、鹏城实验室、兔展AI的研究人员推出统一视觉理解与生成框架UniWorld,它基于强大的视觉-语言模型和对比语义编码器,能够同时处理图像感知和图像操控任务。 GitHub:http...
    图像模型# UniWorld# 图像生成# 图像编辑
    5个月前
    02850
    基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台

    基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台

    随着生成模型的飞速发展,“通用生成(General-Purpose Generation)”正成为 AI 领域的新焦点。它旨在通过一个统一系统,支持图像、视频、文本等多种模态任务的生成与编辑,为复杂创...
    新技术# ComfyMind# 图像生成# 视频生成
    6个月前
    02770
    谷歌提升Gemini 2.0 Flash图像生成和编辑功能的能力

    谷歌提升Gemini 2.0 Flash图像生成和编辑功能的能力

    基于开发者的热情反馈,谷歌激动地宣布,图像生成功能现已通过Gemini 2.0 Flash预览版推出。 开发者即日起可通过Google AI Studio和Vertex AI中的Gemini API...
    早报# Gemini 2.0 Flash# 图像生成# 谷歌
    6个月前
    02950
    Meta AI 推出高效图像生成新方法Token-Shuffle:在 Transformer 中减少图像 Token

    Meta AI 推出高效图像生成新方法Token-Shuffle:在 Transformer 中减少图像 Token

    自回归(AR)模型在语言生成领域取得了巨大成功,但在高分辨率图像合成中的应用却面临严峻挑战。与文本不同,图像需要数千个 token 来表示,导致计算成本呈二次方增长。这使得大多数基于 AR 的多模态模...
    新技术# Meta AI# Token-Shuffle# 图像生成
    7个月前
    02640
    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory 是一个专为 Lumina 系列模型设计的多任务指令微调框架,目前支持 Lumina-Image-2.0。该框架通过一系列创新设计,为图像生成和编辑任务提供了强大的支持...
    图像模型# Lumina-Accessory# Lumina-Image 2.0# 图像生成
    7个月前
    02590
    新型框架 EliGen:用于实现图像生成中的实体级控制

    新型框架 EliGen:用于实现图像生成中的实体级控制

    浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...
    图像模型# EliGen# 图像生成
    7个月前
    01960
    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    近年来,多模态大语言模型(MLLMs)在图像理解、生成和编辑任务中取得了显著进展。然而,现有的统一模型在同时处理这三种任务时面临挑战。例如,早期的模型(如 Chameleon 和 EMU3)使用 VQ...
    多模态模型# ILLUME# 图像生成# 多模态大语言模型
    7个月前
    03940
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
     Hitem3D 

     Hitem3D 

    Hitem3D由Math Magic开发,是一款基于专有高分辨率AI模型Sparc3D的3D生成工具。只需上传一张参考图像,即可即时生成行业领先品质的工作室级3D资产,极大降低了3D创作的门槛。这一突破性解决方案赋能游戏开发者、设计师和3D艺术家高效释放创意,加速从概念到部署的创作流程。
    NOFX

    NOFX

    NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统,支持 Binance、Hyperliquid和Aster DEX交易所,多AI模型实盘竞赛,具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Hyper3D

    Hyper3D

    Hyper3D 是影眸科技旗下一个在线3D资产生成平台,旨在通过先进的AI技术将2D图像快速转换为高质量的3D模型。
    DrawAFish

    DrawAFish

    在 DrawAFish.com,每一次落笔都不只是涂鸦——它可能成为一条被AI识别、由算法验证、最终游进虚拟海洋的真实数字生命。这里没有复杂的操作门槛,只有一块画布、一个想法,和一群来自世界各地的创作者。
    查看完整榜单