SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    图像生成

    共 34 篇文章
    排序
    发布更新浏览点赞
    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

    在图像生成领域,自回归模型长期被视作“文本专家,视觉弱项”——它们擅长逐词生成语言,却难以像扩散模型那样精细构建图像。而如今,阶跃星辰(StepFun)正试图打破这一边界。 GitHub:https...
    图像模型# NextStep-1# 图像生成# 图像编辑
    6个月前
    05140
    WAN 2.2 图像生成 + 高分辨率修复工作流指南

    WAN 2.2 图像生成 + 高分辨率修复工作流指南

    尽管阿里发布的 WAN 2.1 和 WAN 2.2 主要定位为视频生成模型,但其强大的视觉建模能力同样适用于高质量静态图像生成任务。 网盘下载:https://www.123865.com/s/hyQ...
    工作流# WAN 2.2# 图像生成
    6个月前
    05140
    新型端到端模型DnD-Transformer:提高了图像生成任务的质量和效率,为图像生成领域带来了新的可能

    新型端到端模型DnD-Transformer:提高了图像生成任务的质量和效率,为图像生成领域带来了新的可能

    北京大学、阿里巴巴集团、威斯康星大学麦迪逊分校和北京理工大学的研究人员推出新型端到端模型DnD-Transformer,这是一种用于高效细粒度图像生成的二维自回归Transformer。简单来说,这个...
    新技术# DnD-Transformer# 图像生成
    1年前
    04730
    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    近年来,多模态大语言模型(MLLMs)在图像理解、生成和编辑任务中取得了显著进展。然而,现有的统一模型在同时处理这三种任务时面临挑战。例如,早期的模型(如 Chameleon 和 EMU3)使用 VQ...
    多模态模型# ILLUME# 图像生成# 多模态大语言模型
    10个月前
    04720
    基于常加速度方程的普通微分方程(ODE)框架CAF:用于学习两个分布之间的映射,特别是在图像生成领域

    基于常加速度方程的普通微分方程(ODE)框架CAF:用于学习两个分布之间的映射,特别是在图像生成领域

    高丽大学和韩国科学技术研究院的研究人员推出新型框架Constant Acceleration Flow(CAF),它是一种基于常加速度方程的普通微分方程(ODE)框架,用于学习两个分布之间的映射,特别...
    新技术# CAF# 图像生成
    1年前
    04450
    新型图像生成技术“集合自回归模型”(SAR):通过改变图像生成的顺序和方式,使得生成图像的速度和灵活性都得到了极大的提升

    新型图像生成技术“集合自回归模型”(SAR):通过改变图像生成的顺序和方式,使得生成图像的速度和灵活性都得到了极大的提升

    香港中文大学MMLab 、上海人工智能实验室和南京大学的研究人员推出一种新的图像生成技术“集合自回归模型”(Set AutoRegressive Modeling,简称SAR)。你可以把它想象成一个超...
    新技术# SAR# 图像生成# 集合自回归模型
    1年前
    04220
    适用于FLUX模型的新型框架OminiControl:通过整合图像条件,使得DiT模型能够处理各种图像生成任务

    适用于FLUX模型的新型框架OminiControl:通过整合图像条件,使得DiT模型能够处理各种图像生成任务

    新加坡国立大学的研究团队提出了一种名为OminiControl的新型框架,它旨在为预训练的DiT模型(FLUX模型)提供最小化和通用的控制。OminiControl通过整合图像条件,使得DiT模型能够...
    Flux衍生# FLUX模型# OminiControl# 图像生成
    12个月前
    04140
    统一视觉理解与生成框架UniWorld:支持 20+语义图片编辑任务

    统一视觉理解与生成框架UniWorld:支持 20+语义图片编辑任务

    北京大学深圳研究生院、鹏城实验室、兔展AI的研究人员推出统一视觉理解与生成框架UniWorld,它基于强大的视觉-语言模型和对比语义编码器,能够同时处理图像感知和图像操控任务。 GitHub:http...
    图像模型# UniWorld# 图像生成# 图像编辑
    8个月前
    03910
    FireFlow:用于快速反转和编辑图像语义内容,提高图像生成和编辑的效率和准确性

    FireFlow:用于快速反转和编辑图像语义内容,提高图像生成和编辑的效率和准确性

    尽管带有蒸馏的校正流(ReFlows)为快速采样提供了一种有前景的方法,但其快速反演过程——即将图像转换回结构化噪声以进行恢复和后续编辑——仍然面临挑战。具体来说,传统的ReFlow方法在反演过程中可...
    新技术# FireFlow# 图像生成
    1年前
    03660
    通义实验室推出基于指令的图像生成和编辑框架ACE++:基于FLUX.1-dev模型,实现多种图像生成和编辑任务

    通义实验室推出基于指令的图像生成和编辑框架ACE++:基于FLUX.1-dev模型,实现多种图像生成和编辑任务

    阿里巴巴通义实验室推出基于指令的图像生成和编辑框架ACE++,这是之前介绍过的新型多模态生成模型ACE升级版,ACE++ 通过改进的长上下文条件单元(LCU++)和两阶段训练方案,能够高效地利用预训练...
    图像模型# ACE# FLUX.1-dev# 图像生成
    12个月前
    03480
    谷歌提升Gemini 2.0 Flash图像生成和编辑功能的能力

    谷歌提升Gemini 2.0 Flash图像生成和编辑功能的能力

    基于开发者的热情反馈,谷歌激动地宣布,图像生成功能现已通过Gemini 2.0 Flash预览版推出。 开发者即日起可通过Google AI Studio和Vertex AI中的Gemini API...
    早报# Gemini 2.0 Flash# 图像生成# 谷歌
    9个月前
    03350
    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE,它通过两阶段训练方法,将 QwenVL 等多模态编码器与扩散模型集成在一起,从而...
    图像模型# DREAM ENGINE# 图像生成# 多模态模型
    11个月前
    03230
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    查看完整榜单