图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

Nunchaku 官方宣布，其基于Qwen-Image的四个量化版本模型已正式上线 Hugging Face和魔塔！这些模型专为高效文本到图像生成而优化，尤其在复杂文本渲染方面表现突出。 Huggin...

图像模型 # Nunchaku # Qwen-Image

6个月前

05760

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

Meta AI 正式推出 DINOv3 —— 一项在计算机视觉领域具有里程碑意义的自监督学习模型。它不仅刷新了密集预测任务的性能上限，更首次证明：一个通用、冻结的视觉骨干，可以在无需微调的情况下，在多...

图像模型 # DINOv3 # 视觉模型

6个月前

05430

阶跃星辰发布 NextStep-1：140 亿参数自回归模型，用“连续令牌”重塑图像生成

在图像生成领域，自回归模型长期被视作“文本专家，视觉弱项”——它们擅长逐词生成语言，却难以像扩散模型那样精细构建图像。而如今，阶跃星辰（StepFun）正试图打破这一边界。 GitHub：https...

图像模型 # NextStep-1 # 图像生成 # 图像编辑

6个月前

05140

Pattern Diffusion：专为无缝图案生成而生的扩散模型

由开发者 Alex Reid 推出的 Pattern Diffusion，是一个专为生成可平铺（tiling）表面图案而从零训练的扩散模型。它基于 Stable Diffusion 2-Base 架构...

图像模型 # Pattern Diffusion # 无缝图案

6个月前

02830

天工AI发布 UniPic-2.0：轻量高效、统一多模态图像生成与编辑新范式

天工AI正式推出 UniPic-2.0 系列模型，基于 SD3.5-Medium 架构与创新训练策略，在文本到图像生成、细粒度图像编辑和多模态理解任务中实现全面性能突破。 GitHub：https...

图像模型 # UniPic-2.0 # 天工AI

6个月前

03410

LEGION：一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

随着生成模型的飞速发展，AI 合成图像已变得越来越逼真。然而，这种进步也带来了严峻挑战：虚假内容泛滥、误导信息传播、数字信任危机加剧。作为应对，合成图像检测技术应运而生。但当前方法普遍存在三大局限...

图像模型 # LEGION # 多模态分析框架

6个月前

01510

X-Omni：腾讯混元提出统一图像与语言生成的离散自回归新模型

“能否用同一个模型，既写诗又作画？”这是多模态模型长期以来追求的目标。近年来，研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域，构建统一的离散自回归模型，期望实现图像生成与语...

图像模型 # X-Omni # 自回归模型

6个月前

02030

上海大学联合vivo推出新型交互式图像抠图方法SDMatte：用扩散模型重新定义交互式抠图

上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型（Stable Diffusion），支持点、框和掩码三种视觉提示，能够从自然图像中...

图像模型 # SDMatte # 图像抠图

6个月前

03840

图像质量评估体系HPSv3：用“人类偏好”重新定义图像生成质量评估

当AI画出一张“森林中休息的鹿”，我们如何判断它画得好不好？是看它是否包含“鹿”和“树木”？还是看光影是否自然、构图是否美观、整体是否令人愉悦？显然，后者更贴近人类的真实审美。然而，当前大多数文本到...

图像模型 # HPSv3 # 图像质量评估体系

6个月前

03740

PixNerd：无需 VAE，用神经场实现端到端像素级图像生成

在图像生成领域，扩散模型已成主流，但其典型架构依赖变分自编码器（VAE）将图像压缩至低维潜在空间，再在该空间进行生成。这种“两阶段”范式虽能降低计算负担，却也带来了解码伪影与信息损失等固有缺陷。为突...

图像模型 # PixNerd

6个月前

02800

阿里 Qwen 项目组发布 Qwen-Image：首个 20B 级 MMDiT 图像生成基础模型

阿里 Qwen 项目组正式推出 Qwen-Image，这是通义千问系列中首个专注于图像生成的基础大模型。基于 20B 参数的 MMDiT（Multimodal Diffusion Transforme...

图像模型 # Qwen-Image # 图像生成模型

6个月前

03500

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

在图像生成领域，闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力，能够精准执行复杂的文本引导编辑任务。相比之下，开源社区虽有进展，却始终受限于高质量、大规模...

图像模型 # GPT-Image-Edit # GPT-IMAGE-EDIT-1.5M # 图像编辑模型

6个月前

01790

加载更多

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

阶跃星辰发布 NextStep-1：140 亿参数自回归模型，用“连续令牌”重塑图像生成

Pattern Diffusion：专为无缝图案生成而生的扩散模型

天工AI发布 UniPic-2.0：轻量高效、统一多模态图像生成与编辑新范式

LEGION：一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

X-Omni：腾讯混元提出统一图像与语言生成的离散自回归新模型

上海大学联合vivo推出新型交互式图像抠图方法SDMatte：用扩散模型重新定义交互式抠图

图像质量评估体系HPSv3：用“人类偏好”重新定义图像生成质量评估

PixNerd：无需 VAE，用神经场实现端到端像素级图像生成

阿里 Qwen 项目组发布 Qwen-Image：首个 20B 级 MMDiT 图像生成基础模型

GPT-IMAGE-EDIT-1.5M：用 GPT-4o 重构开源图像编辑数据集

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

新QoderWork

Fogsight (雾象)

ITELLOU

图像模型

网址

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

新QoderWork

Fogsight (雾象)

ITELLOU