SANA模型的升级版SANA 1.5:实现高质量的图像生成,同时显著降低了训练和推理成本 英伟达、麻省理工学院、清华大学、Playground和北京大学的研究团队推出了SANA模型的升级版SANA 1.5,这是一款高效的DiT架构模型,通过创新的训练和推理策略,实现文本到图像生成任务中的高... 图像模型# DiT架构模型# SANA 1.5# 文生图模型 3天前0150
Illustrious XL v2.0正式发布,支持1024x1536原生分辨率生成 在开源AI绘画模型领域,Flux模型是众多衍生开发的基础。然而,在二次元领域,尤其是日式风格方面,情况有所不同。目前,大量用户依然以SDXL模型为基础进行衍生开发。在开源社区中,Pony、Illust... 图像模型# Illustrious XL v2.0# SDXL# 二次元 3天前0640
基于神经热场的无混叠任意尺度超分辨率(ASR)方法Thera:实现高质量的图像超分辨率重建 苏黎世联邦理工学院和苏黎世大学的研究人员推出一种基于神经热场(Neural Heat Fields)的无混叠任意尺度超分辨率(ASR)方法Thera,该方通过结合神经场(Neural Fields)和... 图像模型# Thera# 图像放大# 图像高清 2天前0390
全新CLIP架构改进方案 CLIP-fine-tune-registers-gated CLIP(对比语言-图像预训练)是 OpenAI 开发的一种多模态模型,通过对比学习在大量图像-文本对上训练,将图像和文本嵌入到同一个共享空间中,便于零样本任务。然而,CLIP 在处理全局信息时存在一... 图像模型# CLIP# CLIP-fine-tune-registers-gated 1周前0340
谷歌开源野生动物识别 AI 模型 SpeciesNet 谷歌本周宣布开源野生动物识别 AI 模型 SpeciesNet,帮助动物学家更高效地处理和分析大量野生动物监测影像。这一工具能够显著加快生物多样性监测和保育研究的进程。 SpeciesNet:AI 助... 图像模型# SpeciesNet# 谷歌# 野生动物 2周前0360
智谱开源首个支持汉字生成的开源文生图模型 CogView4 作为中国AI厂商中的开源先锋,智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作,开源了多个备受关注的AI模型系列,包括大语言模型GLM系列、文生图模型CogView系列... 图像模型# CogView4# 文生图模型# 智谱 2周前0550
新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务 北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE,它通过两阶段训练方法,将 QwenVL 等多模态编码器与扩散模型集成在一起,从而... 图像模型# DREAM ENGINE# 图像生成# 多模态模型 2周前0470
新型多层透明图像生成方法ART:通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像 微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究人员推出新型多层透明图像生成方法Anonymous Region Transformer (ART) ,通过全局文本提示和匿名区域布局直接生成... 图像模型# ART# 透明图像 3周前0340
新单目深度估计模型Distill-Any-Depth:新型知识蒸馏框架的单目深度估计方法 单目深度估计(MDE)旨在从单一 RGB 图像中预测场景深度,是 3D 场景理解中的关键任务。近年来,零样本 MDE 的研究取得了显著进展,主要依赖归一化的深度表示和基于蒸馏的学习来提高模型在不同场景... 图像模型# Distill-Any-Depth# 深度估计模型# 知识蒸馏框架 3周前0390
SliderSpace:自动分解文生图模型的视觉能力,将其转化为简单的滑块控件,使用户能够更直观地控制生成结果 扩散模型(Diffusion Models)在生成高质量图像方面表现出色,但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性,来自美国东北大学和 Adobe Researc... 图像模型# Adobe Research# SliderSpace# 东北大学 4周前0490
基于DiT模型的多领域程序化序列生成框架MakeAnything:根据文本描述或图像生成分步骤的教程 新加坡国立大学的研究团队推出 MakeAnything,这是一个基于DiT模型的多领域程序化序列生成框架,能够根据文本描述或图像生成分步骤的教程,也就是生成一致性图片序列。 GitHub:https:... 图像模型# DiT模型# MakeAnything 1个月前0470
通义实验室推出基于指令的图像生成和编辑框架ACE++:基于FLUX.1-dev模型,实现多种图像生成和编辑任务 阿里巴巴通义实验室推出基于指令的图像生成和编辑框架ACE++,这是之前介绍过的新型多模态生成模型ACE升级版,ACE++ 通过改进的长上下文条件单元(LCU++)和两阶段训练方案,能够高效地利用预训练... 图像模型# ACE# FLUX.1-dev# 图像生成 1个月前01070