图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

CLIP（对比语言-图像预训练）是 OpenAI 开发的一种多模态模型，通过对比学习在大量图像-文本对上训练，将图像和文本嵌入到同一个共享空间中，便于零样本任务。然而，CLIP 在处理全局信息时存在一...

图像模型 # CLIP # CLIP-fine-tune-registers-gated

1年前

02810

谷歌开源野生动物识别 AI 模型 SpeciesNet

谷歌本周宣布开源野生动物识别 AI 模型 SpeciesNet，帮助动物学家更高效地处理和分析大量野生动物监测影像。这一工具能够显著加快生物多样性监测和保育研究的进程。 SpeciesNet：AI 助...

图像模型 # SpeciesNet # 谷歌 # 野生动物

1年前

04770

智谱开源首个支持汉字生成的开源文生图模型 CogView4

作为中国AI厂商中的开源先锋，智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作，开源了多个备受关注的AI模型系列，包括大语言模型GLM系列、文生图模型CogView系列...

图像模型 # CogView4 # 文生图模型 # 智谱

1年前

03640

新型图像生成框架DREAM ENGINE：结合多模态模型和扩散模型，实现复杂文本-图像交错控制的图像生成任务

北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE，它通过两阶段训练方法，将 QwenVL 等多模态编码器与扩散模型集成在一起，从而...

图像模型 # DREAM ENGINE # 图像生成 # 多模态模型

1年前

03520

新型多层透明图像生成方法ART：通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究人员推出新型多层透明图像生成方法Anonymous Region Transformer (ART) ，通过全局文本提示和匿名区域布局直接生成...

图像模型 # ART # 透明图像

1年前

02980

新单目深度估计模型Distill-Any-Depth：新型知识蒸馏框架的单目深度估计方法

单目深度估计（MDE）旨在从单一 RGB 图像中预测场景深度，是 3D 场景理解中的关键任务。近年来，零样本 MDE 的研究取得了显著进展，主要依赖归一化的深度表示和基于蒸馏的学习来提高模型在不同场景...

图像模型 # Distill-Any-Depth # 深度估计模型 # 知识蒸馏框架

1年前

04690

SliderSpace：自动分解文生图模型的视觉能力，将其转化为简单的滑块控件，使用户能够更直观地控制生成结果

扩散模型（Diffusion Models）在生成高质量图像方面表现出色，但其生成过程的黑箱性质限制了用户的控制能力。为了增强扩散模型的可控性和可解释性，来自美国东北大学和 Adobe Researc...

图像模型 # Adobe Research # SliderSpace # 东北大学

1年前

05830

基于DiT模型的多领域程序化序列生成框架MakeAnything：根据文本描述或图像生成分步骤的教程

新加坡国立大学的研究团队推出 MakeAnything，这是一个基于DiT模型的多领域程序化序列生成框架，能够根据文本描述或图像生成分步骤的教程，也就是生成一致性图片序列。 GitHub：https...

图像模型 # DiT模型 # MakeAnything

1年前

02980

通义实验室推出基于指令的图像生成和编辑框架ACE++：基于FLUX.1-dev模型，实现多种图像生成和编辑任务

阿里巴巴通义实验室推出基于指令的图像生成和编辑框架ACE++，这是之前介绍过的新型多模态生成模型ACE升级版，ACE++ 通过改进的长上下文条件单元（LCU++）和两阶段训练方案，能够高效地利用预训练...

图像模型 # ACE # FLUX.1-dev # 图像生成

1年前

03520

上海AI实验室发布Lumina系列图像生成模型的最新成果—Lumina-Image 2.0

上海AI实验室正式发布了Lumina系列图像生成模型的最新成果——Lumina-Image 2.0。这一版本不仅提高了图像生成的效率，还通过其统一且透明的设计理念，为用户提供了更加流畅和便捷的使用体验...

图像模型 # Lumina-Image 2.0

1年前

03000

专注于精确角色细节转录的线稿上色模型MangaNinja

香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员合作推出了一款专注于精确角色细节转录的线稿上色模型——MangaNinja。MangaNinja专门用于将线稿图像转换为彩色图像，同时保持与参考图...

图像模型 # MangaNinja # 线稿上色模型

1年前

03180

用文生图的新型规模感知变换器SWITTI：基于现有的下一代规模预测自回归（AR）模型

Yandex Research、俄罗斯国立研究型大学高等经济学院、莫斯科物理技术学院和Skoltech科大的研究人员推出新型规模感知变换器SWITTI，它用于文本到图像的合成。SWITTI基于现有的下...

图像模型 # AR模型 # SWITTI

1年前

04130

加载更多