图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

个性化图像生成和编辑方法SISO：适合在只有单张主题图像的情况下使用

巴伊兰大学和英伟达的研究人员推出一种无需训练的方法SISO，用于从单张主题图像进行个性化图像生成和编辑。SISO 是一种无需训练的方法，通过优化与输入主题图像的相似度分数来实现图像的个性化生成和编辑...

11个月前

02030

URAE：基于 Flux的超高分辨率图像生成的高效解决方案

在图像生成领域，高分辨率图像的生成一直是一个极具挑战性的问题，尤其是在训练数据和计算资源有限的情况下。新加坡国立大学的研究人员推出了一种名为 URAE（Ultra-Resolution Adaptat...

图像模型 # FLUX # URAE

11个月前

03900

Yandex Research推出分层蒸馏框架SWD：加速扩散模型（如FLUX和SD3.5）的生成过程

Yandex Research 推出了一种名为 “Scale-wise Distillation of Diffusion Models (SWD)” 的新型框架，通过分层采样策略加速扩散模型（DMs...

图像模型 # FLUX # SD3.5 # SWD

11个月前

05490

新型图像编辑框架PhotoDoodle：通过文字提示在照片中添加艺术化装饰

新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat的研究人员推出新型图像编辑框架PhotoDoodle，通过少量样本学习艺术家的独特风格，将装饰元素（如手绘线条、装饰图案等）无缝叠加到...

图像模型 # PhotoDoodle # 图像编辑框架 # 照片涂鸦

11个月前

02910

字节跳动推出新型框架 InfiniteYou (InfU)：用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片

字节跳动推出新型框架 InfiniteYou (InfU)，用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片。该框架利用先进的扩散变换器（Diffusion Transformers...

图像模型 # InfiniteYou # InfU # 字节跳动

11个月前

01910

SANA模型的升级版SANA 1.5：实现高质量的图像生成，同时显著降低了训练和推理成本

英伟达、麻省理工学院、清华大学、Playground和北京大学的研究团队推出了SANA模型的升级版SANA 1.5，这是一款高效的DiT架构模型，通过创新的训练和推理策略，实现文本到图像生成任务中的高...

图像模型 # DiT架构模型 # SANA 1.5 # 文生图模型

11个月前

03190

Illustrious XL v2.0正式发布，支持1024x1536原生分辨率生成

在开源AI绘画模型领域，Flux模型是众多衍生开发的基础。然而，在二次元领域，尤其是日式风格方面，情况有所不同。目前，大量用户依然以SDXL模型为基础进行衍生开发。在开源社区中，Pony、Illust...

图像模型 # Illustrious XL v2.0 # SDXL # 二次元

11个月前

02,5960

基于神经热场的无混叠任意尺度超分辨率（ASR）方法Thera：实现高质量的图像超分辨率重建

苏黎世联邦理工学院和苏黎世大学的研究人员推出一种基于神经热场（Neural Heat Fields）的无混叠任意尺度超分辨率（ASR）方法Thera，该方通过结合神经场（Neural Fields）和...

图像模型 # Thera # 图像放大 # 图像高清

11个月前

06090

全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

CLIP（对比语言-图像预训练）是 OpenAI 开发的一种多模态模型，通过对比学习在大量图像-文本对上训练，将图像和文本嵌入到同一个共享空间中，便于零样本任务。然而，CLIP 在处理全局信息时存在一...

图像模型 # CLIP # CLIP-fine-tune-registers-gated

12个月前

02750

谷歌开源野生动物识别 AI 模型 SpeciesNet

谷歌本周宣布开源野生动物识别 AI 模型 SpeciesNet，帮助动物学家更高效地处理和分析大量野生动物监测影像。这一工具能够显著加快生物多样性监测和保育研究的进程。 SpeciesNet：AI 助...

图像模型 # SpeciesNet # 谷歌 # 野生动物

12个月前

04240

智谱开源首个支持汉字生成的开源文生图模型 CogView4

作为中国AI厂商中的开源先锋，智谱AI一直致力于推动技术开放与共享。这家清华系初创企业近年来通过与清华大学合作，开源了多个备受关注的AI模型系列，包括大语言模型GLM系列、文生图模型CogView系列...

图像模型 # CogView4 # 文生图模型 # 智谱

12个月前

03550

新型图像生成框架DREAM ENGINE：结合多模态模型和扩散模型，实现复杂文本-图像交错控制的图像生成任务

北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE，它通过两阶段训练方法，将 QwenVL 等多模态编码器与扩散模型集成在一起，从而...

图像模型 # DREAM ENGINE # 图像生成 # 多模态模型

12个月前

03300

加载更多

个性化图像生成和编辑方法SISO：适合在只有单张主题图像的情况下使用

URAE：基于 Flux的超高分辨率图像生成的高效解决方案

Yandex Research推出分层蒸馏框架SWD：加速扩散模型（如FLUX和SD3.5）的生成过程

新型图像编辑框架PhotoDoodle：通过文字提示在照片中添加艺术化装饰

字节跳动推出新型框架 InfiniteYou (InfU)：用于在保留个人身份特征的前提下，通过自由形式的文本描述重新创作照片

SANA模型的升级版SANA 1.5：实现高质量的图像生成，同时显著降低了训练和推理成本

Illustrious XL v2.0正式发布，支持1024x1536原生分辨率生成

基于神经热场的无混叠任意尺度超分辨率（ASR）方法Thera：实现高质量的图像超分辨率重建

全新CLIP架构改进方案 CLIP-fine-tune-registers-gated

谷歌开源野生动物识别 AI 模型 SpeciesNet

智谱开源首个支持汉字生成的开源文生图模型 CogView4

新型图像生成框架DREAM ENGINE：结合多模态模型和扩散模型，实现复杂文本-图像交错控制的图像生成任务

YouMind

A股智能分析系统

OpenClaw（Clawdbot/Moltbot）

OpenClaw

OpenClaw 一键部署工具

OpenCloud

图像模型

网址

YouMind

A股智能分析系统

OpenClaw（Clawdbot/Moltbot）

OpenClaw

OpenClaw 一键部署工具

OpenCloud