图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

在文本到图像（Text-to-Image, T2I）生成领域，开发者通常会基于强大的基础模型（如Stable Diffusion 1.5）进行微调，以适应特定风格或场景的需求。例如，某些模型专注于生成...

10个月前

02470

对角蛇形扫描自回归图像生成框架DAR：用于生成高质量图像的新型自回归模型

传统的自回归图像生成方法（如VQGAN）通常按照光栅扫描（raster scan）顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大，从而影响生成效果。例如，当生成一张256...

图像模型 # DAR # 自回归模型

10个月前

02550

开源版GPT‑4o？新型多模态生成模型 Liquid，用一个模型搞定视觉与语言任务

在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能，火爆网络后，大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...

图像模型 # GPT‑4o # OpenAI # 多模态生成模型

10个月前

02630

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow，它直接在像素空间中进行操作，与传统的基于潜在空间（latent space）的模型不同。PixelFlow通过高效的级...

图像模型 # PixelFlow # 图像生成模型

10个月前

01940

智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

北京智象未来科技开源了一款全新的图像生成基础模型HiDream-I1，其拥有 170 亿个参数，能够在几秒内实现顶尖的图像生成效果。这一模型提供了三种变体：Full、Dev 和 Fast，以满足不同用...

图像模型 # HiDream-I1 # 图像生成模型 # 智象未来

10个月前

05280

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

字节跳动近日推出了UNO，这是一个强大的通用框架，能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力，还能将多样化的任务统一在一个模型之下，为图像生成领域带来了新的突破。项目主页...

图像模型 # FLUX # UNO # 字节跳动

10个月前

06420

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok，它能够将二维图像重新采样为长度可变的一维离散标记（token）序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...

图像模型 # FlexTok # 图像编码器

10个月前

03910

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR，用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络，估计生物力学模型 SKEL 的参...

图像模型 # HSMR # 三维人体模型 # 骨架

10个月前

04150

新型框架 EliGen：用于实现图像生成中的实体级控制

浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen，用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力（Regional ...

图像模型 # EliGen # 图像生成

10个月前

02100

新型多模态生成模型UniDisc：基于离散扩散过程的统一生成模型，能够同时理解和生成文本和图像

卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc（Unified Multimodal Discrete Diffusion），UniDisc 是一个基于离散扩散过程的统一生成模型，能够...

图像模型 # UniDisc # 多模态生成模型

10个月前

04030

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

传统的文生图模型（如 Stable Diffusion）能够根据文本描述生成高质量的 RGB 图像，但这些图像通常包含固定的光照效果（如反射、阴影、高光），这限制了它们在需要 PBR 地图（如游戏、V...

图像模型 # IntrinsiX # PBR

10个月前

02530

自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT，研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0，从头开始训练，统一了...

图像模型 # Lumina-mGPT 2.0 # 自回归模型

10个月前

03960

加载更多

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

对角蛇形扫描自回归图像生成框架DAR：用于生成高质量图像的新型自回归模型

开源版GPT‑4o？新型多模态生成模型 Liquid，用一个模型搞定视觉与语言任务

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

新型框架 EliGen：用于实现图像生成中的实体级控制

新型多模态生成模型UniDisc：基于离散扩散过程的统一生成模型，能够同时理解和生成文本和图像

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

ITELLOU

图像模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

ITELLOU