图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

开源版GPT‑4o？新型多模态生成模型 Liquid，用一个模型搞定视觉与语言任务

在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能，火爆网络后，大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...

10个月前

02630

基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

复旦大学和阶跃星辰的研究人员推出基于视觉语言模型（VLMs）的端到端多模态 SVG 生成框架OmniSVG，能够生成从简单图标到复杂动漫角色的高质量 SVG 图形，支持文本到 SVG、图像到 SVG ...

图像模型 # OmniSVG # SVG # 视觉语言模型

6个月前

02510

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow，它直接在像素空间中进行操作，与传统的基于潜在空间（latent space）的模型不同。PixelFlow通过高效的级...

图像模型 # PixelFlow # 图像生成模型

10个月前

01940

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

字节跳动近日推出了UNO，这是一个强大的通用框架，能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力，还能将多样化的任务统一在一个模型之下，为图像生成领域带来了新的突破。项目主页...

图像模型 # FLUX # UNO # 字节跳动

10个月前

06420

智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

北京智象未来科技开源了一款全新的图像生成基础模型HiDream-I1，其拥有 170 亿个参数，能够在几秒内实现顶尖的图像生成效果。这一模型提供了三种变体：Full、Dev 和 Fast，以满足不同用...

图像模型 # HiDream-I1 # 图像生成模型 # 智象未来

10个月前

05280

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok，它能够将二维图像重新采样为长度可变的一维离散标记（token）序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...

图像模型 # FlexTok # 图像编码器

10个月前

03910

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR，用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络，估计生物力学模型 SKEL 的参...

图像模型 # HSMR # 三维人体模型 # 骨架

10个月前

04150

新型框架 EliGen：用于实现图像生成中的实体级控制

浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen，用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力（Regional ...

图像模型 # EliGen # 图像生成

10个月前

02100

新型多模态生成模型UniDisc：基于离散扩散过程的统一生成模型，能够同时理解和生成文本和图像

卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc（Unified Multimodal Discrete Diffusion），UniDisc 是一个基于离散扩散过程的统一生成模型，能够...

图像模型 # UniDisc # 多模态生成模型

10个月前

04030

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

传统的文生图模型（如 Stable Diffusion）能够根据文本描述生成高质量的 RGB 图像，但这些图像通常包含固定的光照效果（如反射、阴影、高光），这限制了它们在需要 PBR 地图（如游戏、V...

图像模型 # IntrinsiX # PBR

10个月前

02530

自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT，研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0，从头开始训练，统一了...

图像模型 # Lumina-mGPT 2.0 # 自回归模型

10个月前

03960

EasyControl 框架：基于扩散变换器（DiT架构）的图像生成模型提供高效且灵活的条件控制能力

Tiamat AI、上海科技大学、新加坡国立大学和Liblib AI的研究人员推出 EasyControl 框架，为基于扩散变换器（DiT架构）的图像生成模型提供高效且灵活的条件控制能力。它通过一系列...

图像模型 # DiT架构 # EasyControl

10个月前

02790

加载更多

开源版GPT‑4o？新型多模态生成模型 Liquid，用一个模型搞定视觉与语言任务

基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

新型框架 EliGen：用于实现图像生成中的实体级控制

新型多模态生成模型UniDisc：基于离散扩散过程的统一生成模型，能够同时理解和生成文本和图像

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

EasyControl 框架：基于扩散变换器（DiT架构）的图像生成模型提供高效且灵活的条件控制能力

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

Skills.sh

图像模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

Skills.sh