图像模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

基于Flux模型的创新角色生成框架InstantCharacter：单张图像生成高质量角色图像

腾讯混元团队与InstantX团队近日联合推出了一种全新的角色定制方法——InstantCharacter。这一方法无需调优，仅通过单张图像即可实现高保真、文本可控且角色一致的图像生成，支持多种下游任...

12个月前

06090

开源版GPT‑4o？新型多模态生成模型 Liquid，用一个模型搞定视觉与语言任务

在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能，火爆网络后，大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...

图像模型 # GPT‑4o # OpenAI # 多模态生成模型

12个月前

02700

基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

复旦大学和阶跃星辰的研究人员推出基于视觉语言模型（VLMs）的端到端多模态 SVG 生成框架OmniSVG，能够生成从简单图标到复杂动漫角色的高质量 SVG 图形，支持文本到 SVG、图像到 SVG ...

图像模型 # OmniSVG # SVG # 视觉语言模型

9个月前

02570

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow，它直接在像素空间中进行操作，与传统的基于潜在空间（latent space）的模型不同。PixelFlow通过高效的级...

图像模型 # PixelFlow # 图像生成模型

1年前

02010

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

字节跳动近日推出了UNO，这是一个强大的通用框架，能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力，还能将多样化的任务统一在一个模型之下，为图像生成领域带来了新的突破。项目主页...

图像模型 # FLUX # UNO # 字节跳动

1年前

06950

智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

北京智象未来科技开源了一款全新的图像生成基础模型HiDream-I1，其拥有 170 亿个参数，能够在几秒内实现顶尖的图像生成效果。这一模型提供了三种变体：Full、Dev 和 Fast，以满足不同用...

图像模型 # HiDream-I1 # 图像生成模型 # 智象未来

1年前

05940

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok，它能够将二维图像重新采样为长度可变的一维离散标记（token）序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...

图像模型 # FlexTok # 图像编码器

1年前

04680

HSMR：用于从单张图像中重建具有生物力学准确骨架的三维人体模型

德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR，用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络，估计生物力学模型 SKEL 的参...

图像模型 # HSMR # 三维人体模型 # 骨架

1年前

05390

新型框架 EliGen：用于实现图像生成中的实体级控制

浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen，用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力（Regional ...

图像模型 # EliGen # 图像生成

1年前

02430

新型多模态生成模型UniDisc：基于离散扩散过程的统一生成模型，能够同时理解和生成文本和图像

卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc（Unified Multimodal Discrete Diffusion），UniDisc 是一个基于离散扩散过程的统一生成模型，能够...

图像模型 # UniDisc # 多模态生成模型

1年前

04720

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

传统的文生图模型（如 Stable Diffusion）能够根据文本描述生成高质量的 RGB 图像，但这些图像通常包含固定的光照效果（如反射、阴影、高光），这限制了它们在需要 PBR 地图（如游戏、V...

图像模型 # IntrinsiX # PBR

1年前

02990

自回归模型Lumina-mGPT 2.0：支持文生图、多轮图像编辑、可控生成等

上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT，研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0，从头开始训练，统一了...

图像模型 # Lumina-mGPT 2.0 # 自回归模型

1年前

04040

加载更多