基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形复旦大学和阶跃星辰的研究人员推出基于视觉语言模型(VLMs)的端到端多模态 SVG 生成框架OmniSVG,能够生成从简单图标到复杂动漫角色的高质量 SVG 图形,支持文本到 SVG、图像到 SVG ...图像模型# OmniSVG# SVG# 视觉语言模型5个月前02490
基于像素空间流的图像生成模型PixelFlow:根据给定的文本描述生成高质量、语义一致的图像香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow,它直接在像素空间中进行操作,与传统的基于潜在空间(latent space)的模型不同。PixelFlow通过高效的级...图像模型# PixelFlow# 图像生成模型8个月前01920
字节跳动推出基于Flux的通用框架UNO:支持虚拟试穿、风格化生成、产品设计等功能字节跳动近日推出了UNO,这是一个强大的通用框架,能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力,还能将多样化的任务统一在一个模型之下,为图像生成领域带来了新的突破。 项目主页...图像模型# FLUX# UNO# 字节跳动8个月前06170
智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1北京智象未来科技开源了一款全新的图像生成基础模型HiDream-I1,其拥有 170 亿个参数,能够在几秒内实现顶尖的图像生成效果。这一模型提供了三种变体:Full、Dev 和 Fast,以满足不同用...图像模型# HiDream-I1# 图像生成模型# 智象未来8个月前05200
新型图像编码器FlexTok:能够将二维图像重新采样为长度可变的一维离散标记(token)序列苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok,它能够将二维图像重新采样为长度可变的一维离散标记(token)序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...图像模型# FlexTok# 图像编码器8个月前03290
HSMR:用于从单张图像中重建具有生物力学准确骨架的三维人体模型德克萨斯大学奥斯汀分校和浙江大学的研究人员推出HSMR,用于从单张图像中重建具有生物力学准确骨架的三维人体模型。该方法通过训练一个基于 Transformer 的网络,估计生物力学模型 SKEL 的参...图像模型# HSMR# 三维人体模型# 骨架8个月前03780
新型框架 EliGen:用于实现图像生成中的实体级控制浙江大学控制科学与工程学院、阿里巴巴集团ModelScope团队和华东师范大学的研究人员推出新型框架 EliGen,用于实现图像生成中的实体级控制。EliGen 通过引入区域注意力(Regional ...图像模型# EliGen# 图像生成8个月前01970
新型多模态生成模型UniDisc:基于离散扩散过程的统一生成模型,能够同时理解和生成文本和图像卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc(Unified Multimodal Discrete Diffusion),UniDisc 是一个基于离散扩散过程的统一生成模型,能够...图像模型# UniDisc# 多模态生成模型8个月前03800
IntrinsiX:能够直接从文本描述生成高质量的物理基础渲染(PBR)图像传统的文生图模型(如 Stable Diffusion)能够根据文本描述生成高质量的 RGB 图像,但这些图像通常包含固定的光照效果(如反射、阴影、高光),这限制了它们在需要 PBR 地图(如游戏、V...图像模型# IntrinsiX# PBR8个月前02310
自回归模型Lumina-mGPT 2.0:支持文生图、多轮图像编辑、可控生成等上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT,研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0,从头开始训练,统一了...图像模型# Lumina-mGPT 2.0# 自回归模型8个月前03720
EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力Tiamat AI、上海科技大学、新加坡国立大学和Liblib AI的研究人员推出 EasyControl 框架,为基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力。它通过一系列...图像模型# DiT架构# EasyControl8个月前02710
基于 GenAI 的视觉内容创作控制框架ZenCtrl:利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调ZenCtrl 是一款基于 GenAI 的视觉内容创作控制框架,专注于利用单张主体图像生成多视角、多样化场景的高分辨率图像,无需额外微调。它通过精细的控制能力和模块化设计,为创作者提供了一个强大且灵活...图像模型# OminiControl# ZenCtrl# 图像控制框架7个月前04350