Science-T2I框架:通过整合科学知识,提升图像合成模型生成图像的现实感和科学一致性纽约大学、华盛顿大学、宾夕法尼亚大学和 加州大学圣地亚哥分校介绍了一个名为 Science-T2I 的框架,旨在通过整合科学知识,提升图像合成模型生成图像的现实感和科学一致性。该研究的核心是解决现有图...图像模型# Science-T2I# 图像生成模型# 科学8个月前02810
SWITTI:用于文本到图像合成的新型规模感知变换器模型Yandex Research、HSE 大学、MIPT 和 Skoltech 的研究人员提出了 Switti,这是一个专门设计用于文本到图像(T2I)生成的尺度变换器。Switti 从现有的下一尺度预...图像模型# SWITTI# 文生图模型10个月前02800
腾讯混元提出 X-Omni:用强化学习突破离散自回归图像生成瓶颈在当前多模态生成模型的发展中,研究者始终在探索一个统一的建模范式:能否用类似语言模型“预测下一个词”的方式,来生成图像?这种被称为“下一令牌预测(next-token prediction)”的自回归...图像模型# X-Omni# 腾讯混元4个月前02750
PosterGen:用多智能体系统自动生成高质量学术海报对研究人员而言,撰写论文只是第一步。在会议展示阶段,如何将复杂的研究内容浓缩成一张信息清晰、视觉美观、叙事连贯的学术海报,是一项耗时且需要设计经验的任务。 尽管已有自动化工具尝试解决这一问题,但大多数...图像模型# PosterGen# 学术海报3个月前02730
EasyControl 框架:基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力Tiamat AI、上海科技大学、新加坡国立大学和Liblib AI的研究人员推出 EasyControl 框架,为基于扩散变换器(DiT架构)的图像生成模型提供高效且灵活的条件控制能力。它通过一系列...图像模型# DiT架构# EasyControl8个月前02710
基于FLUX模型的图像定制框架DreamO:支持多种图像定制任务,同时实现多种条件(如身份、主体、风格、背景等)的无缝集成字节跳动和北京大学深圳研究生院的研究人员推出一个基于DiT模型的图像定制框架DreamO ,旨在支持多种图像定制任务,同时实现多种条件(如身份、主体、风格、背景等)的无缝集成。它通过引入特征路由约束和...图像模型# DreamO# 图像定制框架7个月前02700
字节跳动提出的新一代多主体可控图像生成模型XVerse在文本到图像生成领域,如何实现对多个主体身份和语义属性(如姿势、风格、照明)的细粒度控制,同时保持高质量和一致性,一直是一个极具挑战性的问题。 传统方法往往存在以下问题: 在多主体场景中容易引入视觉伪...图像模型# XVerse# 图像生成模型5个月前02690
天工AI发布 UniPic-2.0:轻量高效、统一多模态图像生成与编辑新范式天工AI正式推出 UniPic-2.0 系列模型,基于 SD3.5-Medium 架构与创新训练策略,在文本到图像生成、细粒度图像编辑和多模态理解任务中实现全面性能突破。 GitHub:https...图像模型# UniPic-2.0# 天工AI4个月前02640
全新CLIP架构改进方案 CLIP-fine-tune-registers-gatedCLIP(对比语言-图像预训练)是 OpenAI 开发的一种多模态模型,通过对比学习在大量图像-文本对上训练,将图像和文本嵌入到同一个共享空间中,便于零样本任务。然而,CLIP 在处理全局信息时存在一...图像模型# CLIP# CLIP-fine-tune-registers-gated9个月前02620
开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能,火爆网络后,大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...图像模型# GPT‑4o# OpenAI# 多模态生成模型8个月前02600
字节跳动 & 复旦大学联合提出智能海报生成新框架 DreamPoster在 AI 生成图像(AIGC)领域,海报设计一直是极具挑战性的任务之一。它不仅要求模型理解文本描述,还需要兼顾视觉美感、排版逻辑和品牌一致性。近日,字节跳动与复旦大学的研究团队联合提出了一种新的文本...图像模型# DreamPoster# 字节跳动# 海报设计5个月前02550
腾讯混元开源 HunyuanImage 2.1:支持 2K 分辨率的高效文生图模型腾讯混元项目组正式开源HunyuanImage 2.1,一款支持 2048×2048 超高分辨率(2K)生成的文生图模型。该模型在语义对齐、细节控制与推理效率方面实现显著提升,具备电影级构图能力,并原...图像模型# HunyuanImage 2.1# 文生图模型3个月前02500