字节跳动推出新型统一图像标记器TokenFlow:弥合多模态理解和生成之间的长期存在的差距字节跳动的研究团队提出了TokenFlow,这是一种新颖的统一图像标记器,旨在弥合多模态理解和生成之间的长期存在的差距。先前的方法尝试使用单一的重建导向向量量化(VQ)编码器来统一这两项任务,但这种做...图像模型# TokenFlow# 统一图像标记器10个月前03010
原生分辨率图像生成新范式NiT:原生分辨率扩散Transformer,实现任意分辨率和宽高比图像生成大语言模型(LLMs)凭借其在原生数据格式上训练的能力,能够高效处理可变长度文本。这种灵活的适应性启发我们思考一个关键问题: 扩散模型能否也具备类似的灵活性,在任意分辨率和宽高比下直接学习生成图像? ...图像模型# NiT# 原生分辨率生成6个月前02960
NovelAI 正式公开了其基于SD1.5的第二代图像生成模型 NovelAI Diffusion V2NovelAI 正式公开了其第二代图像生成模型 NovelAI Diffusion V2 的权重文件,供研究、个人使用及历史保存。这一举动意味着即使该模型在 NovelAI 官网停止服务后,用户仍可通...图像模型# NovelAI Diffusion V2# SD1.55个月前02950
Adobe 推出 Firefly 系列新模型与重新设计的 Web 应用Adobe 在生成式 AI 领域再次迈出重要一步,推出了 Firefly 系列图像生成模型的最新迭代版本、一个全新的 矢量生成模型(Firefly Vector Model),以及一个经过重新设计的 ...图像模型# Adobe# Firefly Image 4# Image 4 Ultra8个月前02950
多模态框架Tar:通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中香港中文大学和字节跳动的研究人员推出多模态框架Tar,通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中。该框架的核心是 Text-Aligned Tokenizer (TA-Tok),它...图像模型# Tar# 多模态框架6个月前02930
新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE,它通过两阶段训练方法,将 QwenVL 等多模态编码器与扩散模型集成在一起,从而...图像模型# DREAM ENGINE# 图像生成# 多模态模型9个月前02910
SANA模型的升级版SANA 1.5:实现高质量的图像生成,同时显著降低了训练和推理成本英伟达、麻省理工学院、清华大学、Playground和北京大学的研究团队推出了SANA模型的升级版SANA 1.5,这是一款高效的DiT架构模型,通过创新的训练和推理策略,实现文本到图像生成任务中的高...图像模型# DiT架构模型# SANA 1.5# 文生图模型9个月前02890
Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架Lumina-Accessory 是一个专为 Lumina 系列模型设计的多任务指令微调框架,目前支持 Lumina-Image-2.0。该框架通过一系列创新设计,为图像生成和编辑任务提供了强大的支持...图像模型# Lumina-Accessory# Lumina-Image 2.0# 图像生成8个月前02850
字节跳动开源UMO:统一多身份优化框架,让AI准确“认出”每个人在图像定制领域,个性化生成已逐渐从“一个人一个风格”迈向“多人协同场景”的复杂需求。然而,当一张图中需要同时呈现多个真实人物时,模型常常出现“张冠李戴”——面部特征混淆、身份错位,导致输出失真。这不仅...图像模型# UMO# 字节跳动3个月前02840
新型图像编辑框架PhotoDoodle:通过文字提示在照片中添加艺术化装饰新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat的研究人员推出新型图像编辑框架PhotoDoodle,通过少量样本学习艺术家的独特风格,将装饰元素(如手绘线条、装饰图案等)无缝叠加到...图像模型# PhotoDoodle# 图像编辑框架# 照片涂鸦9个月前02840
新型多层透明图像生成方法ART:通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究人员推出新型多层透明图像生成方法Anonymous Region Transformer (ART) ,通过全局文本提示和匿名区域布局直接生成...图像模型# ART# 透明图像9个月前02840
上海AI实验室发布Lumina系列图像生成模型的最新成果—Lumina-Image 2.0上海AI实验室正式发布了Lumina系列图像生成模型的最新成果——Lumina-Image 2.0。这一版本不仅提高了图像生成的效率,还通过其统一且透明的设计理念,为用户提供了更加流畅和便捷的使用体验...图像模型# Lumina-Image 2.010个月前02830