X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型“能否用同一个模型,既写诗又作画?”这是多模态模型长期以来追求的目标。 近年来,研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域,构建统一的离散自回归模型,期望实现图像生成与语...图像模型# X-Omni# 自回归模型4个月前01560
对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型传统的自回归图像生成方法(如VQGAN)通常按照光栅扫描(raster scan)顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大,从而影响生成效果。例如,当生成一张256...图像模型# DAR# 自回归模型8个月前02370
自回归模型Lumina-mGPT 2.0:支持文生图、多轮图像编辑、可控生成等上海人工智能实验室和香港中文大学的研究人员之前推出了新型多模态自回归模型Lumina-mGPT,研究团队在今天推出了一种独立的、仅解码器的自回归模型Lumina-mGPT 2.0,从头开始训练,统一了...图像模型# Lumina-mGPT 2.0# 自回归模型8个月前03720
蒸馏解码DD:用于加速自回归(AR)模型在图像和文本生成任务中的采样步骤自回归(AR)模型在文本和图像生成方面取得了显著的进展,但其逐令牌生成的过程导致了速度上的局限性。为了克服这一问题,清华大学和微软研究院的研究人员提出了一项雄心勃勃的任务:能否将预训练的AR模型调整为...新技术# 自回归模型# 蒸馏解码12个月前02530