字节推出新型视觉自回归（VAR）模型Infinity：根据语言指令生成高分辨率、逼真的图像

新技术1年前发布小马良

283 0

字节跳动的研究团队提出了一种名为Infinity的新方法，该方法在位级标记预测框架下重新定义了视觉自回归（VAR）模型，能够根据语言指令生成高分辨率、逼真的图像。Infinity通过引入无限词汇标记器与分类器以及位级自校正机制，显著提升了图像生成的能力和细节表现。例如，你想要生成一张“在咖啡杯中航行的两艘海盗船战斗的逼真近距离视频”的图片，使用Infinity模型，你只需输入这段描述性的文本，模型就能理解并生成符合这一描述的高分辨率图像。

GitHub：https://github.com/FoundationVision/Infinity

位级视觉自回归模型

传统VAR模型受限于有限的标记词汇表大小，这限制了它们的扩展能力和生成质量。Infinity通过将标记器词汇表大小理论上扩展到无穷大，并同时扩展变换器规模，释放了强大的扩展能力。这种设计使得模型能够在更精细的粒度上捕捉图像特征，从而生成更加逼真和详细的图像。

核心技术特点

无限词汇标记器与分类器：通过将标记器词汇表大小扩展到无穷大，Infinity能够表示更多的图像特征，提高了模型的表达能力和生成质量。
位级自校正机制：这一机制允许模型在生成过程中进行自我修正，确保生成的图像在细节上更加准确和自然。
高效生成：Infinity能够在0.8秒内生成一张高质量的1024x1024图像，比顶级扩散模型如SD3-Medium快2.6倍，成为目前最快的文本到图像模型之一。

主要功能：

高分辨率图像合成：能够根据文本提示生成高分辨率的图像。
精确的文本提示跟随：模型能够准确理解并遵循用户提供的文本提示。
空间推理：模型能够理解图像中的空间关系，生成符合逻辑的图像。
文本渲染：能够根据文本提示在图像中渲染文本。
美学优化：生成的图像在风格和美观度上具有多样性和吸引力。

主要特点：

无限词汇表：理论上将标记器的词汇表大小扩展到无穷大，提高了生成细节的能力。
位自纠正机制：在训练过程中通过随机翻转位来模拟预测错误，并重新量化残差特征，使系统具有自我纠正能力。
速度快：相比其他模型，Infinity在生成图像时速度更快。

工作原理：

视觉标记器：将图像编码为特征图，然后量化为多尺度残差图。
变换器（Transformer）：学习基于先前预测和文本输入预测下一个尺度的残差。
位建模框架：包括位视觉标记器、无限词汇表分类器和位自纠正，替代了传统的索引式标记器。
自我纠正：通过模拟预测错误并重新量化，使模型能够自动纠正先前的错误。

性能提升

实验结果表明，Infinity在多个基准测试中取得了显著的成绩：

GenEval基准评分：从0.62提升至0.73。
ImageReward基准评分：从0.87提升至0.96。
胜率：达到了66%，超越了SD3-Medium等顶级扩散模型。

这些成绩不仅展示了Infinity在生成质量上的优势，还证明了其在速度和效率方面的卓越表现。

新技术 # Infinity # 视觉自回归模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Jina AI推出新型文本嵌入模型 jina-embeddings-v3：专为多语言数据和长文本检索任务优化

Jina AI推出新型文本嵌入模型 jina-embeddings-v3：专为多语言数据和长文本检索任务优化

新技术 # jina-embeddings-v3 # 文本嵌入模型

2年前

04450

全新文生图框架RealCompo：结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量

全新文生图框架RealCompo：结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量

新技术 # GLIGEN模型 # RealCompo # 文生图框架

2年前

07420

新型图像到视频扩散模型TRIP：专注于将静态图像转换为动态视频

新型图像到视频扩散模型TRIP：专注于将静态图像转换为动态视频

新技术 # TRIP # 图生视频

2年前

06200

基于二维高斯分布的图像表示方法Image-GS：通过自适应地分配和优化一组二维高斯分布来重建图像

基于二维高斯分布的图像表示方法Image-GS：通过自适应地分配和优化一组二维高斯分布来重建图像

新技术 # Image-GS # 图像表示方法

8个月前

02020

暂无评论

none

暂无评论...