基于Transformer架构的新型视频生成模型Snap Video 来自Snap、特伦托大学、加州大学默塞德分校、布鲁诺·凯斯勒基金会的研究人员推出新型视频生成模型Snap Video,此模型基于Transformer架构,目标是将文本描述转换成高质量的视频内容。 项... 新技术# Snap Video# Transformer# 视频生成模型 1年前04210
新型图像生成模型FiT:基于Transformer架构,可以生成无限制分辨率和长宽比的图像 FiT(Flexible Vision Transformer)是一款新型图像生成模型,基于Transformer架构,旨在生成具有无限制分辨率和长宽比的图像。 GitHub 论文 模型 传统的图像生... 新技术# FiT# Transformer# 图像生成模型 1年前06270