视频分词器

共 3 篇文章

排序

发布更新浏览点赞

视频分词器VidTok：用于将视频内容编码成紧凑的潜在标记

视频分词器VidTok：用于将视频内容编码成紧凑的潜在标记

微软研究院、上海交通大学和北京大学的研究人员推出视频分词器VidTok，它是一个多功能且开源的工具，用于将视频内容编码成紧凑的潜在标记（latent tokens）。VidTok在连续和离散标记化方面...

新技术 # VidTok # 视频分词器

1年前

03310

腾讯推出新型视频分词器Divot：统一视频的理解和生成

腾讯推出新型视频分词器Divot：统一视频的理解和生成

近年来，大语言模型（LLMs）在图像理解和生成方面取得了显著进展，尤其是在将图像编码为离散标记并结合LLMs进行多模态任务时。然而，将这一成功扩展到视频领域面临着更大的挑战，因为视频不仅包含空间信息...

新技术 # Divot # 视频分词器

1年前

03230

新型视频分词器LARP：专为自回归（AR）生成模型设计，用于提高视频生成任务的性能

新型视频分词器LARP：专为自回归（AR）生成模型设计，用于提高视频生成任务的性能

马里兰大学学院公园分校的研究人员提出了一种名为LARP（Latent Aggregation and Refinement for Perception）的新型视频分词器，它专为自回归（AR）生成模型...

新技术 # LARP # 视频分词器 # 视频生成

1年前

04190