视频分词器VidTok:用于将视频内容编码成紧凑的潜在标记 微软研究院、上海交通大学和北京大学的研究人员推出视频分词器VidTok,它是一个多功能且开源的工具,用于将视频内容编码成紧凑的潜在标记(latent tokens)。VidTok在连续和离散标记化方面... 新技术# VidTok# 视频分词器 2个月前01210
腾讯推出新型视频分词器Divot:统一视频的理解和生成 近年来,大语言模型(LLMs)在图像理解和生成方面取得了显著进展,尤其是在将图像编码为离散标记并结合LLMs进行多模态任务时。然而,将这一成功扩展到视频领域面临着更大的挑战,因为视频不仅包含空间信息,... 新技术# Divot# 视频分词器 2个月前01290
新型视频分词器LARP:专为自回归(AR)生成模型设计,用于提高视频生成任务的性能 马里兰大学学院公园分校的研究人员提出了一种名为LARP(Latent Aggregation and Refinement for Perception)的新型视频分词器,它专为自回归(AR)生成模型... 新技术# LARP# 视频分词器# 视频生成 4个月前01980