腾讯推出新型视频分词器Divot:统一视频的理解和生成 近年来,大语言模型(LLMs)在图像理解和生成方面取得了显著进展,尤其是在将图像编码为离散标记并结合LLMs进行多模态任务时。然而,将这一成功扩展到视频领域面临着更大的挑战,因为视频不仅包含空间信息,... 新技术# Divot# 视频分词器 2个月前01290