实例感知结构化字幕框架InstanceCap:实现实例级 和 细粒度 的视频字幕生成,显著提升了字幕与视频之间的一致性和保真度 近年来,文本到视频生成技术取得了显著进展,但现有的视频字幕生成方法仍然存在一些问题: 细节不足:传统的视频字幕往往缺乏对视频中物体和场景的细粒度描述,导致生成的视频在细节上不够丰富。 幻觉现象:由于模... 新技术# InstanceCap# 字幕 2个月前01170