通过实现空间可扩展和全景动态场景合成的创新框架DynamicScaler:用于生成高质量、可扩展的全景动态场景视频
随着对沉浸式 AR/VR 应用和空间智能需求的增加,生成高质量的场景级和 360...
字节推出CausalFusion:基于解码器的变换器,旨在统一自回归(AR)和扩散模型的生成范式
字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder...
实例感知结构化字幕框架InstanceCap:实现实例级 和 细粒度 的视频字幕生成,显著提升了字幕与视频之间的一致性和保真度
近年来,文本到视频生成技术取得了显著进展,但现有的视频字幕生成方法仍然存在一...