FusionAudio-1.2M

香港中文大学（深圳）和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集，通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式，整合了多种...

10个月前

02030