上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”(Cross Modality Compression,简称CMC)。这项技术的核心思想是利用大型多模态模型(Large Multimodal Models,简称LMMs)来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像数据的大小。还推出了基准测试工具CMC-Bench,它可以用来评估不同的I2T和T2I模型在图像压缩任务中的表现,帮助开发者优化和改进压缩算法。
- GitHub:https://github.com/Q-Future/CMC-Bench
- 数据:https://huggingface.co/datasets/lcysyzxdxc/CMC-Bench
例如,你有一张非常清晰美丽的风景照片,但因为照片太大,发送起来很耗流量。传统的压缩方法可能在减小照片大小的同时,让照片变得模糊。现在,跨模态压缩技术就像是一个聪明的翻译官,它首先把这张照片“翻译”成一段简洁的描述文字,这段文字占用的空间很小。然后,不管何时何地,只要有人收到这段描述,就可以根据这段文字“画”出一张几乎一样的风景照片。这样,我们就可以用极少的数据量来传递大量的视觉信息。
主要功能:
- 实现超低比特率的图像压缩。
- 通过语义级别的转换,减少图像数据的大小到原来的0.1%或更低。
主要特点:
- 利用LMMs的多模态转换能力,实现图像与文本之间的高效转换。
- 在极低的比特率下,依然能够保持较好的图像质量和语义信息。
工作原理:
- 图像到文本(I2T): 使用LMMs将图像内容转换成文本描述,这一步骤大幅减少了数据量。
- 文本到图像(T2I): 再将文本描述转换回图像,这一步骤需要模型能够根据文本精确重建图像内容。
具体应用场景:
- 物联网中的多设备通信: 在带宽有限的情况下,CMC技术可以使得设备之间高效地传输图像数据。
- 社交媒体和云服务: 用户可以上传和分享高清晰度的图片,而不必担心数据流量和存储空间的限制。
- 紧急响应和远程监控: 在需要快速传输关键图像信息的场合,如灾害响应或安全监控,CMC可以快速传递清晰图像。
评论0