新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

新技术10个月前发布小马良

529 0

上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”（Cross Modality Compression，简称CMC）。这项技术的核心思想是利用大型多模态模型（Large Multimodal Models，简称LMMs）来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像数据的大小。还推出了基准测试工具CMC-Bench，它可以用来评估不同的I2T和T2I模型在图像压缩任务中的表现，帮助开发者优化和改进压缩算法。

GitHub：https://github.com/Q-Future/CMC-Bench
数据：https://huggingface.co/datasets/lcysyzxdxc/CMC-Bench

例如，你有一张非常清晰美丽的风景照片，但因为照片太大，发送起来很耗流量。传统的压缩方法可能在减小照片大小的同时，让照片变得模糊。现在，跨模态压缩技术就像是一个聪明的翻译官，它首先把这张照片“翻译”成一段简洁的描述文字，这段文字占用的空间很小。然后，不管何时何地，只要有人收到这段描述，就可以根据这段文字“画”出一张几乎一样的风景照片。这样，我们就可以用极少的数据量来传递大量的视觉信息。

新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

主要功能：

实现超低比特率的图像压缩。
通过语义级别的转换，减少图像数据的大小到原来的0.1%或更低。

主要特点：

利用LMMs的多模态转换能力，实现图像与文本之间的高效转换。
在极低的比特率下，依然能够保持较好的图像质量和语义信息。

工作原理：

图像到文本（I2T）： 使用LMMs将图像内容转换成文本描述，这一步骤大幅减少了数据量。
文本到图像（T2I）： 再将文本描述转换回图像，这一步骤需要模型能够根据文本精确重建图像内容。

新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

具体应用场景：

物联网中的多设备通信： 在带宽有限的情况下，CMC技术可以使得设备之间高效地传输图像数据。
社交媒体和云服务： 用户可以上传和分享高清晰度的图片，而不必担心数据流量和存储空间的限制。
紧急响应和远程监控： 在需要快速传输关键图像信息的场合，如灾害响应或安全监控，CMC可以快速传递清晰图像。

新技术 # CMC # CMC-Bench # 图像压缩 # 模态压缩

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

ViewDiff：从文本或图像生成多视图图像

ViewDiff：从文本或图像生成多视图图像

新技术 # 3D模型 # ViewDiff # 多视角

1年前

05010

Golden Noise：将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

Golden Noise：将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

新技术 # Golden Noise # 黄金噪声

4个月前

01530

FaceChain-SuDe：提高个性化图像生成的属性相关性

FaceChain-SuDe：提高个性化图像生成的属性相关性

新技术 # FaceChain-SuDe # 个性化图像生成

1年前

03930

FoleyCrafter：用于将无声视频通过自动生成高质量、与视频同步的声音效果，从而带来沉浸式的视听体验

FoleyCrafter：用于将无声视频通过自动生成高质量、与视频同步的声音效果，从而带来沉浸式的视听体验

新技术 # FoleyCrafter

9个月前

04880

暂无评论

none

暂无评论...