混合数据专家MoDE：通过聚类方法来提升对比语言-图像预训练（CLIP）的性能

新技术10个月前发布小马良

384 0

来自Meta、哥伦比亚大学、纽约大学和华盛顿大学的研究人员推出机器学习系统MoDE（Mixture of Data Experts，混合数据专家），它通过聚类方法来提升对比语言-图像预训练（CLIP）的性能。CLIP是一种能够学习图像和文本之间关联的人工智能模型，可以用于各种下游任务，比如图像分类或者图像与文本的匹配。

论文：https://arxiv.org/abs/2404.16030
GitHub：https://github.com/facebookresearch/MetaCLIP/tree/main/mode

MoDE通过一种创新的聚类方法，提高了模型处理大量网络数据的能力，并且在多个标准基准测试中取得了优异的性能，同时降低了训练成本。每个数据专家在特定的数据簇上进行训练，从而对不属于该簇的假阴性噪声具有较低敏感度。在推理阶段，开发人员根据任务元数据与各簇条件之间的相关性分配权重，以此来集成各个数据专家的输出结果。为了精确估算这种相关性，每个簇内的样本应当在语义层面具有高度相似性，同时，数据专家的数量需保持在适宜范围，以确保训练与推理过程的高效进行。为此，开发人员借鉴了人类语言中的本体论思想，提议在粗粒度层次上使用细粒度聚类中心来表征每个数据专家。

通俗介绍：

你有一堆照片和描述这些照片的标签（captions），你想让电脑学会根据这些标签来理解照片的内容。但是，这些标签中有些可能是错误的或者模糊的，这会让电脑学习时产生困扰。MoDE系统就像是一个聪明的分类专家，它会把照片和标签分成不同的组，每组内的照片和标签在意义上更接近。这样，电脑就可以更准确地学会如何根据标签来理解照片。

主要功能：

MoDE的主要功能是提高CLIP模型在处理大量网络爬取数据时的鲁棒性和准确性。它通过聚类技术来减少错误标签对学习过程的干扰，并提高模型对图像和文本之间关系的把握。

主要特点：

聚类学习： MoDE不是用一个单一的模型来学习所有的数据，而是创建多个“数据专家”，每个专家学习数据的一个子集。
减少噪声： 通过聚类，MoDE能够减少错误标签（false negatives）的影响，这些错误标签在传统的CLIP训练中可能会被视为负面例子。
灵活性和扩展性： MoDE可以异步训练多个数据专家，并且可以灵活地添加新的数据专家，这对于处理不断增长的数据集非常有用。
节省成本： 实验表明，MoDE在训练成本上比现有的CLIP模型要低，但性能却更好。

工作原理： MoDE的工作原理分为两个主要步骤：

数据聚类： 首先，系统将训练数据（图像-标签对）通过标签进行聚类，形成不同的子集。
专家训练与集成： 每个聚类子集用于训练一个“数据专家”。在推理时，根据任务的元数据（如类别名称）来决定激活哪些数据专家，并将它们的输出进行加权集成，以得到最终的分类结果。

具体应用场景： MoDE的应用场景包括但不限于：

图像分类： 使用MoDE训练的模型可以更准确地将图像分类到正确的类别。
图像检索： 根据文本描述来检索相关图像。
多模态学习： 在需要同时处理图像和文本的任务中，比如社交媒体内容的理解或者医疗图像的标注。

新技术 # CLIP # MoDE # 混合数据专家

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

整数低秩参数微调量化扩散模型IntLoRA：提升了文生图模型微调的效率

整数低秩参数微调量化扩散模型IntLoRA：提升了文生图模型微调的效率

新技术 # IntLoRA

3个月前

01270

腾讯推出新型视频分词器Divot：统一视频的理解和生成

腾讯推出新型视频分词器Divot：统一视频的理解和生成

新技术 # Divot # 视频分词器

2个月前

01290

腾讯推出创新框架AniPortrait：根据音频和一张参考肖像图片生成高质量的动画

腾讯推出创新框架AniPortrait：根据音频和一张参考肖像图片生成高质量的动画

新技术 # AniPortrait

10个月前

04470

无需预先训练框架MotionClone：通过复制参考视频中的动作来指挥文本导向的视频生成

无需预先训练框架MotionClone：通过复制参考视频中的动作来指挥文本导向的视频生成

新技术 # MotionClone # 视频生成

8个月前

02830

暂无评论

none

暂无评论...