Jina CLIP v2：用于文本和图像的多语言多模态嵌入

151 0

在互联互通的世界中，跨多种语言和媒介的有效沟通变得越来越重要。多模态AI在结合图像和文本以实现不同语言的无缝检索和理解方面面临着诸多挑战。现有的模型在英语中表现良好，但在其他语言中则表现不佳。此外，同时处理文本和图像的高维数据在计算上非常密集，限制了非英语使用者和需要多语言背景场景的应用。

官方介绍：https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images
模型：https://huggingface.co/jinaai/jina-clip-v2

为了解决这些问题，Jina AI 推出了 Jina-CLIP v2——一款拥有90亿参数的多语言多模态嵌入模型，能够在89种语言中将图像与文本连接起来。Jina-CLIP v2 支持广泛的语言，解决了之前限制访问高级多模态人工智能技术的局限性。它能够处理512×512分辨率的图像，并处理最多8000个令牌的文本，有效地解决了将图像与多语言文本连接的问题。

技术细节

Jina-CLIP v2是基于 Jina-CLIP v1 和Jina-Embeddings v3 构建的新型通用多语言多模态嵌入模型，具有几项关键改进。

性能提升

文本-图像和文本-文本检索任务：Jina-CLIP v2 在这些任务中比 v1 提升了3%的性能。
多语言长上下文密集检索器：v2 的文本编码器可以作为一个有效的多语言长上下文密集检索器，其性能与我们的前沿模型 Jina-Embeddings v3 相当（目前是 MTEB 上参数小于1B的最佳多语言嵌入）。

多语言支持

89种语言：由 Jina-Embeddings v3 驱动的文本塔，Jina-CLIP v2 支持89种语言的多语言图像检索。
性能提升：在多语言图像检索任务中，Jina-CLIP v2 比 nllb-clip-large-siglip 显示出高达4%的改进。

更高的图像分辨率

512x512输入图像分辨率：v2 现在支持512x512的输入图像分辨率，显著高于 v1 的224x224。这种更高的分辨率使得对细节图像的处理更好，特征提取更佳，对细粒度视觉元素的识别更准确。

俄罗斯套娃表示

灵活的嵌入维度：v2 允许用户将文本和图像嵌入的输出维度从1024截断到64，减少了存储和处理开销，同时保持强大的性能。这种灵活性使得模型适用于各种应用场景，从计算密集型的深度学习任务到轻量级的移动应用程序。

技术细节

灵活性和效率

Jina-CLIP v2 以其灵活性和效率而著称。它不仅能够在大规模维度上生成嵌入，还能在小规模上生成嵌入。其 Matryoshka 表示法功能将嵌入维度减少到64维，允许用户根据具体需求调整嵌入过程，无论是计算密集型的深度学习任务还是轻量级的移动应用程序。

文本编码器

模型的文本编码器可以作为密集检索器独立运行，与 jina-embeddings-v3 的性能相匹配——jina-embeddings-v3 是在多语言文本嵌入基准（MTEB）下1亿参数以下多语言嵌入的当前领导者。这种多功能性使得 Jina-CLIP v2 适用于各种用例，从多语言搜索引擎到上下文感知推荐系统。