Jina AI推出文本嵌入模型Jina Embeddings v4:多模态多语言检索的通用嵌入模型

多模态模型5个月前发布 小马良
223 0

Jina AI正式发布 jina-embeddings-v4 —— 一款全新的38亿参数通用嵌入模型,支持文本与图像输入,适用于多种检索任务。该模型在多个基准测试中表现优异,特别是在处理表格、图表等视觉丰富内容方面展现出强大能力。

模型亮点

  • 多模态支持:支持文本与图像联合嵌入
  • 多语言能力:覆盖29种以上语言
  • 双输出模式:单向量 + 多向量嵌入
  • 任务适配器:非对称检索、语义匹配、代码搜索
  • 长文档处理:最大支持32768个token输入
  • 高分辨率图像支持:高达2000万像素

性能优势

在多个关键任务中,jina-embeddings-v4 表现出优于主流闭源模型的性能:

任务v4得分对比模型提升幅度
多语言检索(MTEB)66.49text-embedding-3-large+12%
长文档检索(LongEmbed)67.11voyage-3+28%
代码检索(CoIR)71.59voyage-3+15%
视觉文档检索(Jina-VDR)84.11 nDCG@5-首次支持
跨模态对齐0.71CLIP+显著提升

这些结果表明,v4 不仅在传统文本任务上具备竞争力,在多模态、视觉文档等新兴场景中也具有领先优势。

架构升级概览

从 v3 到 v4 的升级不仅是参数规模的扩展,更是架构和能力上的跃迁。以下是主要变化对比:

维度jina-embeddings-v3jina-embeddings-v4
参数量5.72亿38亿
支持模态仅文本文本 + 图像
输入长度8192 tokens32768 tokens
图像支持不支持高达2000万像素
向量类型单向量单向量 + 多向量
LoRA适配器数量5种3种
骨干模型XLM-RoBERTaQwen2.5-VL-3B-Instruct
训练阶段三阶段两阶段
位置编码RoPEM-RoPE(多模态)

核心架构改进

1. 骨干模型更换

v4 将骨干模型从 XLM-RoBERTa 更换为 Qwen2.5-VL-3B-Instruct,这是实现多模态统一表示的关键一步。新模型能够将图像转换为标记序列,并与文本一同处理,从而消除传统双编码器架构中的模态差距。

此外,Qwen2.5-VL 在文档理解任务上表现出色,使得 v4 在处理表格、图表、截图等复杂内容时更具优势。

2. LoRA 适配器优化

v4 精简了任务适配器的数量,聚焦于最具实用价值的三个方向:

  • 非对称检索:适用于查询-文档检索场景
  • 语义相似性:用于句子间相似度计算(STS)
  • 代码检索:支持代码片段的高效查找

这一调整去除了 v3 中较少使用的分类和分离适配器,提升了整体使用效率。

3. 嵌入输出机制升级

v4 引入双输出机制,满足不同检索需求:

  • 单向量模式:2048维向量,适用于快速相似性搜索
  • 多向量模式:每个 token 输出128维向量,适用于后期交互式检索

实验证明,在视觉文档检索任务中,多向量模式比单向量模式性能高出7-10%,有效提升复杂内容的语义匹配精度。

4. 训练策略优化

v4 的训练流程简化为两个阶段:

  1. 联合对训练(Joint Pair Training)
  2. 任务特定适配器微调

这种策略不仅提升了训练效率,还增强了模型的泛化能力。损失函数采用 InfoNCE + KL 散度组合,确保单/多向量输出的一致性。

参数规模与性能关系

虽然 v4 参数是 v3 的6.7倍,但性能提升主要体现在多模态能力上:

基准测试v4得分v3得分提升幅度
MMTEB(多语言)66.4958.58+14%
MTEB-EN(英文)55.9754.33+3%
CoIR(代码检索)71.5955.07+30%
LongEmbed(长文档)67.1155.66+21%

这说明,新增参数主要用于支持图像处理和跨模态对齐,而非单纯增强文本能力。统一架构的设计也减少了维护多个模型的成本。

© 版权声明

相关文章

暂无评论

none
暂无评论...