英伟达推出新型大语言模型嵌入模型NV-Embed:专门设计用于提高文本嵌入任务的性能

英伟达推出新型大语言模型嵌入模型NV-Embed,NV-Embed专门设计用于提高文本嵌入任务的性能,它在多种文本嵌入任务上的表现开始超越了基于BERT或T5的嵌入模型,包括基于密集向量的检索。NV-Embed模型在Massive Text Embedding Benchmark (MTEB)上取得了创纪录的高分,并在BEIR基准测试中的15个检索任务上也取得了最高分。这些成绩证明了NV-Embed在多种文本嵌入任务上的有效性和优越性。

NV-Embed模型通过一系列架构设计与训练策略的创新,大幅增强了大语言模型作为通用嵌入模型的表现力,同时确保了模型的简洁度和可重复实施性。在模型架构层面,开发人员提出了一种潜在注意力汇聚层,用于生成综合嵌入,与均值汇聚或直接采用大语言模型中最后一个标记的嵌入相比,这种方法持续提高了检索和各类下游任务的准确率。

为了增进表示学习的质量,开发人员在对比学习阶段移除了大语言模型中的因果注意力屏蔽。至于模型训练,开发人员引入了双阶段的对比指令调整流程:首阶段在检索数据集上借助指令执行对比学习,利用批次内负样本及精选的困难负例;第二阶段则融合多样的非检索数据集进行指令调整,此举不仅强化了非检索任务的表现,也促进了检索效能的提升。

主要功能和特点:

  1. 新颖的架构设计:NV-Embed引入了一个潜在注意力层(latent attention layer),用于获取经过池化的嵌入表示,这在检索和下游任务的准确性上一致优于传统的平均池化方法或使用LLMs中最后一个<EOS>标记的嵌入。
  2. 对比学习增强:在对比训练中,NV-Embed去除了LLMs的因果注意力掩码,以增强表示学习。
  3. 两阶段对比指令调优方法:模型训练采用了这种方法,首先在检索数据集上应用对比训练,使用批内负样本和精选的硬负样本。第二阶段,将各种非检索数据集混合到指令调优中,这不仅提高了非检索任务的准确性,还提升了检索性能。
  4. 公开可用:NV-Embed使用的是公开可用的数据进行训练,没有依赖于GPT-4等专有模型的合成数据。

工作原理:

NV-Embed模型的工作原理主要基于以下几个关键点:

  • 潜在注意力层:这一层次的引入是为了改善序列标记的嵌入表示,使其更加丰富和表达力强。
  • 对比训练:通过对比学习,模型学习区分不同文本之间的细微差别,从而提高嵌入的质量。
  • 两阶段训练:先针对检索任务进行优化,然后扩展到其他类型的嵌入任务,如分类、聚类和语义文本相似性任务。

具体应用场景:

  1. 信息检索:NV-Embed可以用于改进搜索引擎,使其能够更准确地检索出与查询最相关的文档或文章。
  2. 问答系统:在问答系统中,NV-Embed可以用来改善问题和答案之间的匹配度,提供更准确的答案。
  3. 文本分类:模型可以应用于文本分类任务,如情感分析、主题分类等,以提高分类的准确性。
  4. 聚类分析:NV-Embed的嵌入表示可以用于文本聚类,帮助将相似的文本内容分组。
  5. 语义文本相似性:评估两个文本片段之间的相似度,可以用于推荐系统或内容分析。
0

评论0

没有账号?注册  忘记密码?