英伟达推出新型大语言模型嵌入模型NV-Embed：专门设计用于提高文本嵌入任务的性能

英伟达推出新型大语言模型嵌入模型 NV-Embed，NV-Embed专门设计用于提高文本嵌入任务的性能，它在多种文本嵌入任务上的表现开始超越了基于BERT或T5的嵌入模型，包括基于密集向量的检索。NV-Embed模型在Massive Text Embedding Benchmark (MTEB)上取得了创纪录的高分，并在BEIR基准测试中的15个检索任务上也取得了最高分。这些成绩证明了NV-Embed在多种文本嵌入任务上的有效性和优越性。

模型地址：https://huggingface.co/nvidia/NV-Embed-v1

NV-Embed模型通过一系列架构设计与训练策略的创新，大幅增强了大语言模型作为通用嵌入模型的表现力，同时确保了模型的简洁度和可重复实施性。在模型架构层面，开发人员提出了一种潜在注意力汇聚层，用于生成综合嵌入，与均值汇聚或直接采用大语言模型中最后一个标记的嵌入相比，这种方法持续提高了检索和各类下游任务的准确率。

为了增进表示学习的质量，开发人员在对比学习阶段移除了大语言模型中的因果注意力屏蔽。至于模型训练，开发人员引入了双阶段的对比指令调整流程：首阶段在检索数据集上借助指令执行对比学习，利用批次内负样本及精选的困难负例；第二阶段则融合多样的非检索数据集进行指令调整，此举不仅强化了非检索任务的表现，也促进了检索效能的提升。

主要功能和特点：

新颖的架构设计：NV-Embed引入了一个潜在注意力层（latent attention layer），用于获取经过池化的嵌入表示，这在检索和下游任务的准确性上一致优于传统的平均池化方法或使用LLMs中最后一个<EOS>标记的嵌入。
对比学习增强：在对比训练中，NV-Embed去除了LLMs的因果注意力掩码，以增强表示学习。
两阶段对比指令调优方法：模型训练采用了这种方法，首先在检索数据集上应用对比训练，使用批内负样本和精选的硬负样本。第二阶段，将各种非检索数据集混合到指令调优中，这不仅提高了非检索任务的准确性，还提升了检索性能。
公开可用：NV-Embed使用的是公开可用的数据进行训练，没有依赖于GPT-4等专有模型的合成数据。