MACHINELEARNINGLM：过持续预训练提升大语言模型在多示例上下文学习能力

127 0

中科院大学、华南理工大学、斯坦福大学的研究人员推出一种名为 MACHINELEARNINGLM 的新型框架，旨在通过持续预训练（continued pretraining）提升大语言模型（LLMs）在多示例上下文学习（many-shot in-context learning, ICL）中的表现，特别是在处理表格数据时的推理能力。

GitHub：https://github.com/HaoAreYuDong/MachineLearningLM
模型：https://huggingface.co/MachineLearningLM/MachineLearningLM-7B-v1

MACHINELEARNINGLM是一个基于持续预训练的框架，能够使通用语言模型在保持其通用知识和推理能力的同时，具备强大的多示例上下文学习能力，特别是在表格数据的机器学习任务中表现出色。

MACHINELEARNINGLM：过持续预训练提升大语言模型在多示例上下文学习能力

例如，在一个包含多个特征和标签的表格数据集中，MACHINELEARNINGLM 可以通过上下文中的多个示例（如 8 到 1,024 个）来学习和预测新的实例，而无需通过梯度下降进行微调。这使得模型能够更好地理解和处理复杂的表格数据，如金融、生物学、物理学和医疗保健领域的分类任务。

主要功能

多示例上下文学习：MACHINELEARNINGLM 能够利用上下文中的多个示例来学习和预测，支持从 8 到 1,024 个示例的多示例学习。
保持通用知识和推理能力：在提升表格数据处理能力的同时，模型保留了其在通用对话和推理任务中的能力。
跨领域适应性：该框架在多个领域（如金融、生物学、物理学和医疗保健）的分类任务中表现出色，具有良好的跨领域适应性。

主要特点

基于因果结构模型（SCM）的合成任务：通过从因果结构模型中合成大量的表格预测任务，确保预训练数据的多样性和丰富性。
随机森林教师模仿：在预训练初期，通过模仿随机森林教师的行为来增强模型在数值建模中的鲁棒性。
高效的上下文编码：采用紧凑的表格编码和整数化的数字编码，显著提高了上下文窗口内的示例数量，同时减少了计算成本。
顺序级批预测：通过将多个测试示例打包到一个序列中进行预测，提高了推理效率并减少了指令/上下文开销。
顺序鲁棒性：在推理时，通过随机打乱上下文示例的顺序并结合置信度加权的一致性投票，提高了模型对上下文顺序的鲁棒性。

工作原理

预训练数据合成：从因果结构模型（SCM）中合成大量的表格预测任务，涵盖不同的特征类型、边际分布和标签机制。
随机森林教师模仿：在预训练的初期阶段，通过模仿随机森林教师的预测结果来训练模型，增强其在数值建模中的鲁棒性。
高效的上下文编码：采用紧凑的表格编码和整数化的数字编码，将数值特征归一化到 [0,999] 范围内，减少上下文长度限制，提高上下文窗口内的示例数量。
顺序级批预测：将多个测试示例打包到一个序列中进行预测，通过批量推理提高推理效率并减少指令/上下文开销。
顺序鲁棒性：在推理时，通过随机打乱上下文示例的顺序并结合置信度加权的一致性投票，提高模型对上下文顺序的鲁棒性。

测试结果

多示例学习能力：MACHINELEARNINGLM 在多示例上下文学习中表现出色，随着上下文示例数量的增加，模型的准确性单调增加，从 8 到 1,024 个示例，平均比基线模型（如 Qwen-2.5-7B-Instruct）提高了约 15%。
与传统方法的比较：在多个领域（如金融、生物学、物理学和医疗保健）的分类任务中，MACHINELEARNINGLM 的表现接近随机森林水平，甚至在某些任务上超过了随机森林。
跨领域泛化能力：模型在不同领域的任务中表现出良好的泛化能力，尤其是在长文本上下文和多示例学习中。