Sakana AI 新算法 M2N2:无需重新训练,让 AI 模型 “进化” 得更强

新技术3个月前发布 小马良
102 0

日本 AI 实验室 Sakana AI 近期推出一项突破性技术 ——自然生态位模型合并(M2N2 ,彻底改变了 AI 模型的优化逻辑。与传统依赖昂贵算力和海量数据的 “重新训练”“微调” 不同,M2N2 通过模拟自然进化原理合并现有模型,既能增强模型能力,还能从零构建新模型,为企业打造自定义 AI 方案提供了高效且低成本的路径。

什么是 “模型合并”?

要理解 M2N2 的创新,首先需要明确 “模型合并” 的核心概念 —— 它是一种将多个专用 AI 模型的知识整合为单一强大模型的技术,与 “微调” 有本质区别:

对比维度模型合并传统微调
核心逻辑整合多个模型的参数用新数据精炼单个预训练模型
计算成本仅需前向传播,成本低依赖梯度更新,算力消耗大
数据依赖无需原始训练数据,仅需模型权重需大量精心平衡的训练数据
风险规避避免 “灾难性遗忘”(学新忘旧)易出现 “灾难性遗忘” 问题

早期模型合并需开发者手动调整参数、试错寻找最佳组合,效率低下;后来进化算法虽实现部分自动化,但仍需手动设定固定合并边界(如模型层、块),限制了组合的可能性。而 M2N2 的出现,正是为了解决这些局限性。

Sakana AI 新算法 M2N2:无需重新训练,让 AI 模型 “进化” 得更强

M2N2 的核心原理:模拟自然进化,实现 “智能合并”

M2N2 的精髓在于借鉴自然界的进化与生态竞争原则,通过三大核心特性突破传统合并的瓶颈:

1. 打破固定边界,灵活划分与组合模型

传统合并需预设 “从哪一层开始合并”,而 M2N2 引入 “分割点” 和 “混合比率” 两个灵活参数:例如,可将模型 A 某一层 30% 的参数与模型 B 同层 70% 的参数结合,而非整层替换。

具体流程为:从一个 “种子模型存档” 出发,每一步随机选择两个模型,动态确定分割点与混合比率进行合并;若新模型性能更优,则替换存档中较弱的模型,逐步迭代出更复杂的组合。这种设计既扩大了探索范围,又保证了计算可行性。

2. 以 “竞争” 维持模型多样性,筛选优质 “专家”

模型合并的效果,取决于原始模型是否具备 “互补优势”—— 就像两张考试卷,若答案完全相同,合并无意义;若各有正确答案,合并后才能更全面。M2N2 通过模拟 “资源竞争” 筛选多样化模型:让不同模型竞争有限的 “任务资源”,自然奖励那些能解决独特问题的 “生态位专家”(如擅长数学的模型、擅长文本生成的模型),确保存档中的模型各有专长,为合并提供优质素材。

3. 按 “互补性” 配对模型,提升合并效率

不同于传统算法 “只选性能最好的模型合并”,M2N2 通过 “吸引分数” 为模型配对:优先选择 “你强我弱、我强你弱” 的组合 —— 比如模型 A 擅长处理数据类型 X,模型 B 擅长处理数据类型 Y,二者结合后能覆盖更广泛的任务。这种精准配对大幅提升了合并效率和最终模型的综合能力。

Sakana AI 新算法 M2N2:无需重新训练,让 AI 模型 “进化” 得更强

实战验证:M2N2 在三大领域均表现出色

Sakana AI 的研究团队在图像分类、大语言模型(LLM)、文本到图像生成三大领域测试了 M2N2,均展现出显著优势:

1. 图像分类:从零进化,准确率领先

在 MNIST 手写数字分类任务中,M2N2 完全从零开始进化神经网络模型。凭借其多样性保存机制,最终模型的测试准确率远超其他合并方法,证明了其 “从零构建优质模型” 的能力。

2. LLM:结合双专家,实现 “一专多能”

将基于 Llama 2 架构的 “数学专家模型(WizardMath-7B)” 与 “代理专家模型(AgentEvol-7B)” 合并,目标是打造既能解数学题(GSM8K 数据集)、又能完成网络任务(WebShop 数据集)的模型。结果显示,合并后的模型在两个基准测试中均取得优异成绩,成功融合了双模型的核心能力。

3. 文本到图像:融合多模型,获得双语生成能力

将擅长日语提示的图像生成模型(JSDXL)与三个擅长英语提示的 Stable Diffusion 模型合并。最终模型不仅生成的图像更逼真、语义理解更准确,还意外获得了双语能力 —— 即使仅用日语字幕优化,也能同时响应英语和日语提示,实现了 “1+1>2” 的效果。

Sakana AI 新算法 M2N2:无需重新训练,让 AI 模型 “进化” 得更强

商业价值与未来挑战

对于企业而言,M2N2 的价值极具吸引力:无需投入巨额算力重新训练,只需合并现有专家模型,就能快速打造定制化 AI 工具。例如,将 “擅长销售演讲的 LLM” 与 “擅长分析客户表情的视觉模型” 合并,可得到一个能根据实时视频反馈调整演讲内容的智能代理,成本和延迟仅相当于单个模型。

研究团队认为,M2N2 代表了 “模型融合” 的未来趋势 —— 未来组织可能会维护一个 “AI 模型生态系统”,让模型持续进化、按需合并以应对新挑战。但这一趋势也面临非技术障碍:如何在开源、商业、自定义模型混合的生态中保障隐私、安全与合规,将是企业需要解决的核心问题。

© 版权声明

相关文章

暂无评论

none
暂无评论...