2025年4月6日星期日,Meta正式推出了其最新的AI模型系列——Llama 4。这款新模型不仅支持网络版Meta AI助手,还为WhatsApp、Messenger和Instagram等平台提供了技术支持。此外,用户还可以直接从Meta或Hugging Face下载这两款新模型:Llama 4 Scout和Llama 4 Maverick。
- 官网:https://meta.ai
- Meta:https://www.llama.com/llama-downloads
- Hugging Face:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
Llama 4 Scout与Maverick:性能优异,适应性强
Llama 4 Scout是一款小型模型,设计上特别考虑了资源有限的环境,能够适配单个Nvidia H100 GPU。尽管体积小巧,Scout在广泛的基准测试中表现出色,特别是在拥有1000万令牌的上下文窗口方面,击败了谷歌的Gemma 3、Gemini 2.0 Flash-Lite以及开源项目Mistral 3.1。
与此同时,Llama 4 Maverick则以接近GPT-4o和Gemini 2.0 Flash的性能著称,并在编码和推理任务上达到了DeepSeek-V3的水平,但使用的活跃参数不到一半。
Llama 4 Behemoth:未发布的最强者
虽然尚未正式推出,但Meta透露Llama 4 Behemoth将拥有2880亿个活跃参数,总计达到2万亿个参数。根据Meta的说法,Behemoth在多个STEM领域的基准测试中表现超群,预计会超越包括GPT-4.5和Claude Sonnet 3.7在内的竞争对手。
架构与许可:迈向更高效的未来
Llama 4转向了“专家混合”(MoE)架构,该方法通过仅激活处理特定任务所需的模型部分来提高效率。然而,关于Llama 4系列是否真正属于“开源”的讨论依然存在。由于其许可限制,特别是对于月活跃用户超过7亿的商业实体使用前需要获得Meta的批准,这使得一些组织质疑其开放性。
官方介绍全文:
Llama 4:原生多模态AI创新新时代的开端
要点
- 我们分享了Llama 4群集中的首批模型,这将使人们能够构建更个性化的多模态体验。
- Llama 4 Scout,一个拥有170亿活跃参数和16个专家的模型,是同类中最好的多模态模型,比前几代Llama模型更强大,同时适配单个NVIDIA H100 GPU。此外,Llama 4 Scout提供业界领先的1000万上下文窗口,并在广泛报告的基准测试中优于Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1。
- Llama 4 Maverick,一个拥有170亿活跃参数和128个专家的模型,是同类中最好的多模态模型,在广泛报告的基准测试中击败GPT-4o和Gemini 2.0 Flash,同时在推理和编码上与新的DeepSeek v3结果相当,且活跃参数不到一半。
- Llama 4 Maverick提供业界最佳的性能成本比,其实验性聊天版本在LMArena上得分ELO 1417。 这些模型是我们迄今最好的,归功于从Llama 4 Behemoth提炼而来,后者是一个拥有2880亿活跃参数和16个专家的模型,是我们最强大的模型,也是全球最智能的大语言模型之一。
- Llama 4 Behemoth在多个STEM基准测试中超越GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4 Behemoth仍在训练中,我们很兴奋能在其仍在进行时分享更多细节。
- 立即在llama.com和Hugging Face上下载Llama 4 Scout和Llama 4 Maverick模型。在WhatsApp、Messenger、Instagram Direct以及网络上尝试使用Llama 4构建的Meta AI。
随着越来越多的人继续使用人工智能增强日常生活,确保领先模型和系统的开放性至关重要,以便每个人都能构建个性化的未来体验。今天,我们很兴奋地宣布支持整个Llama生态系统的最先进模型套件。我们推出了Llama 4 Scout和Llama 4 Maverick,这是首批开源权重原生多模态模型,支持前所未有的上下文长度,并且是我们首次使用专家混合(MoE)架构构建的模型。我们还预览了Llama 4 Behemoth,这是全球最智能的大语言模型之一,也是我们迄今最强大的模型,用作新模型的教师。
这些Llama 4模型标志着Llama生态系统新时代的开始。我们设计了Llama 4系列中的两款高效模型:Llama 4 Scout,一个拥有170亿活跃参数和16个专家的模型;以及Llama 4 Maverick,一个拥有170亿活跃参数和128个专家的模型。前者适配单个H100 GPU(使用Int4量化),后者适配单个H100主机。我们还训练了一个教师模型Llama 4 Behemoth,在专注于STEM的基准测试(如MATH-500和GPQA Diamond)中超越GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。虽然我们尚未发布仍在训练中的Llama 4 Behemoth,但我们很高兴分享更多关于我们方法的技术细节。
我们继续相信开放性推动创新,对开发者、对Meta、对世界都有益。我们今天在llama.com和Hugging Face上提供Llama 4 Scout和Llama 4 Maverick的下载,让每个人都能使用我们的最新技术继续构建新体验。我们还将在未来几天通过我们的合作伙伴提供这些模型。你也可以从今天起在WhatsApp、Messenger、Instagram Direct以及Meta.AI网站上尝试使用Llama 4的Meta AI。
这只是Llama 4系列的开始。我们相信,最智能的系统需要能够执行通用动作,与人类自然对话,并解决之前未见过的问题。赋予Llama在这些领域的超能力将为我们平台上的用户带来更好的产品,并为开发者提供更多创新机会,应对下一大消费和商业用例。我们将继续研究和原型设计模型和产品,并将在4月29日的LlamaCon上分享更多愿景——注册以了解更多。
无论你是基于我们模型构建的开发者、将它们集成到工作流程中的企业,还是仅仅对AI的潜在用途和益处感到好奇,Llama 4 Scout和Llama 4 Maverick是为你的产品添加下一代智能的最佳选择。今天,我们很兴奋地分享其开发的四个主要部分以及我们研究和设计过程的见解。我们也迫不及待想看到社区使用我们新的Llama 4模型构建的惊艳新体验。
预训练
这些模型代表了Llama的最佳表现,以引人注目的价格提供多模态智能,同时超越了体量大得多的模型。构建下一代Llama模型要求我们在预训练期间采取几种新方法。
我们的新Llama 4模型是我们首次使用专家混合(MoE)架构的模型。在MoE模型中,单个令牌仅激活总参数的一部分。MoE架构在训练和推理时计算效率更高,在固定的训练FLOPs预算下,相比密集模型能提供更高质量。

例如,Llama 4 Maverick模型拥有170亿活跃参数和4000亿总参数。我们使用交替的密集层和专家混合(MoE)层以提高推理效率。MoE层使用128个路由专家和一个共享专家。每个令牌被发送到共享专家以及128个路由专家之一。因此,尽管所有参数都存储在内存中,但在服务这些模型时仅激活总参数的子集。这通过降低模型服务成本和延迟提高了推理效率——Llama 4 Maverick可在单个NVIDIA H100 DGX主机上运行以便轻松部署,或使用分布式推理以实现最大效率。
Llama 4模型设计为原生多模态,通过早期融合无缝整合文本和视觉令牌到统一模型主干中。早期融合是一大进步,因为它使我们能够使用大量未标记的文本、图像和视频数据联合预训练模型。我们还改进了Llama 4的视觉编码器。这是基于MetaCLIP,但在与冻结的Llama模型联合训练时单独训练,以更好地适应编码器与大语言模型。
我们开发了一种新的训练技术,我们称之为MetaP,使我们能够可靠地设置关键模型超参数,如每层学习率和初始化尺度。我们发现所选超参数在不同的批量大小、模型宽度、深度和训练令牌值之间转移良好。Llama 4通过在200种语言上预训练支持开源微调工作,其中超过100种语言各有超过10亿令牌,总体多语言令牌比Llama 3多10倍。
此外,我们专注于使用FP8精度高效训练模型,不牺牲质量并确保高模型FLOPs利用率——在使用FP8和32K GPU预训练Llama 4 Behemoth模型时,我们实现了390 TFLOPs/GPU。训练的总体数据混合包括超过30万亿令牌,是Llama 3预训练混合的两倍多,包含多样化的文本、图像和视频数据集。
我们继续以我们所谓的“中期训练”训练模型,通过新的训练配方改进核心能力,包括使用专门数据集进行长上下文扩展。这使我们能够在提升模型质量的同时,解锁Llama 4 Scout业界最佳的1000万输入上下文长度。
后训练我们的新模型
我们的最新模型包括较小和较大的选项,以适应各种用例和开发者需求。Llama 4 Maverick在图像和文本理解方面提供无与伦比的业界领先性能,使创建跨越语言障碍的复杂AI应用成为可能。作为我们通用助手和聊天用例的产品主力模型,Llama 4 Maverick非常适合精确的图像理解和创意写作。
在后训练Llama 4 Maverick模型时最大的挑战是保持多种输入模态、推理和对话能力之间的平衡。对于混合模态,我们提出了一个精心策划的课程策略,与单一模态专家模型相比不牺牲性能。使用Llama 4,我们通过采用不同的方法彻底改造了后训练流程:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。一个关键经验是SFT和DPO可能会过度约束模型,限制在线RL阶段的探索,导致推理、编码和数学领域的最佳准确性不足。为解决这一问题,我们使用Llama模型作为评判,移除了超过50%标记为简单的训练数据,并对剩余较难的数据集进行轻量级SFT。在随后的多模态在线RL阶段,通过精心挑选更难的提示,我们实现了性能的显著提升。此外,我们实施了持续的在线RL策略,在训练模型和使用它不断过滤并仅保留中等到高难度提示之间交替进行。这一策略在计算和准确性权衡方面证明极具益处。然后我们进行了轻量级DPO来处理与模型响应质量相关的边缘情况,有效实现了模型智能与对话能力之间的良好平衡。管道架构和带有自适应数据过滤的持续在线RL策略共同促成了一个业界领先的通用聊天模型,具备最先进的智能和图像理解能力。
作为一个通用大语言模型,Llama 4 Maverick包含170亿活跃参数、128个专家和4000亿总参数,与Llama 3.3 70B相比,以更低的价格提供高质量。Llama 4 Maverick是同类最佳多模态模型,在编码、推理、多语言、长上下文和图像基准测试中超越类似模型如GPT-4o和Gemini 2.0,并在编码和推理上与更大的DeepSeek v3.1竞争。

我们的较小型号Llama 4 Scout是一个通用模型,拥有170亿活跃参数、16个专家和1090亿总参数,为其类别提供最先进的性能。Llama 4 Scout将支持的上下文长度从Llama 3的128K大幅增加到业界领先的1000万令牌。这开启了多种可能性,包括多文档摘要、解析广泛的用户活动以进行个性化任务,以及对庞大代码库的推理。
Llama 4 Scout在预训练和后训练中均支持256K上下文长度,这赋予了基础模型先进的长度泛化能力。我们在“检索干草堆中的针”等任务中展示了引人注目的结果,适用于文本以及超过1000万令牌代码的累积负对数似然(NLLs)。Llama 4架构的一个关键创新是使用没有位置嵌入的交错注意力层。此外,我们采用推理时注意力温度缩放来增强长度泛化。我们称之为iRoPE架构,其中“i”代表“交错”注意力层,凸显支持“无限”上下文长度的长期目标,“RoPE”指的是大多数层中采用的旋转位置嵌入。


我们对这两个模型进行了广泛的图像和视频帧静止训练,以赋予它们广泛的视觉理解,包括时间活动和相关图像。这使得在多图像输入和文本提示的视觉推理和理解任务中实现轻松交互成为可能。模型在预训练中最多支持48张图像,我们在后训练中测试了最多8张图像,取得了良好结果。
Llama 4 Scout在图像定位方面也是同类最佳,能够将用户提示与相关视觉概念对齐,并将模型响应锚定到图像中的区域。这使得更精确的视觉问答成为可能,大语言模型能更好地理解用户意图并定位感兴趣的对象。Llama 4 Scout还在编码、推理、长上下文和图像基准测试中超越类似模型,并比之前的所有Llama模型提供更强的性能。

这些新模型是助力未来人类连接的重要构建模块。秉承我们对开源的承诺,我们在llama.com和Hugging Face上提供Llama 4 Maverick和Llama 4 Scout的下载,很快将在最广泛使用的云和数据平台、边缘硅片和全球服务集成商中提供。
将Llama推向新规模:2万亿的Behemoth
我们很兴奋地预览Llama 4 Behemoth,这是一个展示同类模型中高级智能的教师模型。Llama 4 Behemoth也是一个多模态专家混合模型,拥有2880亿活跃参数、16个专家和近2万亿总参数。在数学、多语言和图像基准测试中为非推理模型提供最先进的性能,使其成为教授较小型Llama 4模型的完美选择。我们从Llama 4 Behemoth作为教师模型共同提炼了Llama 4 Maverick模型,从而在最终任务评估指标上实现了显著的质量改进。我们开发了一种新颖的提炼损失函数,通过训练动态加权软目标和硬目标。从Llama 4 Behemoth共同提炼在预训练期间分摊了计算密集型前向传递的计算成本,这些前向传递用于为学生训练中使用的绝大多数训练数据计算提炼目标。对于学生训练中纳入的额外新数据,我们在Behemoth模型上运行前向传递以创建提炼目标。

后训练一个拥有2万亿参数的模型也是一项重大挑战,这要求我们从数据规模开始彻底改造和改进配方。为了最大化性能,我们不得不修剪95%的SFT数据,而不是较小型号的50%,以实现对质量和效率的必要关注。我们还发现,先进行轻量级SFT,随后进行大规模强化学习(RL),在模型的推理和编码能力上产生了更显著的改进。我们的RL配方专注于通过使用策略模型进行pass@k分析来采样难提示,并制定一个提示难度逐渐增加的训练课程。我们还发现,在训练期间动态过滤掉零优势的提示,并构建包含多个能力混合提示的训练批次,对于提升数学、推理和编码性能至关重要。最后,从各种系统指令中采样对于确保模型保留其推理和编码的指令遵循能力并在各种任务中表现出色至关重要。
为一个2万亿参数模型扩展RL还要求我们因其空前规模而改造底层RL基础设施。我们优化了MoE并行设计以提高速度,从而实现更快迭代。我们开发了一个完全异步的在线RL训练框架,增强了灵活性。与现有的分布式训练框架相比,后者为了将所有模型堆叠在内存中牺牲了计算内存,我们的新基础设施能够灵活地将不同模型分配到单独的GPU上,根据计算速度平衡多个模型的资源。这一创新使训练效率比前几代提高了约10倍。
保障和保护
我们旨在开发最有帮助和有用的模型,同时防范和减轻最严重的风险。我们根据《开发者使用指南:AI保护》中概述的最佳实践构建了Llama 4。这包括在模型开发的每个阶段(从预训练到后训练)整合缓解措施,以及可调的系统级缓解措施,保护开发者免受恶意用户的侵害。通过这样做,我们赋予开发者创建有益、安全且适应性强的Llama支持应用程序体验的能力。
预训练和后训练缓解措施
对于预训练,我们结合其他数据缓解措施使用数据过滤来保护模型。对于后训练,我们应用一系列技术,以确保我们的模型符合对用户和开发者有益的政策,包括在每个阶段提供适当的安全数据。
系统级方法
在系统层面,我们开源了几个保护措施,可以帮助识别和防范潜在有害的输入和输出。这些工具可以集成到我们的Llama模型中以及与其他第三方工具结合使用:
- Llama Guard:我们基于与MLCommons开发的危害分类法的大型语言模型输入/输出安全模型。开发者可以使用它来检测输入或输出是否违反他们为特定应用程序制定的政策。
- Prompt Guard:一个在大量攻击语料库上训练的分类器模型,能够检测显式恶意提示(越狱)和包含注入输入的提示(提示注入)。
- CyberSecEval:帮助AI模型和产品开发者理解并减少生成式AI网络安全风险的评估。
我们从开发者那里了解到,这些工具在能够根据其应用程序进行定制时最为有效和有用。我们为开发者提供了一个开放的解决方案,以便他们根据需求创建最安全和最有效的体验。我们还将继续与全球合作伙伴合作,创建惠及开源社区的行业范围系统标准。
评估和红队测试
我们以可控和可重复的方式对模型进行广泛的场景和用例的系统测试。这产生了我们反馈到后训练中的数据。
我们使用自动和手动测试,通过对抗性动态探测对模型进行压力测试,覆盖一系列主题。我们在理解和评估潜在模型风险方面取得了进展。一个例子是我们新开发的生成式进攻性代理测试(GOAT)。使用GOAT,我们通过模拟中等技能对抗性角色的多轮交互,解决了传统红队测试的局限性,帮助我们增加测试覆盖范围并更快发现漏洞。通过将自动化加入我们的测试工具包,GOAT使我们的人类红队专家能够专注于更新颖的对抗性领域,而自动化则专注于已知风险领域。这使过程更高效和有效,并使我们能够构建更好的风险定量和定性图景。
解决大语言模型中的偏见
众所周知,所有领先的大语言模型在偏见问题上都存在问题——特别是,它们在有争议的政治和社会话题上历来偏左。这是由于互联网上可用的训练数据类型造成的。
我们的目标是从AI模型中消除偏见,并确保Llama能够理解并表达争议问题的双方观点。作为这项工作的一部分,我们正在继续使Llama更具响应性,以便它能回答问题,能够对各种不同观点做出回应而不予评判,且不偏袒某些观点。
我们在这次发布中对这些努力取得了改进——Llama 4在有争议的政治和社会话题上的表现显著优于Llama 3,并与Grok相当:
- Llama 4在有争议的政治和社会话题上的总体拒绝率更低(从Llama 3.3的7%降至低于2%)。
- Llama 4在拒绝回应的提示平衡性上显著提高(在一组有争议话题问题上,不平等响应拒绝的比例现低于1%)。
- 我们的测试显示,Llama 4在有争议的政治或社会话题上的强烈政治倾向响应率与Grok相当(是Llama 3.3的一半)。虽然我们在取得进展,但我们知道还有更多工作要做,并将继续努力进一步降低这一比例。
我们为迄今取得的进展感到骄傲,并继续致力于实现消除模型整体偏见的目标。
探索Llama生态系统
虽然模型的智能很重要,但人们也希望模型能以人性化的速度个性化回复。作为我们迄今最先进的模型,Llama 4经过优化以满足这些需求。
当然,模型只是将这些体验变为现实的更大生态系统的一部分。我们专注于全栈,包括新的产品集成。我们很兴奋能继续与我们的合作伙伴和开源社区进行对话,一如既往,我们迫不及待想看到人们在新Llama生态系统中构建的丰富体验。
立即在llama.com和Hugging Face上下载Llama 4 Scout和Llama 4 Maverick模型。在WhatsApp、Messenger、Instagram Direct以及Meta.AI网站上尝试使用Llama 4构建的Meta AI。