Meta发布 Llama 3.2 模型：从轻量级纯文本模型（1B 和 3B）到中小型多模态模型（11B 和 90B）

269 0

Meta于9月25日正式推出了Llama 3.2模型，这款新模型以其开放性和可定制性为特点，旨在满足开发者在边缘人工智能和视觉处理领域的多样化需求。Llama 3.2 结合了多模态视觉能力和轻量化设计，代表了 Meta 在大语言模型（LLMs）上的最新突破。相比以往版本，它提供了更为强大的功能和广泛的适用性，适用于多种应用场景。其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。

官网：https://www.llama.com
模型地址：https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
Ollama地址：https://ollama.com/library/llama3.2

4 个版本模型如下：

Llama 3.2 90B Vision（文本 + 图像输入）：Meta 最先进的模型，是企业级应用的理想选择。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能，可以完成图像理解和视觉推理任务。该模型非常适合以下用例：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。
Llama 3.2 11B Vision（文本 + 图像输入）：非常适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。该模型在文本摘要、情感分析、代码生成和执行指令方面表现出色，并增加了图像推理能力。该模型的用例与 90B 版本类似：图像标题、图像文本检索、视觉基础、视觉问题解答和视觉推理，以及文档视觉问题解答。（Demo）
Llama 3.2 3B（文本输入）：专为需要低延迟推理和有限计算资源的应用而设计。它擅长文本摘要、分类和语言翻译任务。该模型非常适合以下用例：移动人工智能写作助手和客户服务应用。
Llama 3.2 1B（文本输入）：Llama 3.2 模型系列中最轻量级的模型，非常适合边缘设备和移动应用程序的检索和摘要。该模型非常适合以下用例：个人信息管理和多语言知识检索。

其中 Llama 3.2 1B 和 3B 模型支持 128K 标记的上下文长度，在边缘本地运行的设备用例（如摘要、指令跟踪和重写任务）中处于领先地位。这些模型在第一天就支持高通和联发科硬件，并针对 Arm 处理器进行了优化。

Meta官方介绍

要点：

今天，我们发布了 Llama 3.2，其中包括小型和中型视觉大语言模型（11B 和 90B），以及轻量级纯文本模型（1B 和 3B），这些模型适用于边缘和移动设备，包括预训练和指令微调版本。
Llama 3.2 的 1B 和 3B 模型支持 128K 个标记的上下文长度，并且在本地运行的设备上使用案例（如总结、指令跟随和重写任务）中处于同类模型的领先地位。这些模型在发布当天即可在高通和联发科硬件上使用，并针对 Arm 处理器进行了优化。
在广泛生态系统的支持下，Llama 3.2 的 11B 和 90B 视觉模型可以作为相应文本模型的直接替代品，同时在图像理解任务上超越了封闭模型，如 Claude 3 Haiku。与其他开放的多模态模型不同，预训练和对齐模型均可用于使用 torchtune 进行自定义应用的微调，并使用 torchchat 本地部署。它们还可以通过我们的智能助手 Meta AI 进行试用。
我们分享了首个官方的 Llama Stack 发行版，这将大大简化开发者在不同环境中使用 Llama 模型的方式，包括单节点、本地、云端和设备上，实现检索增强生成（RAG）和集成安全的工具化应用的一键部署。
我们一直与 AWS、Databricks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作伙伴密切合作，为他们的下游企业客户构建 Llama Stack 发行版。设备上的发行通过 PyTorch ExecuTorch 进行，单节点发行通过 Ollama 进行。
我们继续分享我们的工作，因为我们相信开放性推动创新，对开发者、Meta 和世界都有益。Llama 已经在开放性、可修改性和成本效率方面领先，使更多人能够使用生成式 AI 实现创意、有用和改变生活的突破。
我们将在 llama.com 和 Hugging Face 上提供 Llama 3.2 模型的下载，并可在包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake 等广泛的合作伙伴平台上立即进行开发。

自我们宣布 Llama 3.1 系列模型以来的两个月里，我们对其产生的影响感到兴奋，包括 405B——首个开放的前沿级 AI 模型。虽然这些模型非常强大，但我们认识到使用它们需要大量的计算资源和专业知识。我们也听到了一些开发者的声音，他们没有这些资源，但仍然希望有机会使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克·扎克伯格今天在 Connect 上分享的那样，他们不必再等待了。今天，我们发布了 Llama 3.2，其中包括小型和中型视觉大语言模型（11B 和 90B）以及适用于选定边缘和移动设备的轻量级纯文本模型（1B 和 3B）。

自我们首次宣布 Llama 以来，仅仅过去了一年半的时间，我们在如此短的时间内取得了巨大的进展。今年，Llama 实现了 10 倍的增长，并成为负责任创新的标准。Llama 在开放性、可修改性和成本效率方面继续领先，并且与封闭模型相比具有竞争力——甚至在某些领域领先。我们相信开放性推动创新，是正确的道路，这也是我们继续分享研究并与合作伙伴和开发者社区合作的原因。

我们将在 llama.com 和 Hugging Face 上提供 Llama 3.2 模型的下载，并可在广泛的合作伙伴平台上立即进行开发。合作伙伴是这项工作的重要组成部分，我们与超过 25 家公司合作，包括 AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud 和 Snowflake，以在发布当天启用服务。对于 Llama 3.2 的发布，我们还与设备合作伙伴 Arm、MediaTek 和 Qualcomm 合作，在发布时提供广泛的服务。从今天开始，我们还将向社区提供 Llama Stack。有关最新发布的更多详情，包括欧洲多模态可用性的信息，请参阅我们的可接受使用政策。

认识Llama 3.2

Llama 3.2 的两个最大模型 11B 和 90B 支持图像推理用例，如文档级理解（包括图表和图形）、图像字幕生成和视觉基础任务（如根据自然语言描述在图像中定向定位物体）。例如，一个人可以询问他们的小企业在上一年的哪个月销售额最高，Llama 3.2 可以根据可用的图表进行推理并快速提供答案。在另一个例子中，模型可以与地图进行推理，并帮助回答诸如徒步旅行何时会变得更陡峭或地图上标记的特定步道的距离等问题。11B 和 90B 模型还可以通过从图像中提取细节、理解场景，然后创作一两句话作为图像字幕来帮助讲述故事，从而弥合视觉和语言之间的差距。

轻量级 1B 和 3B 模型在多语言文本生成和工具调用能力方面表现出色。这些模型使开发者能够构建具有强大隐私保护的个性化设备上代理应用程序，数据永远不会离开设备。例如，这样的应用程序可以帮助总结收到的最后 10 条消息、提取行动项，并利用工具调用直接发送后续会议的日历邀请。

在本地运行这些模型有两个主要优势。首先，提示和响应可以立即完成，因为处理是在本地完成的。其次，在本地运行模型通过不将数据（如消息和日历信息）发送到云端来维护隐私，使整体应用程序更加私密。由于处理是在本地处理的，应用程序可以清楚地控制哪些查询保留在设备上，哪些可能需要由云端的大型模型处理。

模型评估

我们的评估表明，Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基石模型 Claude 3 Haiku 和 GPT4o-mini 具有竞争力。3B 模型在遵循指令、总结、提示重写和工具使用等任务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型，而 1B 模型与 Gemma 具有竞争力。

我们在超过 150 个涵盖广泛语言的基准数据集上进行了评估。对于视觉大语言模型，我们在图像理解和视觉推理的基准上评估了性能。

Meta发布 Llama 3.2 模型：从轻量级纯文本模型（1B 和 3B）到中小型多模态模型（11B 和 90B）

视觉模型

作为首批支持视觉任务的 Llama 模型，11B 和 90B 模型需要一种全新的模型架构来支持图像推理。

为了添加图像输入支持，我们训练了一组适配器权重，将预训练的图像编码器集成到预训练的语言模型中。适配器由一系列交叉注意力层组成，将图像编码器表示输入到语言模型中。我们在文本-图像对上训练适配器，以使图像表示与语言表示对齐。在适配器训练期间，我们还更新了图像编码器的参数，但有意不更新语言模型的参数。通过这样做，我们保持了所有纯文本功能，为开发者提供 Llama 3.1 模型的直接替代品。

我们的训练管道包括多个阶段，从预训练的 Llama 3.1 文本模型开始。首先，我们添加图像适配器和编码器，然后在大规模噪声（图像，文本）对数据上进行预训练。接下来，我们在中等规模的高质量领域内和知识增强（图像，文本）对数据上进行训练。

在训练后，我们使用与文本模型类似的配方，通过几轮监督微调、拒绝采样和直接偏好优化进行对齐。我们利用合成数据生成，使用 Llama 3.1 模型在领域内图像上过滤和增强问题和答案，并使用奖励模型对所有候选答案进行排名，以提供高质量的微调数据。我们还添加了安全缓解数据，以生成一个在保持模型有用性的同时具有高安全性的模型。

最终结果是一组可以接受图像和文本提示的模型，并深入理解和推理组合。这是 Llama 模型朝着更丰富的代理能力迈出的又一步。

轻量级模型

正如我们在 Llama 3.1 中讨论的那样，强大的教师模型可以用来创建性能更好的小型模型。我们使用了两种方法——剪枝和知识蒸馏——在 1B 和 3B 模型上，使它们成为首批高效运行的轻量级 Llama 模型。

剪枝使我们能够在 Llama 系列中减少现有模型的大小，同时尽可能恢复知识和性能。对于 1B 和 3B 模型，我们采用了从 Llama 3.1 8B 中一次性结构化剪枝的方法。这涉及系统地移除网络的一部分，并调整权重和梯度的大小，以创建一个更小、更高效的模型，同时保留原始网络的性能。

知识蒸馏使用一个较大的网络向一个较小的网络传授知识，其理念是较小的模型可以通过教师模型实现更好的性能，而不是从头开始。对于 Llama 3.2 中的 1B 和 3B 模型，我们将 Llama 3.1 8B 和 70B 模型的 logits 纳入模型开发的预训练阶段，其中这些较大模型的输出（logits）被用作标记级目标。知识蒸馏在剪枝后用于恢复性能。

在训练后，我们使用与 Llama 3.1 类似的配方，并通过几轮对齐在预训练模型之上生成最终的聊天模型。每轮包括监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

在训练后，我们将上下文长度支持扩展到 128K 个标记，同时保持与预训练模型相同的质量。我们还进行了合成数据生成，通过仔细的数据处理和过滤以确保高质量。我们仔细混合数据，以优化总结、重写、指令跟随、语言推理和工具使用等多项能力的高质量。

为了使社区能够在这些模型上进行创新，我们与全球前两大移动系统芯片（SoC）公司高通和联发科以及提供 99% 移动设备基础计算平台的 Arm 密切合作。今天发布的权重基于 BFloat16 数值。我们的团队正在积极探索量化变体，以实现更快的运行速度，我们希望很快分享更多信息。

Llama Stack 分发版

7 月，我们发布了 Llama Stack API 的征求意见稿，这是一个标准化的接口，用于定制 Llama 模型和构建代理应用程序的规范工具链组件（微调、合成数据生成）。参与度非常高。

从那时起，我们一直在努力使 API 成为现实。我们为推理、工具使用和 RAG 构建了 API 的参考实现。此外，我们一直在与合作伙伴合作，使他们成为 API 的提供者。最后，我们引入了 Llama Stack 发行版，作为一种打包多个协同工作的 API 提供者的方式，为开发者提供单一端点。我们现在与社区分享一个简化和一致的体验，使他们能够在多个环境中（包括本地、云端、单节点和设备上）使用 Llama 模型。

完整的发布集包括：

Llama CLI（命令行界面）用于构建、配置和运行 Llama Stack 发行版
多种语言的客户端代码，包括 Python、Node、Kotlin 和 Swift
Llama Stack 发行版服务器和代理 API 提供者的 Docker 容器
多个发行版（通过 Meta 内部实现和 Ollama 的单节点 Llama Stack 发行版、通过 AWS、Databricks、Fireworks 和 Together 的云端 Llama Stack 发行版、通过 PyTorch ExecuTorch 在 iOS 上实现的设备上 Llama Stack 发行版、由戴尔支持的本地 Llama Stack 发行版）

我们期待与开发者和合作伙伴合作，简化使用 Llama 模型构建的所有方面，并欢迎反馈。

系统级安全

采用开放的方法有许多好处。它有助于确保世界各地的更多人能够获得 AI 提供的机会，防止权力集中在少数人手中，并在社会中更公平和安全地部署技术。随着我们继续创新，我们也希望确保我们正在赋予开发者构建安全和负责任系统的能力。

在我们之前的发布和持续努力支持负责任创新的基础上，今天我们为我们的安全措施家族添加了新的更新：

首先，我们发布了 Llama Guard 3 11B Vision，旨在支持 Llama 3.2 的新图像理解能力，并过滤文本+图像输入提示或这些提示的文本输出响应。
其次，随着我们发布 1B 和 3B Llama 模型以在更受限的环境（如设备上）使用，我们还优化了 Llama Guard，大幅降低了其部署成本。Llama Guard 3 1B 基于 Llama 3.2 1B 模型，并经过剪枝和量化，使其大小从 2,858 MB 降至 438 MB，使其部署效率比以往更高。

这些新解决方案已集成到我们的参考实现、演示和应用程序中，并在发布当天即可供开源社区使用。

今天就试试 Llama 3.2

Llama 3.2 有望触及比以往更多的人，并实现令人兴奋的新用例。我们相信与开源社区分享这些模型是不够的。我们希望确保开发者也有他们需要的工具，以负责任地使用 Llama 进行构建。作为我们持续负责任发布努力的一部分，我们为开发者提供了新的工具和资源，并且一如既往，我们将在我们的负责任使用指南中更新最佳实践。

我们继续分享 Llama 生态系统的最新进展，因为我们相信开放性推动创新，对开发者、Meta 和世界都有益。我们很高兴继续与合作伙伴和开源社区进行对话，并且一如既往，我们迫不及待地想看到社区使用 Llama 3.2 和 Llama Stack 构建的内容。