Ollama v0.7.0发布：添加新多模态模型引擎，多模态模型支持全面升级

394 0

Ollama 最新发布的 v0.7.0 版本带来了对多模态模型的支持，标志着其在本地推理和模型集成能力上的重要突破。此次更新不仅扩展了视觉多模态模型的支持范围，还通过全新的多模态引擎提升了性能、准确性和易用性。

v0.7.0 首次引入了对以下多模态模型的支持：

这些模型适用于多种场景，包括图像分析、视频帧定位、文档扫描等。例如，用户可以通过 ollama run 命令快速调用这些模型，实现从简单图像识别到复杂多模态推理的任务。

Ollama 现在支持将 WebP 格式的图像作为多模态模型的输入，进一步拓宽了图像处理的兼容性。

ollama run llama4:scout

Llama 4 Scout 是一个拥有 1090 亿参数的混合专家模型，专为复杂的多模态任务设计。示例应用包括基于视频帧的定位问题，适合需要高精度推理的场景。

ollama run gemma3

Gemma 3 支持多张图像的输入，并能够分析它们之间的关系。用户可以一次性输入多张图像，或通过后续提示逐步输入并询问相关问题，非常适合多模态交互式任务。

ollama run qwen2.5vl

Qwen 2.5 VL 在文档扫描和字符识别领域表现出色，是处理复杂文本和图像结合任务的理想选择。

此前，Ollama 主要依赖于 ggml-org/llama.cpp 项目来支持模型运行，专注于易用性和可移植性。然而，随着多模态模型的快速发展，这种单一架构已难以满足需求。为此，Ollama 开发了一个全新的多模态引擎，基于 GGML 张量库构建，旨在更好地支持未来多模态模型的发展。

模型模块化
- 新引擎将每个模型的影响范围限制在其自身，避免了多模态系统中常见的共享逻辑冲突问题。
- 文本解码器和视觉编码器被完全独立处理，便于模型创建者专注于自身模型的实现，而无需修改多个文件或添加复杂的条件语句。
准确性提升
- 大型图像可能生成大量令牌，超出批处理大小，进而影响推理质量。Ollama 通过添加元数据和优化分块注意力机制，确保图像嵌入的准确性和上下文一致性。
- 示例：对于因果注意力的启用、图像嵌入的批次分割等问题，Ollama 提供了符合模型设计的解决方案。
内存管理优化
- 图像缓存：处理过的图像会被缓存以加速后续提示处理，同时避免因内存清理导致的丢弃问题。
- KV 缓存优化：Ollama 与硬件制造商合作，优化了内存使用效率。例如，Google DeepMind 的 Gemma 3 利用滑动窗口注意力技术，Ollama 可根据模型特性动态分配上下文长度，提高性能和并发性。
混合专家模型支持
- 针对 Meta 的 Llama 4 Scout 和 Maverick 模型，Ollama 实现了分块注意力、2D 旋转嵌入以及混合专家模型类型的支持，确保这些模型在长上下文任务中的稳定性和高效性。