Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

早报1个月前发布 小马良
68 0

Ollama 最新发布的 v0.7.0 版本带来了对多模态模型的支持,标志着其在本地推理和模型集成能力上的重要突破。此次更新不仅扩展了视觉多模态模型的支持范围,还通过全新的多模态引擎提升了性能、准确性和易用性。

Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

新增功能与改进

多模态模型支持

v0.7.0 首次引入了对以下多模态模型的支持:

  • Meta Llama 4
  • Google Gemma 3
  • Qwen 2.5 VL
  • Mistral Small 3.1

这些模型适用于多种场景,包括图像分析、视频帧定位、文档扫描等。例如,用户可以通过 ollama run 命令快速调用这些模型,实现从简单图像识别到复杂多模态推理的任务。

新增 WebP 图像支持

Ollama 现在支持将 WebP 格式的图像作为多模态模型的输入,进一步拓宽了图像处理的兼容性。

关键修复与优化

  • 修复了 Windows 平台上运行模型时出现空白终端窗口的问题。
  • 解决了 NVIDIA GPU 上运行 Llama 4 模型时的错误。
  • 降低了“未找到密钥”消息的日志级别,减少不必要的干扰。
  • 优化了通过 ollama run 发送图像时的路径引号处理问题。
  • 提升了 ollama create 导入 safetensors 模型的性能。
  • 改进了 macOS 上 Qwen3 MoE 的提示处理速度。
  • 修复了在结构化输出请求中提供大型 JSON 架构时导致的错误。
  • API 对不允许的方法返回更准确的状态码(405 而非 404)。
  • 修复了模型卸载后 Ollama 进程继续运行的问题。

通用多模态理解与推理

Llama 4 Scout

ollama run llama4:scout
Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

Llama 4 Scout 是一个拥有 1090 亿参数的混合专家模型,专为复杂的多模态任务设计。示例应用包括基于视频帧的定位问题,适合需要高精度推理的场景。

Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

Gemma 3

ollama run gemma3
Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

Gemma 3 支持多张图像的输入,并能够分析它们之间的关系。用户可以一次性输入多张图像,或通过后续提示逐步输入并询问相关问题,非常适合多模态交互式任务。

Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

Qwen 2.5 VL

ollama run qwen2.5vl

Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级Qwen 2.5 VL 在文档扫描和字符识别领域表现出色,是处理复杂文本和图像结合任务的理想选择。

Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

Ollama 的新多模态引擎

此前,Ollama 主要依赖于 ggml-org/llama.cpp 项目来支持模型运行,专注于易用性和可移植性。然而,随着多模态模型的快速发展,这种单一架构已难以满足需求。为此,Ollama 开发了一个全新的多模态引擎,基于 GGML 张量库构建,旨在更好地支持未来多模态模型的发展。

Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

核心改进方向

  1. 模型模块化
    • 新引擎将每个模型的影响范围限制在其自身,避免了多模态系统中常见的共享逻辑冲突问题。
    • 文本解码器和视觉编码器被完全独立处理,便于模型创建者专注于自身模型的实现,而无需修改多个文件或添加复杂的条件语句。
  2. 准确性提升
    • 大型图像可能生成大量令牌,超出批处理大小,进而影响推理质量。Ollama 通过添加元数据和优化分块注意力机制,确保图像嵌入的准确性和上下文一致性。
    • 示例:对于因果注意力的启用、图像嵌入的批次分割等问题,Ollama 提供了符合模型设计的解决方案。
  3. 内存管理优化
    • 图像缓存:处理过的图像会被缓存以加速后续提示处理,同时避免因内存清理导致的丢弃问题。
    • KV 缓存优化:Ollama 与硬件制造商合作,优化了内存使用效率。例如,Google DeepMind 的 Gemma 3 利用滑动窗口注意力技术,Ollama 可根据模型特性动态分配上下文长度,提高性能和并发性。
  4. 混合专家模型支持
    • 针对 Meta 的 Llama 4 Scout 和 Maverick 模型,Ollama 实现了分块注意力、2D 旋转嵌入以及混合专家模型类型的支持,确保这些模型在长上下文任务中的稳定性和高效性。

未来计划

Ollama 团队表示,未来的开发重点将集中在以下几个方面:

  • 更长的上下文长度:支持更复杂的序列推理任务。
  • 思考/推理能力:增强模型的逻辑推理和问题解决能力。
  • 流式响应工具调用:优化实时交互体验。
  • 计算机使用支持:让模型能够直接操作计算机环境,扩展应用场景。
© 版权声明

相关文章

暂无评论

none
暂无评论...