Ollama 新调度系统上线:内存管理更精准,性能全面提升

早报2个月前发布 小马良
109 0

Ollama 最近对其核心引擎进行了一项关键更新——引入了全新的模型调度系统,重点改进了内存分配与管理机制。这一变化虽然不显眼,却直接影响模型运行的稳定性与效率。

Ollama 新调度系统上线:内存管理更精准,性能全面提升

最大的改变在于:Ollama 现在会精确测量模型运行所需的显存,而非依赖估算值。这项技术升级带来了多个实际层面的优化,尤其在高负载场景下表现尤为突出。

更精准的内存控制,带来四大提升

  1. 减少因内存不足导致的崩溃

    过去,由于显存需求是估算的,容易出现过度分配或预留不足的问题,导致运行中突然中断。新系统通过精确计算每层模型的实际占用,有效避免了此类情况,显著提升了运行稳定性。

  2. 提升 GPU 利用率

    精确的内存管理使得 Ollama 能够更充分地利用可用显存资源,将更多模型层加载至 GPU,从而加快推理速度。实测数据显示,部分任务下的生成速度提升超过一倍。

  3. 优化多 GPU 场景下的调度能力

    在配备多个 GPU 的设备上,新调度系统能更高效地分配模型层,尤其是在使用非对称显卡(如不同型号或显存容量)时,性能协调能力大幅提升。

  4. 统一监控指标,便于调试和追踪

    现在 ollama ps 输出的显存使用数据与 nvidia-smi 等系统工具高度一致,开发者可以更准确地监控资源消耗,排查瓶颈问题。

实测对比:新版调度带来的性能飞跃

以下是两个典型场景下的性能对比,直观展示新系统的改进效果。

场景一:长上下文文本生成

配置:1×RTX 4090|模型:gemma3:12b|上下文长度:128k

指标旧版新版
令牌生成速度52.02 tokens/s85.54 tokens/s
显存占用19.9 GiB21.4 GiB
GPU 加载层数48/49 层49/49 层

结果说明:新版成功将全部模型层加载进 GPU,充分利用硬件资源,生成速度提升约 64%

场景二:图像输入处理(多模态)

配置:2×RTX 4090|模型:mistral-small3.2|上下文长度:32k

指标旧版新版
提示评估速度127.84 tokens/s1380.24 tokens/s
令牌生成速度43.15 tokens/s55.61 tokens/s
显存占用19.9 GiB21.4 GiB
GPU 加载情况40/41 层41/41 层 + 视觉模型

结果说明:提示处理速度提升近 10 倍,视觉模型也被完整加载至 GPU,显著改善多模态任务响应效率。

当前支持的模型

所有基于 Ollama 新引擎实现的模型均已默认启用该调度功能,无需额外配置。

✅ 已支持:

  • gpt-oss
  • llama4llama3.2-vision(后续将逐步支持 llama3.2llama3.1llama3
  • gemma3embeddinggemmagemma3n
  • qwen3qwen2.5vlqwen3-coder 即将支持)
  • mistral-small3.2
  • all-minilm 及其他嵌入模型

随着更多模型迁移至新引擎,这一能力将覆盖更广泛的模型家族。

总结

本次调度系统的升级并非功能性的“新增”,而是底层机制的重要演进。它让 Ollama 在资源调度上变得更聪明、更可靠,尤其对本地部署大模型的用户而言,意味着更高的成功率、更快的响应速度和更强的多卡扩展能力。

如果你正在使用较新的模型或计划构建本地推理环境,建议保持 Ollama 更新至最新版本,以获得最佳体验。

© 版权声明

相关文章

暂无评论

none
暂无评论...