Ollama 最近对其核心引擎进行了一项关键更新——引入了全新的模型调度系统,重点改进了内存分配与管理机制。这一变化虽然不显眼,却直接影响模型运行的稳定性与效率。

最大的改变在于:Ollama 现在会精确测量模型运行所需的显存,而非依赖估算值。这项技术升级带来了多个实际层面的优化,尤其在高负载场景下表现尤为突出。
更精准的内存控制,带来四大提升
- 减少因内存不足导致的崩溃
过去,由于显存需求是估算的,容易出现过度分配或预留不足的问题,导致运行中突然中断。新系统通过精确计算每层模型的实际占用,有效避免了此类情况,显著提升了运行稳定性。
- 提升 GPU 利用率
精确的内存管理使得 Ollama 能够更充分地利用可用显存资源,将更多模型层加载至 GPU,从而加快推理速度。实测数据显示,部分任务下的生成速度提升超过一倍。
- 优化多 GPU 场景下的调度能力
在配备多个 GPU 的设备上,新调度系统能更高效地分配模型层,尤其是在使用非对称显卡(如不同型号或显存容量)时,性能协调能力大幅提升。
- 统一监控指标,便于调试和追踪
现在
ollama ps输出的显存使用数据与nvidia-smi等系统工具高度一致,开发者可以更准确地监控资源消耗,排查瓶颈问题。
实测对比:新版调度带来的性能飞跃
以下是两个典型场景下的性能对比,直观展示新系统的改进效果。
场景一:长上下文文本生成
配置:1×RTX 4090|模型:gemma3:12b|上下文长度:128k
| 指标 | 旧版 | 新版 |
|---|---|---|
| 令牌生成速度 | 52.02 tokens/s | 85.54 tokens/s |
| 显存占用 | 19.9 GiB | 21.4 GiB |
| GPU 加载层数 | 48/49 层 | 49/49 层 |
结果说明:新版成功将全部模型层加载进 GPU,充分利用硬件资源,生成速度提升约 64%。
场景二:图像输入处理(多模态)
配置:2×RTX 4090|模型:mistral-small3.2|上下文长度:32k
| 指标 | 旧版 | 新版 |
|---|---|---|
| 提示评估速度 | 127.84 tokens/s | 1380.24 tokens/s |
| 令牌生成速度 | 43.15 tokens/s | 55.61 tokens/s |
| 显存占用 | 19.9 GiB | 21.4 GiB |
| GPU 加载情况 | 40/41 层 | 41/41 层 + 视觉模型 |
结果说明:提示处理速度提升近 10 倍,视觉模型也被完整加载至 GPU,显著改善多模态任务响应效率。
当前支持的模型
所有基于 Ollama 新引擎实现的模型均已默认启用该调度功能,无需额外配置。
✅ 已支持:
gpt-ossllama4,llama3.2-vision(后续将逐步支持llama3.2、llama3.1、llama3)gemma3,embeddinggemma,gemma3nqwen3,qwen2.5vl(qwen3-coder即将支持)mistral-small3.2all-minilm及其他嵌入模型
随着更多模型迁移至新引擎,这一能力将覆盖更广泛的模型家族。
总结
本次调度系统的升级并非功能性的“新增”,而是底层机制的重要演进。它让 Ollama 在资源调度上变得更聪明、更可靠,尤其对本地部署大模型的用户而言,意味着更高的成功率、更快的响应速度和更强的多卡扩展能力。
如果你正在使用较新的模型或计划构建本地推理环境,建议保持 Ollama 更新至最新版本,以获得最佳体验。















