Ollama 新调度系统上线：内存管理更精准，性能全面提升

早报6个月前发布小马良

130 0

Ollama 最近对其核心引擎进行了一项关键更新——引入了全新的模型调度系统，重点改进了内存分配与管理机制。这一变化虽然不显眼，却直接影响模型运行的稳定性与效率。

Ollama 新调度系统上线：内存管理更精准，性能全面提升

最大的改变在于：Ollama 现在会精确测量模型运行所需的显存，而非依赖估算值。这项技术升级带来了多个实际层面的优化，尤其在高负载场景下表现尤为突出。

更精准的内存控制，带来四大提升

减少因内存不足导致的崩溃
过去，由于显存需求是估算的，容易出现过度分配或预留不足的问题，导致运行中突然中断。新系统通过精确计算每层模型的实际占用，有效避免了此类情况，显著提升了运行稳定性。
提升 GPU 利用率
精确的内存管理使得 Ollama 能够更充分地利用可用显存资源，将更多模型层加载至 GPU，从而加快推理速度。实测数据显示，部分任务下的生成速度提升超过一倍。
优化多 GPU 场景下的调度能力
在配备多个 GPU 的设备上，新调度系统能更高效地分配模型层，尤其是在使用非对称显卡（如不同型号或显存容量）时，性能协调能力大幅提升。
统一监控指标，便于调试和追踪
现在 ollama ps 输出的显存使用数据与 nvidia-smi 等系统工具高度一致，开发者可以更准确地监控资源消耗，排查瓶颈问题。

实测对比：新版调度带来的性能飞跃

以下是两个典型场景下的性能对比，直观展示新系统的改进效果。

场景一：长上下文文本生成

配置：1×RTX 4090｜模型：gemma3:12b｜上下文长度：128k

指标	旧版	新版
令牌生成速度	52.02 tokens/s	85.54 tokens/s
显存占用	19.9 GiB	21.4 GiB
GPU 加载层数	48/49 层	49/49 层

结果说明：新版成功将全部模型层加载进 GPU，充分利用硬件资源，生成速度提升约 64%。

场景二：图像输入处理（多模态）

配置：2×RTX 4090｜模型：mistral-small3.2｜上下文长度：32k

指标	旧版	新版
提示评估速度	127.84 tokens/s	1380.24 tokens/s
令牌生成速度	43.15 tokens/s	55.61 tokens/s
显存占用	19.9 GiB	21.4 GiB
GPU 加载情况	40/41 层	41/41 层 + 视觉模型

结果说明：提示处理速度提升近 10 倍，视觉模型也被完整加载至 GPU，显著改善多模态任务响应效率。

当前支持的模型

所有基于 Ollama 新引擎实现的模型均已默认启用该调度功能，无需额外配置。

✅ 已支持：

gpt-oss
llama4, llama3.2-vision（后续将逐步支持 llama3.2、llama3.1、llama3）
gemma3, embeddinggemma, gemma3n
qwen3, qwen2.5vl（qwen3-coder 即将支持）
mistral-small3.2
all-minilm 及其他嵌入模型

随着更多模型迁移至新引擎，这一能力将覆盖更广泛的模型家族。

总结

本次调度系统的升级并非功能性的“新增”，而是底层机制的重要演进。它让 Ollama 在资源调度上变得更聪明、更可靠，尤其对本地部署大模型的用户而言，意味着更高的成功率、更快的响应速度和更强的多卡扩展能力。

如果你正在使用较新的模型或计划构建本地推理环境，建议保持 Ollama 更新至最新版本，以获得最佳体验。

早报 # Ollama # 内存管理 # 模型调度

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Cognition宣布收购Windsurf，AI编程助手迈入全栈整合新时代

Cognition宣布收购Windsurf，AI编程助手迈入全栈整合新时代

早报 # AI编程助手 # Cognition # Windsurf

8个月前

03000

OpenAI 模型首次登陆 AWS，挑战微软云主导地位

OpenAI 模型首次登陆 AWS，挑战微软云主导地位

早报 # AWS # OpenAI

8个月前

01690

谷歌搜索AI模式新增旅行规划与自动预订功能

谷歌搜索AI模式新增旅行规划与自动预订功能

早报 # AI模式 # 谷歌

4个月前

0890

NotebookLM 大幅升级：100 万上下文、6 倍对话记忆，支持角色化 AI 研究伙伴

NotebookLM 大幅升级：100 万上下文、6 倍对话记忆，支持角色化 AI 研究伙伴

早报 # NotebookLM # 谷歌

5个月前

01370

暂无评论

none

暂无评论...