Ollama 重大更新：Apple Silicon 版由 MLX 驱动，性能飞跃！

Ollama 今日发布了针对 Apple Silicon (M 系列芯片) 的重磅预览版更新。新版本底层不再仅依赖传统的 llama.cpp，而是全面接入 Apple 原生的机器学习框架 MLX。这一变革旨在释放 Mac 统一内存架构的全部潜力，为本地运行大模型带来前所未有的速度提升。

官方介绍：https://ollama.com/blog/mlx

Ollama 重大更新：Apple Silicon 版由 MLX 驱动，性能飞跃！

核心亮点：为什么这次更新至关重要？

1. MLX 驱动：原生加速，速度起飞

统一内存架构 (UMA)：新版本充分利用 Apple Silicon CPU、GPU 和神经引擎共享内存的特性，消除了数据拷贝瓶颈。
硬件全开：在最新的 M5、M5 Pro 和 M5 Max 芯片上，Ollama 能直接调用新的 GPU 神经加速器，显著降低首令牌生成时间 (TTFT) 并大幅提升每秒令牌数 (Tokens/s)。
适用场景：特别优化了高负载任务，如运行 OpenClaw 个人助手、Claude Code、Codex 等编码智能体。

2. NVFP4 支持：生产级精度与效率

引入 NVIDIA NVFP4 格式：Ollama 现在支持 NVIDIA 的 NVFP4 量化格式。
优势：在大幅降低显存占用和带宽需求的同时，保持了极高的模型精度。
生态互通：这意味着你在本地 Ollama 上运行的模型，可以与云端使用 NVIDIA 模型优化器优化的生产环境保持一致的表现，消除了“本地测试好，上线就变差”的隐患。

3. 智能缓存升级：更省内存，更快响应

针对编码和 Agent 任务（通常涉及长上下文和重复系统提示），Ollama 重构了缓存机制：

跨对话复用：在分支对话（如 Claude Code 的多轮调试）中重用缓存，显著降低内存占用，提高命中率。
智能检查点：自动在提示词的关键位置保存快照，减少重复计算，响应更敏捷。
更智能的驱逐策略：即使旧的任务分支被丢弃，共享的前缀上下文也能保留更久，避免频繁重新加载。

测试是在2026年3月29日进行的。测试中使用了阿里云的Qwen3.5-35B-A3B模型，该模型经过量化处理后采用了NVFP4格式；而Ollama模型则采用了之前版本的实现方式，其量化格式为Q4_K_M。测试时使用的Ollama版本为0.18。在Ollama 0.19版本中，性能会有进一步提升：使用int4格式进行运算时，预填充速度可达1851个标记/秒，解码速度则为134个标记/秒。

如何开始体验？

⚠️ 硬件要求

设备：Apple Silicon Mac (M1/M2/M3/M4/M5 系列)。
内存：为了获得最佳体验（特别是运行大模型），建议 统一内存 > 32GB。
版本：需下载 Ollama 0.19 (预览版)。

🚀 快速启动示例

本次更新特别推出了针对编码任务优化的 Qwen3.5-35B-A3B 模型（采用 NVFP4 格式）。

1. 安装/更新 Ollama

前往 ollama.com 下载最新预览版。

2. 拉取并运行编码专用模型

# 直接聊天
ollama run qwen3.5:35b-a3b-coding-nvfp4

3. 集成到 AI 工作流

配合 OpenClaw:

ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4

配合 Claude Code:
```
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
```
(注：此处 ollama launch claude 可能是指通过 Ollama 提供的兼容接口启动类 Claude 体验的会话，或特定插件命令，具体视 Ollama 最新 CLI 定义而定)