本地大模型的使用体验,从 3 月 30 日起有了明显的变化。
Ollama 在这天发布了 0.19 版本预览版,同时官方博客贴出了一篇文章:Ollama is now powered by MLX on Apple Silicon in preview。两件事放在一起,对 Mac 用户来说是个不小的消息——联网搜索能力直接内置进来了,Apple Silicon 的推理速度也因为接入了苹果 MLX 框架有了大幅提升。
我把这两个更新仔细看了一遍,写下这篇记录,供你参考。
联网搜索:本地模型补上了最明显的短板
本地大模型有一个老问题:没法知道最新发生的事。你跑一个 Qwen 或者 Llama,问它”今天发生了什么”,它只会老老实实告诉你它的训练截止日期,然后说不知道。
0.19 的 Web 搜索插件直接解决了这个问题。启动方式很简单:
ollama launch pi跑起来之后,模型就有了实时联网搜索的能力,不需要再额外配置什么 Tavily API、SerpAPI 之类的第三方工具。这对之前自己搭过 RAG 或者 agent 的人来说,省了不少麻烦。
当然,目前这个功能还是预览状态,稳定性还要再观察。但这个方向是对的——本地部署的模型,一直以来最大的弱点就是信息截止问题,这次算是开了个口子。
Mac 跑模型快了多少?数据说话
另一个更新让 Mac 用户更感兴趣。Ollama 在 0.19 里全面接入了苹果的 MLX 框架,利用 Apple Silicon 芯片的统一内存架构做推理加速。
官方给出了一组对比数据,测试模型是阿里的 Qwen3.5-35B-A3B(量化版本):
| 指标 | Ollama 0.18 | Ollama 0.19 |
|---|---|---|
| 预填充速度(prefill) | 1154 tokens/秒 | 1810 tokens/秒 |
| 解码速度(decode) | 58 tokens/秒 | 112 tokens/秒 |
解码速度直接翻了将近一倍。预填充速度也提升了 57%。
如果你用的是 int4 量化版本,数字更好看:预填充能到 1851 tokens/秒,解码 134 tokens/秒。
这个提升对实际使用影响很直接。解码速度决定的是文字生成的”流畅感”,58 tokens/秒和 112 tokens/秒的差距,你盯着屏幕等回复的时候是能感受到的。
有一个前提需要说清楚:这套 MLX 加速目前要求 Mac 的统一内存超过 32GB。所以 M 系列基础款(16GB 内存的那些)还用不上。如果你有 M2 Pro/Max 或者 M3/M4/M5 的 32GB 以上配置,才能体验到这个提升。
NVFP4:和生产环境用同一套量化
这是一个更偏技术的更新,但值得提一下。
0.19 引入了 NVIDIA 的 NVFP4 量化格式支持。这个格式的意义在于:在云端大规模跑推理的服务商(比如各种 API 提供商)已经在用这个格式了,现在 Ollama 本地也能跑同样量化的模型。
这意味着你在本地测试出来的效果,和实际部署到生产环境用 API 调用时的效果会更接近。之前本地跑 Q4 量化,生产用 float16,两边结果有出入是很常见的事——NVFP4 在一定程度上能缩小这个差距。
v0.19.0 其他修复
除了两个大更新,这个版本还修了几个具体问题:
- Grok 模型 之前 Flash Attention 被错误启用,这次修了
- qwen3-next:80b 之前无法加载,现在支持了
- Qwen3.5 工具调用 解析有 bug,工具调用内容会被输出到思考模块里,现在修了
- Anthropic 兼容 API 的 KV 缓存命中率优化了,高频长对话场景会快一些
- MLX 运行器的内存泄漏问题修了,长时间跑模型不会慢慢吃内存了
怎么升级
如果你之前装过 Ollama,更新很简单:
macOS / Linux:
curl -fsSL https://ollama.com/install.sh | shWindows: 去 ollama.com 下载最新安装包重新安装即可。
升级完之后,可以用 ollama --version 确认版本号变成 0.19.x 了。
要用 MLX 加速,额外运行:
ollama run qwen3.5:35b-a3b-coding-nvfp4这是官方推荐的测试模型,35B 参数但因为是混合专家架构(MoE),实际激活参数只有 3B 左右,内存占用比看起来小很多。
一点补充
如果你之前没用过 Ollama,或者刚入门本地大模型,可以先看我之前写的 本地部署大模型完全指南(Ollama + LM Studio 实战对比),从安装到跑第一个模型都有详细步骤,这篇算是在那个基础上的续篇。
本地模型的发展速度现在很快。去年这时候,在自己电脑上跑一个勉强能用的模型还是件麻烦事,现在用 Ollama 下载模型跑起来是真的简单,性能也在肉眼可见地提升。0.19 这次联网能力的加入,是一个方向性的转变——之前本地模型和在线模型最大的功能差距之一,正在被补上。
参考资料:Ollama 官方博客 – MLX 发布公告,发布时间 2026年3月30日



