暗夜独行

Ollama 0.19 发布：本地大模型终于能联网了，Mac 跑模型速度也翻了倍

26年4月1日

11 分

7

本地大模型的使用体验，从 3 月 30 日起有了明显的变化。

Ollama 在这天发布了 0.19 版本预览版，同时官方博客贴出了一篇文章：Ollama is now powered by MLX on Apple Silicon in preview。两件事放在一起，对 Mac 用户来说是个不小的消息——联网搜索能力直接内置进来了，Apple Silicon 的推理速度也因为接入了苹果 MLX 框架有了大幅提升。

我把这两个更新仔细看了一遍，写下这篇记录，供你参考。

联网搜索：本地模型补上了最明显的短板

本地大模型有一个老问题：没法知道最新发生的事。你跑一个 Qwen 或者 Llama，问它”今天发生了什么”，它只会老老实实告诉你它的训练截止日期，然后说不知道。

0.19 的 Web 搜索插件直接解决了这个问题。启动方式很简单：

Bash

ollama launch pi

ollama launch pi

跑起来之后，模型就有了实时联网搜索的能力，不需要再额外配置什么 Tavily API、SerpAPI 之类的第三方工具。这对之前自己搭过 RAG 或者 agent 的人来说，省了不少麻烦。

当然，目前这个功能还是预览状态，稳定性还要再观察。但这个方向是对的——本地部署的模型，一直以来最大的弱点就是信息截止问题，这次算是开了个口子。

Mac 跑模型快了多少？数据说话

另一个更新让 Mac 用户更感兴趣。Ollama 在 0.19 里全面接入了苹果的 MLX 框架，利用 Apple Silicon 芯片的统一内存架构做推理加速。

官方给出了一组对比数据，测试模型是阿里的 Qwen3.5-35B-A3B（量化版本）：

指标	Ollama 0.18	Ollama 0.19
预填充速度（prefill）	1154 tokens/秒	1810 tokens/秒
解码速度（decode）	58 tokens/秒	112 tokens/秒

解码速度直接翻了将近一倍。预填充速度也提升了 57%。

如果你用的是 int4 量化版本，数字更好看：预填充能到 1851 tokens/秒，解码 134 tokens/秒。

这个提升对实际使用影响很直接。解码速度决定的是文字生成的”流畅感”，58 tokens/秒和 112 tokens/秒的差距，你盯着屏幕等回复的时候是能感受到的。

有一个前提需要说清楚：这套 MLX 加速目前要求 Mac 的统一内存超过 32GB。所以 M 系列基础款（16GB 内存的那些）还用不上。如果你有 M2 Pro/Max 或者 M3/M4/M5 的 32GB 以上配置，才能体验到这个提升。

NVFP4：和生产环境用同一套量化

这是一个更偏技术的更新，但值得提一下。

0.19 引入了 NVIDIA 的 NVFP4 量化格式支持。这个格式的意义在于：在云端大规模跑推理的服务商（比如各种 API 提供商）已经在用这个格式了，现在 Ollama 本地也能跑同样量化的模型。

这意味着你在本地测试出来的效果，和实际部署到生产环境用 API 调用时的效果会更接近。之前本地跑 Q4 量化，生产用 float16，两边结果有出入是很常见的事——NVFP4 在一定程度上能缩小这个差距。

v0.19.0 其他修复

除了两个大更新，这个版本还修了几个具体问题：

Grok 模型 之前 Flash Attention 被错误启用，这次修了
qwen3-next:80b 之前无法加载，现在支持了
Qwen3.5 工具调用 解析有 bug，工具调用内容会被输出到思考模块里，现在修了
Anthropic 兼容 API 的 KV 缓存命中率优化了，高频长对话场景会快一些
MLX 运行器的内存泄漏问题修了，长时间跑模型不会慢慢吃内存了

怎么升级

如果你之前装过 Ollama，更新很简单：

macOS / Linux：

Bash

curl -fsSL https://ollama.com/install.sh | sh

curl -fsSL https://ollama.com/install.sh | sh

Windows： 去 ollama.com 下载最新安装包重新安装即可。

升级完之后，可以用 ollama --version 确认版本号变成 0.19.x 了。

要用 MLX 加速，额外运行：

Bash

ollama run qwen3.5:35b-a3b-coding-nvfp4

ollama run qwen3.5:35b-a3b-coding-nvfp4

这是官方推荐的测试模型，35B 参数但因为是混合专家架构（MoE），实际激活参数只有 3B 左右，内存占用比看起来小很多。

一点补充

如果你之前没用过 Ollama，或者刚入门本地大模型，可以先看我之前写的本地部署大模型完全指南（Ollama + LM Studio 实战对比），从安装到跑第一个模型都有详细步骤，这篇算是在那个基础上的续篇。

本地模型的发展速度现在很快。去年这时候，在自己电脑上跑一个勉强能用的模型还是件麻烦事，现在用 Ollama 下载模型跑起来是真的简单，性能也在肉眼可见地提升。0.19 这次联网能力的加入，是一个方向性的转变——之前本地模型和在线模型最大的功能差距之一，正在被补上。

参考资料：Ollama 官方博客 – MLX 发布公告，发布时间 2026年3月30日

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。

AI AI大模型人工智能大模型开发者

暗夜独行

京ICP备17021205号

站点地图

隐私政策

暗夜独行

Ollama 0.19 发布：本地大模型终于能联网了，Mac 跑模型速度也翻了倍

联网搜索：本地模型补上了最明显的短板

Mac 跑模型快了多少？数据说话

NVFP4：和生产环境用同一套量化

v0.19.0 其他修复

怎么升级

一点补充

推荐文章

Claude Code 源码泄露风波：51万行代码、三大隐私机制曝光，这已经是第二次了

Ollama 0.19 发布：本地大模型终于能联网了，Mac 跑模型速度也翻了倍

AI独角兽集体奔赴IPO：Anthropic、Kimi、OpenAI同期上市背后，这场资本盛宴说明了什么？

中国AI从”热点”变”国家工程”：2026中关村论坛三大发布，读懂信号

暗夜独行