Meta 在 4 月初悉悉发布了 Llama 4,没有大张旗鼓的发布会,没有倒计时直播,就那么推出来了。
但圈子里的反应不小。
原因不复杂——这是 Meta 第一次在 Llama 系列里用上混合专家(MoE)架构,而且上来就是两款可以直接拿来用的模型:Scout 和 Maverick。还有一个叫 Behemoth 的 2 万亿参数大怪物,不过那个还在训练中,暂时看不到。
两款模型,一个核心问题
先说容易混淦的地方:Scout 和 Maverick 的激活参数都是 17B,但这不代表它们是同一个东西。
MoE 架构的逻辑是:模型在回答问题时,不会把所有参数都跑一遍,而是激活一部分「专家」子网络来处理当前输入。Scout 有 16 个专家,总参数 109B;Maverick 有 128 个专家,总参数 400B。
所以虽然两者跑起来的算力消耗差不多,能力上差距是真实存在的。
Scout 的核心价値在于上下文。1000 万 Token 的窗口,换算成文字大概是 750 万汉字。Meta 自己测试的结果是,在 800 万 Token 的范围内检索信息,准确率能维持在 95% 以上。你可以把一个中等规模的代码库整个喂进去问问题题,或者让它帮你处理一批超长的对话记录。
Maverick 的核心价値在于推理能力。在多个基准测试里,它的多模态能力全面超越 GPT-4o,综合推理能力和 GPT-5.4 只差一两个百分点。对于绝大多数实际任务,这个差距几乎感受不到。
本地跑得起来吗?
这是很多人最关心的问题。
实话实说:Scout 门槛相对友好,Maverick 要求很高。
Scout 的量化版本(INT4/INT8)可以在单张 RTX 4090 上运行,需要大约 48~80GB 显存,取决于量化程度。如果你之前跑过 Mixtral 8x7B,Scout 的体验会比较相似,但上下文长度祏出去不止一个量级。
Maverick 就不太适合个人玩家了。400B 总参数的模型,哪怕是量化版也需要多卡才能跑。个人本地部署 Maverick 的意义不大,更合适的方式是通过 API 调用。
Ollama 已经支持 Llama 4 系列(ollama pull llama4:scout),如果你的机器够用,Ollama 0.19 发布解读里提到的 Web 搜索和 MLX 加速都可以配合 Scout 一起用,Apple Silicon 用户体验会更好。
如果你对本地部署整体还不熟悉,可以先看看这篇本地部署大模型完全指南,从 Ollama 安装开始过一遍基础流程。
API 的价格优势是真的
如果你不打算本地部署,通过 API 用 Llama 4 的成本确实低得惊人。
参考 Groq、Together AI 等平台目前的报价,Maverick 大约是每百万 Token 输入 $0.19〞$0.49,Scout 更低,大概是 $0.10〞$0.20。GPT-4o 的同类任务要花 $2.5〞$10。
对于要处理大批量内容的场景——比如给文章批量打标签、做内容分类、解析大量日志——这个价格差距会非常明显。
许可协议:这次比之前宽松
Llama 4 使用 Meta 自己的「Llama 4 社区许可」,允许商业使用,但月活超过 7 亿用户的服务需要额外申请授权。对于绝大多数开发者和中小团队来说,这个门槛基本不构成限制。
相比之下,Llama 3 的许可在某些场景下有更多限制,这次算是进了一步。当然,和上个月 Gemma 4 切换到 Apache 2.0 相比,Meta 的许可协议依然不算最开放的那类。
值不値得现在就上手?
几种情况下值得现在就试:
- 你有需要处理超长文本的任务,Scout 的 1000 万 Token 窗口是目前开源里找不到替代品的
- 你在控制 API 成本,Maverick 相对 GPT-4o 的价格优势非常实在
- 你需要原生多模态支持但不想依赖闭源服务
暂时不急的情况:
- 你在意的是最前沿的推理能力——o3、Claude Opus 4.6 之类的闭源模型目前还是领先一截
- 你的机器配置有限,Maverick 的本地部署门槛确实不低
Behemoth 还没出来,2 万亿参数模型作为「教师模型」蒸馏出来的 Scout 和 Maverick 已经是这个水准了,等到 Behemoth 正式开源,格局可能又会变一次。
暂时先把 Scout 拉下来跑一跑,是个不错的选择。
如果你在用 Ollama 跑 Llama 4,欢迎在评论区说说体验——尤其是显存占用和实际速度,经验帖永远比参数表更有用。




发表回复