Llama 4 来了:Meta 这次开源的,到底能不能用?

Meta 在 4 月初悉悉发布了 Llama 4,没有大张旗鼓的发布会,没有倒计时直播,就那么推出来了。

但圈子里的反应不小。

原因不复杂——这是 Meta 第一次在 Llama 系列里用上混合专家(MoE)架构,而且上来就是两款可以直接拿来用的模型:Scout 和 Maverick。还有一个叫 Behemoth 的 2 万亿参数大怪物,不过那个还在训练中,暂时看不到。


两款模型,一个核心问题

先说容易混淦的地方:Scout 和 Maverick 的激活参数都是 17B,但这不代表它们是同一个东西。

MoE 架构的逻辑是:模型在回答问题时,不会把所有参数都跑一遍,而是激活一部分「专家」子网络来处理当前输入。Scout 有 16 个专家,总参数 109B;Maverick 有 128 个专家,总参数 400B。

所以虽然两者跑起来的算力消耗差不多,能力上差距是真实存在的。

Scout 的核心价値在于上下文1000 万 Token 的窗口,换算成文字大概是 750 万汉字。Meta 自己测试的结果是,在 800 万 Token 的范围内检索信息,准确率能维持在 95% 以上。你可以把一个中等规模的代码库整个喂进去问问题题,或者让它帮你处理一批超长的对话记录。

Maverick 的核心价値在于推理能力。在多个基准测试里,它的多模态能力全面超越 GPT-4o,综合推理能力和 GPT-5.4 只差一两个百分点。对于绝大多数实际任务,这个差距几乎感受不到。


本地跑得起来吗?

这是很多人最关心的问题。

实话实说:Scout 门槛相对友好,Maverick 要求很高

Scout 的量化版本(INT4/INT8)可以在单张 RTX 4090 上运行,需要大约 48~80GB 显存,取决于量化程度。如果你之前跑过 Mixtral 8x7B,Scout 的体验会比较相似,但上下文长度祏出去不止一个量级。

Maverick 就不太适合个人玩家了。400B 总参数的模型,哪怕是量化版也需要多卡才能跑。个人本地部署 Maverick 的意义不大,更合适的方式是通过 API 调用。

Ollama 已经支持 Llama 4 系列(ollama pull llama4:scout),如果你的机器够用,Ollama 0.19 发布解读里提到的 Web 搜索和 MLX 加速都可以配合 Scout 一起用,Apple Silicon 用户体验会更好。

如果你对本地部署整体还不熟悉,可以先看看这篇本地部署大模型完全指南,从 Ollama 安装开始过一遍基础流程。


API 的价格优势是真的

如果你不打算本地部署,通过 API 用 Llama 4 的成本确实低得惊人。

参考 Groq、Together AI 等平台目前的报价,Maverick 大约是每百万 Token 输入 $0.19〞$0.49,Scout 更低,大概是 $0.10〞$0.20。GPT-4o 的同类任务要花 $2.5〞$10。

对于要处理大批量内容的场景——比如给文章批量打标签、做内容分类、解析大量日志——这个价格差距会非常明显。


许可协议:这次比之前宽松

Llama 4 使用 Meta 自己的「Llama 4 社区许可」,允许商业使用,但月活超过 7 亿用户的服务需要额外申请授权。对于绝大多数开发者和中小团队来说,这个门槛基本不构成限制。

相比之下,Llama 3 的许可在某些场景下有更多限制,这次算是进了一步。当然,和上个月 Gemma 4 切换到 Apache 2.0 相比,Meta 的许可协议依然不算最开放的那类。


值不値得现在就上手?

几种情况下值得现在就试

  • 你有需要处理超长文本的任务,Scout 的 1000 万 Token 窗口是目前开源里找不到替代品的
  • 你在控制 API 成本,Maverick 相对 GPT-4o 的价格优势非常实在
  • 你需要原生多模态支持但不想依赖闭源服务

暂时不急的情况:

  • 你在意的是最前沿的推理能力——o3、Claude Opus 4.6 之类的闭源模型目前还是领先一截
  • 你的机器配置有限,Maverick 的本地部署门槛确实不低

Behemoth 还没出来,2 万亿参数模型作为「教师模型」蒸馏出来的 Scout 和 Maverick 已经是这个水准了,等到 Behemoth 正式开源,格局可能又会变一次。

暂时先把 Scout 拉下来跑一跑,是个不错的选择。


如果你在用 Ollama 跑 Llama 4,欢迎在评论区说说体验——尤其是显存占用和实际速度,经验帖永远比参数表更有用。

推荐文章

  • Llama 4 来了:Meta 这次开源的,到底能不能用?

    Meta 在 4 月初悉悉发布了 Llama 4,没有大张旗鼓的发布会,没有倒计时直播,就那么推出来了。 但圈子里的反应不小。 原因不复杂——这是 Meta 第一次在 Llama 系列里用上混合专家(…

  • GPT-6 来了?“土豆”代号背后,那些还没人说清楚的事

    4月5日,AI圈又炸了。 X平台上的爆料账号 @iruletheworldmo 放出大量内部消息,称OpenAI下一代旗舰模型GPT-6已经完成预训练,内部代号叫“Spud”——就是英文里的“土豆”。…

  • DeepSeek V4 把早期访问权给了华为,没给英伟达

    昨天,科技媒体 The Information 报道了一件看似低调、实则很有份量的事:DeepSeek 下一代旗舰模型 V4,在发布前的早期适配阶段,把访问权限独家给了华为和寒武纪,而不是按惯例先跑英…

  • Gemma 4 正式发布:谷歌终于把开源许可证改了,顺带还带来了一批真正能用的模型

    谷歌在 4 月 3 日凌晨悄悄推了一个大更新——Gemma 4,新一代开源模型家族全员到齐。这次更新有两件事值得单独拿出来说:一是许可证改了,二是性能数据开始有点意思了。 许可证这件事,比模型本身更重…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

暗夜独行