Llama 4 来了:Meta 这次开源的,到底能不能用?

Meta 在 4 月初悉悉发布了 Llama 4,没有大张旗鼓的发布会,没有倒计时直播,就那么推出来了。

但圈子里的反应不小。

原因不复杂——这是 Meta 第一次在 Llama 系列里用上混合专家(MoE)架构,而且上来就是两款可以直接拿来用的模型:Scout 和 Maverick。还有一个叫 Behemoth 的 2 万亿参数大怪物,不过那个还在训练中,暂时看不到。


两款模型,一个核心问题

先说容易混淦的地方:Scout 和 Maverick 的激活参数都是 17B,但这不代表它们是同一个东西。

MoE 架构的逻辑是:模型在回答问题时,不会把所有参数都跑一遍,而是激活一部分「专家」子网络来处理当前输入。Scout 有 16 个专家,总参数 109B;Maverick 有 128 个专家,总参数 400B。

所以虽然两者跑起来的算力消耗差不多,能力上差距是真实存在的。

Scout 的核心价値在于上下文1000 万 Token 的窗口,换算成文字大概是 750 万汉字。Meta 自己测试的结果是,在 800 万 Token 的范围内检索信息,准确率能维持在 95% 以上。你可以把一个中等规模的代码库整个喂进去问问题题,或者让它帮你处理一批超长的对话记录。

Maverick 的核心价値在于推理能力。在多个基准测试里,它的多模态能力全面超越 GPT-4o,综合推理能力和 GPT-5.4 只差一两个百分点。对于绝大多数实际任务,这个差距几乎感受不到。


本地跑得起来吗?

这是很多人最关心的问题。

实话实说:Scout 门槛相对友好,Maverick 要求很高

Scout 的量化版本(INT4/INT8)可以在单张 RTX 4090 上运行,需要大约 48~80GB 显存,取决于量化程度。如果你之前跑过 Mixtral 8x7B,Scout 的体验会比较相似,但上下文长度祏出去不止一个量级。

Maverick 就不太适合个人玩家了。400B 总参数的模型,哪怕是量化版也需要多卡才能跑。个人本地部署 Maverick 的意义不大,更合适的方式是通过 API 调用。

Ollama 已经支持 Llama 4 系列(ollama pull llama4:scout),如果你的机器够用,Ollama 0.19 发布解读里提到的 Web 搜索和 MLX 加速都可以配合 Scout 一起用,Apple Silicon 用户体验会更好。

如果你对本地部署整体还不熟悉,可以先看看这篇本地部署大模型完全指南,从 Ollama 安装开始过一遍基础流程。


API 的价格优势是真的

如果你不打算本地部署,通过 API 用 Llama 4 的成本确实低得惊人。

参考 Groq、Together AI 等平台目前的报价,Maverick 大约是每百万 Token 输入 $0.19〞$0.49,Scout 更低,大概是 $0.10〞$0.20。GPT-4o 的同类任务要花 $2.5〞$10。

对于要处理大批量内容的场景——比如给文章批量打标签、做内容分类、解析大量日志——这个价格差距会非常明显。


许可协议:这次比之前宽松

Llama 4 使用 Meta 自己的「Llama 4 社区许可」,允许商业使用,但月活超过 7 亿用户的服务需要额外申请授权。对于绝大多数开发者和中小团队来说,这个门槛基本不构成限制。

相比之下,Llama 3 的许可在某些场景下有更多限制,这次算是进了一步。当然,和上个月 Gemma 4 切换到 Apache 2.0 相比,Meta 的许可协议依然不算最开放的那类。


值不値得现在就上手?

几种情况下值得现在就试

  • 你有需要处理超长文本的任务,Scout 的 1000 万 Token 窗口是目前开源里找不到替代品的
  • 你在控制 API 成本,Maverick 相对 GPT-4o 的价格优势非常实在
  • 你需要原生多模态支持但不想依赖闭源服务

暂时不急的情况:

  • 你在意的是最前沿的推理能力——o3、Claude Opus 4.6 之类的闭源模型目前还是领先一截
  • 你的机器配置有限,Maverick 的本地部署门槛确实不低

Behemoth 还没出来,2 万亿参数模型作为「教师模型」蒸馏出来的 Scout 和 Maverick 已经是这个水准了,等到 Behemoth 正式开源,格局可能又会变一次。

暂时先把 Scout 拉下来跑一跑,是个不错的选择。


如果你在用 Ollama 跑 Llama 4,欢迎在评论区说说体验——尤其是显存占用和实际速度,经验帖永远比参数表更有用。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

推荐阅读

  • 月赚5.59亿,月花12.5亿:Anthropic的盈利魔幻与现实

    5月21日,两条新闻几乎同时炸开。 第一条:Anthropic预计2026年Q2营收109亿美元,将实现公司成立以来的首个季度盈利——营业利润5.59亿美元。华尔街日报头版报道,投资人集体沸腾,Ant…

  • AI开始替代整个部门:李开复最新判断,表演式AI该停了

    5月19日,上海AMD AI开发者日2026,零一万物CEO李开复与AMD CEO苏姿丰进行了一场炉边对话。主题是”AI智能体新范式”,但真正引发现场两千多名开发者共鸣的,是李…

  • Google I/O 2026:Gemini月活9亿,股价却跌了——这一次,饼不够香?

    就在刚刚过去的这个凌晨,Google I/O 2026在美国加州山景城落下帷幕。 从Token处理量到月活用户数,从Gemini模型更新到智能眼镜新品,Google拿出了一份看似极具分量的发布清单。然…

  • 中国大模型调用量连续三周碾压美国:腾讯混元单周2.66万亿Token登顶,DeepSeek集团军破4万亿

    上周(5月11日至17日),OpenRouter平台上发生了一件值得标记在AI编年史上的事:中国大模型的周调用量,连续第三周碾压美国。 不是某一款模型的偶发爆发,也不是靠免费策略刷出来的虚高数字——腾…

暗夜独行