Meta 开源 Llama 4 Scout:17B/109B MoE 架构,1000 万 Token 上下文只要 $0.08

Meta 开源 Llama 4 Scout:17B/109B MoE 架构,1000 万 Token 上下文只要 $0.08

核心结论

Meta 于 4 月底发布 Llama 4 Scout——一个 17B 激活参数 / 109B 总参数的混合专家(MoE)模型,16 个专家路由。关键数字:

  • 1000 万 Token 上下文窗口:可直接处理 300 页文档,无需分块
  • $0.08/M Token 输入价格:通过聚合器使用 OpenAI 兼容 API
  • 开放权重:在 Muse Spark 转向闭源之前,这是最后一个开放的 Meta 模型层级

Llama 4 Scout 的定位非常明确:以极低成本处理超长文档的开源推理引擎

架构解读

MoE 设计:17B 激活 vs 109B 总参数

参数意义
总参数109B模型知识库的”总容量”
激活参数17B每次推理实际使用的参数量
专家数量16路由可选择的子网络数
路由策略Top-2每次激活 2 个专家

MoE 架构的精髓在于:模型拥有 109B 参数的知识量,但推理成本只相当于 17B 模型。这意味着你可以用一个中等规模的 GPU(或云 API 的低价格)获得接近 100B 密集模型的能力。

上下文窗口:1000 万 Token 意味着什么

文档类型约需 Token 数Llama 4 Scout 能否一次处理
短篇论文(10 页)~5,000✅ 绰绰有余
长篇论文(50 页)~25,000✅ 绰绰有余
书籍(300 页)~150,000✅ 绰绰有余
法律合同集(10 份)~500,000
整个代码库(中型项目)~2,000,000
多本书籍 + 代码库~10,000,000✅ 极限

传统方案(如 128K 上下文)需要把文档分块、分别处理、再聚合结果。Llama 4 Scout 的 1000 万上下文意味着一次性喂入,一次性回答,避免了分块带来的信息丢失和推理偏差。

价格对比

模型输入价格 ($/M Token)上下文窗口架构开放权重
Llama 4 Scout$0.0810MMoE 17B/109B
GPT-5.5$2.501M密集(未公开)
Claude Opus 4.7$15.00200K密集(未公开)
Qwen3.6-Plus$0.401M密集
DeepSeek-V4-Flash$0.141MMoE 13B/284B

Llama 4 Scout 的输入价格是所有主流模型中最低的——比 GPT-5.5 便宜 31 倍,比 Claude Opus 4.7 便宜 187 倍。

定位判断:Meta 开源策略的转折点

Llama 4 Scout 的发布有一个重要背景:Meta 正在将前沿模型 Muse Spark 转向闭源

Meta 模型路线图(推演)
├─ Llama 4 Scout → 开源,最后一批开放权重的中层模型
├─ Muse Spark → 闭源,Meta 的旗舰竞争者
└─ Llama 4 未来版本 → 可能缩小开源范围

这意味着 Llama 4 Scout 可能是最后一批能以合理成本获得 Meta 先进 MoE 架构开放权重的模型。如果你计划在开源模型上做微调或部署,这是一个值得重视的信号。

适用场景分析

最适合的场景

  1. 长文档问答:法律、金融、医疗领域的长文档分析,不需要分块
  2. 代码库理解:将整个代码库输入模型进行架构分析和代码审查
  3. 批量文档处理:一次性处理大量文档的摘要、分类、信息提取
  4. 成本敏感的推理场景:需要大量调用但对绝对精度要求不高的场景

不太适合的场景

  1. 需要顶级推理能力的任务:Scout 是 Meta 的”侦察兵”层级,不是旗舰
  2. 多模态任务:纯文本模型,不支持图像/视频输入
  3. 极低延迟场景:MoE 路由和 10M 上下文会带来额外延迟

上手指南

通过 API(最快上手)

使用支持 OpenAI 兼容接口的聚合器(如 Together AI、Groq),一个 API Key 即可调用:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.together.xyz/v1",
    api_key="YOUR_API_KEY"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout",
    messages=[{"role": "user", "content": "分析这份 200 页财报的关键趋势"}],
    max_tokens=4096
)

本地部署(需要 GPU)

配置最低要求推荐配置
GPU 显存24GB(单卡 A10G)80GB(单卡 A100/H100)
量化INT4 可用BF16 全精度
内存64GB RAM128GB RAM

总结

Llama 4 Scout 不是最强的模型,但它是最务实的模型——以极低成本解决了一个真实痛点:长文档处理需要分块。加上 Meta 开源策略可能收紧的背景,现在是用起来的好时机。


Meta 的开源策略正在从”全面开放”转向”分层开放”。Llama 4 Scout 可能是最后一班车。