Meta 开源 Llama 4 Scout：17B/109B MoE 架构，1000 万 Token 上下文只要 $0.08

核心结论

Meta 于 4 月底发布 Llama 4 Scout——一个 17B 激活参数 / 109B 总参数的混合专家（MoE）模型，16 个专家路由。关键数字：

1000 万 Token 上下文窗口：可直接处理 300 页文档，无需分块
$0.08/M Token 输入价格：通过聚合器使用 OpenAI 兼容 API
开放权重：在 Muse Spark 转向闭源之前，这是最后一个开放的 Meta 模型层级

Llama 4 Scout 的定位非常明确：以极低成本处理超长文档的开源推理引擎。

架构解读

MoE 设计：17B 激活 vs 109B 总参数

参数	值	意义
总参数	109B	模型知识库的”总容量”
激活参数	17B	每次推理实际使用的参数量
专家数量	16	路由可选择的子网络数
路由策略	Top-2	每次激活 2 个专家

MoE 架构的精髓在于：模型拥有 109B 参数的知识量，但推理成本只相当于 17B 模型。这意味着你可以用一个中等规模的 GPU（或云 API 的低价格）获得接近 100B 密集模型的能力。

上下文窗口：1000 万 Token 意味着什么

文档类型	约需 Token 数	Llama 4 Scout 能否一次处理
短篇论文（10 页）	~5,000	✅ 绰绰有余
长篇论文（50 页）	~25,000	✅ 绰绰有余
书籍（300 页）	~150,000	✅ 绰绰有余
法律合同集（10 份）	~500,000	✅
整个代码库（中型项目）	~2,000,000	✅
多本书籍 + 代码库	~10,000,000	✅ 极限

传统方案（如 128K 上下文）需要把文档分块、分别处理、再聚合结果。Llama 4 Scout 的 1000 万上下文意味着一次性喂入，一次性回答，避免了分块带来的信息丢失和推理偏差。

价格对比

模型	输入价格 ($/M Token)	上下文窗口	架构	开放权重
Llama 4 Scout	$0.08	10M	MoE 17B/109B	✅
GPT-5.5	$2.50	1M	密集（未公开）	❌
Claude Opus 4.7	$15.00	200K	密集（未公开）	❌
Qwen3.6-Plus	$0.40	1M	密集	✅
DeepSeek-V4-Flash	$0.14	1M	MoE 13B/284B	✅

Llama 4 Scout 的输入价格是所有主流模型中最低的——比 GPT-5.5 便宜 31 倍，比 Claude Opus 4.7 便宜 187 倍。

定位判断：Meta 开源策略的转折点

Llama 4 Scout 的发布有一个重要背景：Meta 正在将前沿模型 Muse Spark 转向闭源。

Meta 模型路线图（推演）
├─ Llama 4 Scout → 开源，最后一批开放权重的中层模型
├─ Muse Spark → 闭源，Meta 的旗舰竞争者
└─ Llama 4 未来版本 → 可能缩小开源范围

这意味着 Llama 4 Scout 可能是最后一批能以合理成本获得 Meta 先进 MoE 架构开放权重的模型。如果你计划在开源模型上做微调或部署，这是一个值得重视的信号。

适用场景分析

最适合的场景

长文档问答：法律、金融、医疗领域的长文档分析，不需要分块
代码库理解：将整个代码库输入模型进行架构分析和代码审查
批量文档处理：一次性处理大量文档的摘要、分类、信息提取
成本敏感的推理场景：需要大量调用但对绝对精度要求不高的场景

不太适合的场景

需要顶级推理能力的任务：Scout 是 Meta 的”侦察兵”层级，不是旗舰
多模态任务：纯文本模型，不支持图像/视频输入
极低延迟场景：MoE 路由和 10M 上下文会带来额外延迟

上手指南

通过 API（最快上手）

使用支持 OpenAI 兼容接口的聚合器（如 Together AI、Groq），一个 API Key 即可调用：

from openai import OpenAI

client = OpenAI(
    base_url="https://api.together.xyz/v1",
    api_key="YOUR_API_KEY"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout",
    messages=[{"role": "user", "content": "分析这份 200 页财报的关键趋势"}],
    max_tokens=4096
)

本地部署（需要 GPU）

配置	最低要求	推荐配置
GPU 显存	24GB（单卡 A10G）	80GB（单卡 A100/H100）
量化	INT4 可用	BF16 全精度
内存	64GB RAM	128GB RAM

总结

Llama 4 Scout 不是最强的模型，但它是最务实的模型——以极低成本解决了一个真实痛点：长文档处理需要分块。加上 Meta 开源策略可能收紧的背景，现在是用起来的好时机。

Meta 的开源策略正在从”全面开放”转向”分层开放”。Llama 4 Scout 可能是最后一班车。