Llama 4 Scout：Meta 最后的开放权重 MoE，10M Token 上下文仅 $0.08/M 输入

核心结论

Meta 正式推出 Llama 4 Scout——17B 激活 / 109B 总参数的 16 专家 MoE 模型，支持 10M Token 超长上下文，输入价格低至 $0.08/M Token。这是 Meta 在 Muse Spark 闭源前的最后一个开放权重模型，意味着如果你错过了 Scout，下次想拿到 Meta 的开放权重模型可能需要等很久。

发生了什么

Llama 4 Scout 核心参数

维度	规格
架构	16 专家 MoE
总参数	109B
激活参数	17B
上下文窗口	10M Token
输入价格	$0.08/M Token
开放权重	✅（最后开放的一代）
API 兼容	OpenAI 兼容格式

关键特性

10M Token 上下文：

可以一次性放入 300 页文档，无需分块（chunking）
对 RAG、法律文档分析、代码库理解等长上下文场景是质的飞跃
对比 GPT-5.5 的 128K 上下文，这是 78 倍的容量差异

极低的输入价格：

$0.08/M Token 的输入价格，比大多数竞品便宜一个数量级
对于需要处理大量上下文的任务（文档分析、代码审查），成本优势显著
17B 激活参数的 MoE 架构使得推理成本天然低于稠密模型

最后的开放权重：

Meta Muse Spark 已转向闭源路线
Llama 4 Scout 是开放权重生态中最后一个 Meta 模型
这意味着社区将长期围绕 Scout 构建工具链和优化方案

为什么重要

1. 长上下文战场的价格战

Llama 4 Scout 的 10M Token 上下文 + $0.08/M 输入价格，直接挑战了长上下文市场的定价逻辑：

模型	上下文	输入价格 ($/M)	架构
Llama 4 Scout	10M	$0.08	16 专家 MoE
GPT-5.5	128K	$15-30	稠密
Claude Opus 4.7	200K	$15	稠密
Gemini 3.1 Pro	1M	$3.50	MoE
DeepSeek V4	1M	$0.14-0.55	MoE

Scout 的输入价格比 GPT-5.5 便宜 187-375 倍，上下文窗口大 78 倍。虽然模型能力不一定全面对标旗舰模型，但在特定场景（长文档处理、代码库分析）中，Scout 可能是性价比最优解。

2. 开放权重的最后窗口

Meta 的战略转变（Muse Spark 闭源）意味着：

Llama 系列从「持续开放」转向「分层开放」
Scout 可能是未来一段时间内最后一个能自由下载、微调、部署的 Meta 开放权重模型
对开源社区来说，Scout 的权重将成为重要的基础设施

3. MoE 架构的进一步验证

17B 激活参数实现 10M 上下文 + 可用的推理性能，再次验证了 MoE 架构在长上下文场景中的优势：

稠密模型处理 10M 上下文的 KV Cache 成本极高
MoE 的稀疏激活特性使得即使超长上下文，推理成本也可控
这可能是未来长上下文模型的标准架构

适用场景分析

场景	Scout 适配度	说明
长文档分析	⭐⭐⭐⭐⭐	10M 上下文直接覆盖整本书
代码库理解	⭐⭐⭐⭐⭐	大型项目一次性输入，无需分块
RAG 检索增强	⭐⭐⭐⭐	长上下文减少了对检索的依赖
日常对话	⭐⭐⭐	能力可能不如旗舰模型
复杂推理	⭐⭐⭐	MoE 在推理任务上可能不如稠密大模型
编码任务	⭐⭐⭐⭐	17B 激活参数对于编码任务足够

行动建议

谁应该关注

长文档处理需求：法律、金融、学术领域的文档分析
代码库理解：需要将整个项目上下文输入给模型的场景
成本控制团队：需要大规模处理文本但预算有限
开源模型依赖者：需要开放权重进行微调或私有部署

如何上手

# 通过聚合器 API 调用（OpenAI 兼容格式）
curl https://api.together.ai/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "meta-llama/Llama-4-Scout",
    "messages": [{"role": "user", "content": "分析这份 200 页的法律合同..."}],
    "max_tokens": 4096
  }'

# 本地部署（需要足够显存）
# 17B 激活参数的 MoE，BF16 约需 ~200GB 显存
# INT4 量化后可降至 ~50GB

Hugging Face: huggingface.co/meta-llama
聚合器: Together AI、Groq、OpenRouter 等
API 兼容: OpenAI 格式，一个 key 通过聚合器访问

注意事项

作为 MoE 模型，某些推理密集型任务可能不如稠密模型
17B 激活参数在复杂推理场景可能不如更大激活参数的模型
本地部署需要足够的显存（建议 B200 或多卡 A100）
由于是最后的开放权重版本，社区支持可能会长期存在，但新更新不确定