核心结论
Meta 正式推出 Llama 4 Scout——17B 激活 / 109B 总参数的 16 专家 MoE 模型,支持 10M Token 超长上下文,输入价格低至 $0.08/M Token。这是 Meta 在 Muse Spark 闭源前的最后一个开放权重模型,意味着如果你错过了 Scout,下次想拿到 Meta 的开放权重模型可能需要等很久。
发生了什么
Llama 4 Scout 核心参数
| 维度 | 规格 |
|---|---|
| 架构 | 16 专家 MoE |
| 总参数 | 109B |
| 激活参数 | 17B |
| 上下文窗口 | 10M Token |
| 输入价格 | $0.08/M Token |
| 开放权重 | ✅(最后开放的一代) |
| API 兼容 | OpenAI 兼容格式 |
关键特性
10M Token 上下文:
- 可以一次性放入 300 页文档,无需分块(chunking)
- 对 RAG、法律文档分析、代码库理解等长上下文场景是质的飞跃
- 对比 GPT-5.5 的 128K 上下文,这是 78 倍的容量差异
极低的输入价格:
- $0.08/M Token 的输入价格,比大多数竞品便宜一个数量级
- 对于需要处理大量上下文的任务(文档分析、代码审查),成本优势显著
- 17B 激活参数的 MoE 架构使得推理成本天然低于稠密模型
最后的开放权重:
- Meta Muse Spark 已转向闭源路线
- Llama 4 Scout 是开放权重生态中最后一个 Meta 模型
- 这意味着社区将长期围绕 Scout 构建工具链和优化方案
为什么重要
1. 长上下文战场的价格战
Llama 4 Scout 的 10M Token 上下文 + $0.08/M 输入价格,直接挑战了长上下文市场的定价逻辑:
| 模型 | 上下文 | 输入价格 ($/M) | 架构 |
|---|---|---|---|
| Llama 4 Scout | 10M | $0.08 | 16 专家 MoE |
| GPT-5.5 | 128K | $15-30 | 稠密 |
| Claude Opus 4.7 | 200K | $15 | 稠密 |
| Gemini 3.1 Pro | 1M | $3.50 | MoE |
| DeepSeek V4 | 1M | $0.14-0.55 | MoE |
Scout 的输入价格比 GPT-5.5 便宜 187-375 倍,上下文窗口大 78 倍。虽然模型能力不一定全面对标旗舰模型,但在特定场景(长文档处理、代码库分析)中,Scout 可能是性价比最优解。
2. 开放权重的最后窗口
Meta 的战略转变(Muse Spark 闭源)意味着:
- Llama 系列从「持续开放」转向「分层开放」
- Scout 可能是未来一段时间内最后一个能自由下载、微调、部署的 Meta 开放权重模型
- 对开源社区来说,Scout 的权重将成为重要的基础设施
3. MoE 架构的进一步验证
17B 激活参数实现 10M 上下文 + 可用的推理性能,再次验证了 MoE 架构在长上下文场景中的优势:
- 稠密模型处理 10M 上下文的 KV Cache 成本极高
- MoE 的稀疏激活特性使得即使超长上下文,推理成本也可控
- 这可能是未来长上下文模型的标准架构
适用场景分析
| 场景 | Scout 适配度 | 说明 |
|---|---|---|
| 长文档分析 | ⭐⭐⭐⭐⭐ | 10M 上下文直接覆盖整本书 |
| 代码库理解 | ⭐⭐⭐⭐⭐ | 大型项目一次性输入,无需分块 |
| RAG 检索增强 | ⭐⭐⭐⭐ | 长上下文减少了对检索的依赖 |
| 日常对话 | ⭐⭐⭐ | 能力可能不如旗舰模型 |
| 复杂推理 | ⭐⭐⭐ | MoE 在推理任务上可能不如稠密大模型 |
| 编码任务 | ⭐⭐⭐⭐ | 17B 激活参数对于编码任务足够 |
行动建议
谁应该关注
- 长文档处理需求:法律、金融、学术领域的文档分析
- 代码库理解:需要将整个项目上下文输入给模型的场景
- 成本控制团队:需要大规模处理文本但预算有限
- 开源模型依赖者:需要开放权重进行微调或私有部署
如何上手
# 通过聚合器 API 调用(OpenAI 兼容格式)
curl https://api.together.ai/v1/chat/completions \
-H "Authorization: Bearer $API_KEY" \
-d '{
"model": "meta-llama/Llama-4-Scout",
"messages": [{"role": "user", "content": "分析这份 200 页的法律合同..."}],
"max_tokens": 4096
}'
# 本地部署(需要足够显存)
# 17B 激活参数的 MoE,BF16 约需 ~200GB 显存
# INT4 量化后可降至 ~50GB
- Hugging Face:
huggingface.co/meta-llama - 聚合器: Together AI、Groq、OpenRouter 等
- API 兼容: OpenAI 格式,一个 key 通过聚合器访问
注意事项
- 作为 MoE 模型,某些推理密集型任务可能不如稠密模型
- 17B 激活参数在复杂推理场景可能不如更大激活参数的模型
- 本地部署需要足够的显存(建议 B200 或多卡 A100)
- 由于是最后的开放权重版本,社区支持可能会长期存在,但新更新不确定