核心结论
Meta 于 4 月底发布 Llama 4 Scout——一个 17B 激活参数 / 109B 总参数的混合专家(MoE)模型,16 个专家路由。关键数字:
- 1000 万 Token 上下文窗口:可直接处理 300 页文档,无需分块
- $0.08/M Token 输入价格:通过聚合器使用 OpenAI 兼容 API
- 开放权重:在 Muse Spark 转向闭源之前,这是最后一个开放的 Meta 模型层级
Llama 4 Scout 的定位非常明确:以极低成本处理超长文档的开源推理引擎。
架构解读
MoE 设计:17B 激活 vs 109B 总参数
| 参数 | 值 | 意义 |
|---|---|---|
| 总参数 | 109B | 模型知识库的”总容量” |
| 激活参数 | 17B | 每次推理实际使用的参数量 |
| 专家数量 | 16 | 路由可选择的子网络数 |
| 路由策略 | Top-2 | 每次激活 2 个专家 |
MoE 架构的精髓在于:模型拥有 109B 参数的知识量,但推理成本只相当于 17B 模型。这意味着你可以用一个中等规模的 GPU(或云 API 的低价格)获得接近 100B 密集模型的能力。
上下文窗口:1000 万 Token 意味着什么
| 文档类型 | 约需 Token 数 | Llama 4 Scout 能否一次处理 |
|---|---|---|
| 短篇论文(10 页) | ~5,000 | ✅ 绰绰有余 |
| 长篇论文(50 页) | ~25,000 | ✅ 绰绰有余 |
| 书籍(300 页) | ~150,000 | ✅ 绰绰有余 |
| 法律合同集(10 份) | ~500,000 | ✅ |
| 整个代码库(中型项目) | ~2,000,000 | ✅ |
| 多本书籍 + 代码库 | ~10,000,000 | ✅ 极限 |
传统方案(如 128K 上下文)需要把文档分块、分别处理、再聚合结果。Llama 4 Scout 的 1000 万上下文意味着一次性喂入,一次性回答,避免了分块带来的信息丢失和推理偏差。
价格对比
| 模型 | 输入价格 ($/M Token) | 上下文窗口 | 架构 | 开放权重 |
|---|---|---|---|---|
| Llama 4 Scout | $0.08 | 10M | MoE 17B/109B | ✅ |
| GPT-5.5 | $2.50 | 1M | 密集(未公开) | ❌ |
| Claude Opus 4.7 | $15.00 | 200K | 密集(未公开) | ❌ |
| Qwen3.6-Plus | $0.40 | 1M | 密集 | ✅ |
| DeepSeek-V4-Flash | $0.14 | 1M | MoE 13B/284B | ✅ |
Llama 4 Scout 的输入价格是所有主流模型中最低的——比 GPT-5.5 便宜 31 倍,比 Claude Opus 4.7 便宜 187 倍。
定位判断:Meta 开源策略的转折点
Llama 4 Scout 的发布有一个重要背景:Meta 正在将前沿模型 Muse Spark 转向闭源。
Meta 模型路线图(推演)
├─ Llama 4 Scout → 开源,最后一批开放权重的中层模型
├─ Muse Spark → 闭源,Meta 的旗舰竞争者
└─ Llama 4 未来版本 → 可能缩小开源范围
这意味着 Llama 4 Scout 可能是最后一批能以合理成本获得 Meta 先进 MoE 架构开放权重的模型。如果你计划在开源模型上做微调或部署,这是一个值得重视的信号。
适用场景分析
最适合的场景
- 长文档问答:法律、金融、医疗领域的长文档分析,不需要分块
- 代码库理解:将整个代码库输入模型进行架构分析和代码审查
- 批量文档处理:一次性处理大量文档的摘要、分类、信息提取
- 成本敏感的推理场景:需要大量调用但对绝对精度要求不高的场景
不太适合的场景
- 需要顶级推理能力的任务:Scout 是 Meta 的”侦察兵”层级,不是旗舰
- 多模态任务:纯文本模型,不支持图像/视频输入
- 极低延迟场景:MoE 路由和 10M 上下文会带来额外延迟
上手指南
通过 API(最快上手)
使用支持 OpenAI 兼容接口的聚合器(如 Together AI、Groq),一个 API Key 即可调用:
from openai import OpenAI
client = OpenAI(
base_url="https://api.together.xyz/v1",
api_key="YOUR_API_KEY"
)
response = client.chat.completions.create(
model="meta-llama/Llama-4-Scout",
messages=[{"role": "user", "content": "分析这份 200 页财报的关键趋势"}],
max_tokens=4096
)
本地部署(需要 GPU)
| 配置 | 最低要求 | 推荐配置 |
|---|---|---|
| GPU 显存 | 24GB(单卡 A10G) | 80GB(单卡 A100/H100) |
| 量化 | INT4 可用 | BF16 全精度 |
| 内存 | 64GB RAM | 128GB RAM |
总结
Llama 4 Scout 不是最强的模型,但它是最务实的模型——以极低成本解决了一个真实痛点:长文档处理需要分块。加上 Meta 开源策略可能收紧的背景,现在是用起来的好时机。
Meta 的开源策略正在从”全面开放”转向”分层开放”。Llama 4 Scout 可能是最后一班车。