Llama 4 Scout:Meta 最后的开放权重 MoE,10M Token 上下文仅 $0.08/M 输入

Llama 4 Scout:Meta 最后的开放权重 MoE,10M Token 上下文仅 $0.08/M 输入

核心结论

Meta 正式推出 Llama 4 Scout——17B 激活 / 109B 总参数的 16 专家 MoE 模型,支持 10M Token 超长上下文,输入价格低至 $0.08/M Token。这是 Meta 在 Muse Spark 闭源前的最后一个开放权重模型,意味着如果你错过了 Scout,下次想拿到 Meta 的开放权重模型可能需要等很久。

发生了什么

Llama 4 Scout 核心参数

维度规格
架构16 专家 MoE
总参数109B
激活参数17B
上下文窗口10M Token
输入价格$0.08/M Token
开放权重✅(最后开放的一代)
API 兼容OpenAI 兼容格式

关键特性

10M Token 上下文

  • 可以一次性放入 300 页文档,无需分块(chunking)
  • 对 RAG、法律文档分析、代码库理解等长上下文场景是质的飞跃
  • 对比 GPT-5.5 的 128K 上下文,这是 78 倍的容量差异

极低的输入价格

  • $0.08/M Token 的输入价格,比大多数竞品便宜一个数量级
  • 对于需要处理大量上下文的任务(文档分析、代码审查),成本优势显著
  • 17B 激活参数的 MoE 架构使得推理成本天然低于稠密模型

最后的开放权重

  • Meta Muse Spark 已转向闭源路线
  • Llama 4 Scout 是开放权重生态中最后一个 Meta 模型
  • 这意味着社区将长期围绕 Scout 构建工具链和优化方案

为什么重要

1. 长上下文战场的价格战

Llama 4 Scout 的 10M Token 上下文 + $0.08/M 输入价格,直接挑战了长上下文市场的定价逻辑:

模型上下文输入价格 ($/M)架构
Llama 4 Scout10M$0.0816 专家 MoE
GPT-5.5128K$15-30稠密
Claude Opus 4.7200K$15稠密
Gemini 3.1 Pro1M$3.50MoE
DeepSeek V41M$0.14-0.55MoE

Scout 的输入价格比 GPT-5.5 便宜 187-375 倍,上下文窗口大 78 倍。虽然模型能力不一定全面对标旗舰模型,但在特定场景(长文档处理、代码库分析)中,Scout 可能是性价比最优解。

2. 开放权重的最后窗口

Meta 的战略转变(Muse Spark 闭源)意味着:

  • Llama 系列从「持续开放」转向「分层开放」
  • Scout 可能是未来一段时间内最后一个能自由下载、微调、部署的 Meta 开放权重模型
  • 对开源社区来说,Scout 的权重将成为重要的基础设施

3. MoE 架构的进一步验证

17B 激活参数实现 10M 上下文 + 可用的推理性能,再次验证了 MoE 架构在长上下文场景中的优势:

  • 稠密模型处理 10M 上下文的 KV Cache 成本极高
  • MoE 的稀疏激活特性使得即使超长上下文,推理成本也可控
  • 这可能是未来长上下文模型的标准架构

适用场景分析

场景Scout 适配度说明
长文档分析⭐⭐⭐⭐⭐10M 上下文直接覆盖整本书
代码库理解⭐⭐⭐⭐⭐大型项目一次性输入,无需分块
RAG 检索增强⭐⭐⭐⭐长上下文减少了对检索的依赖
日常对话⭐⭐⭐能力可能不如旗舰模型
复杂推理⭐⭐⭐MoE 在推理任务上可能不如稠密大模型
编码任务⭐⭐⭐⭐17B 激活参数对于编码任务足够

行动建议

谁应该关注

  • 长文档处理需求:法律、金融、学术领域的文档分析
  • 代码库理解:需要将整个项目上下文输入给模型的场景
  • 成本控制团队:需要大规模处理文本但预算有限
  • 开源模型依赖者:需要开放权重进行微调或私有部署

如何上手

# 通过聚合器 API 调用(OpenAI 兼容格式)
curl https://api.together.ai/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "meta-llama/Llama-4-Scout",
    "messages": [{"role": "user", "content": "分析这份 200 页的法律合同..."}],
    "max_tokens": 4096
  }'

# 本地部署(需要足够显存)
# 17B 激活参数的 MoE,BF16 约需 ~200GB 显存
# INT4 量化后可降至 ~50GB
  • Hugging Face: huggingface.co/meta-llama
  • 聚合器: Together AI、Groq、OpenRouter 等
  • API 兼容: OpenAI 格式,一个 key 通过聚合器访问

注意事项

  • 作为 MoE 模型,某些推理密集型任务可能不如稠密模型
  • 17B 激活参数在复杂推理场景可能不如更大激活参数的模型
  • 本地部署需要足够的显存(建议 B200 或多卡 A100)
  • 由于是最后的开放权重版本,社区支持可能会长期存在,但新更新不确定