GitHub Trending 和 Hugging Face 双榜热榜出现了一个值得 Agent 开发者关注的项目——Poolside Laguna XS.2。这不是又一个”大参数刷榜”的故事,而是一条截然不同的技术路线:把 Agent 级编程模型塞进一台消费级 Mac。
Laguna XS.2:33B 总参,3B 激活
Laguna XS.2 来自 Poolside(一家专注 AI 编程助手的公司),是一个 33B 总参数 / 3B 激活参数的 MoE 模型。256 个专家 + 1 个共享专家,每次推理只激活约 3B 参数。
关键指标:
| 维度 | Laguna XS.2 | 对比对象 |
|---|---|---|
| SWE-bench Verified | 68.2% | 超过 Gemma 4 31B IT(52.0%) |
| SWE-bench Multilingual | 62.4% | 超过 Devstral Small 2(55.7%) |
| SWE-bench Pro | 44.5% | 超过 Gemma 4 31B IT(35.7%) |
| Terminal-Bench 2.0 | 30.1% | 超过 Devstral Small 2(22.5%) |
注意这个对比基准——Gemma 4 31B IT 是 Google 的旗舰开源编程模型,Devstral Small 2 是 Mistral 的编程专用模型。Laguna XS.2 在 SWE-bench 系列上全面压制了它们。
架构亮点:滑动窗口注意力 + 混合思考
Laguna XS.2 的架构设计有几个值得关注的工程决策:
滑动窗口注意力(SWA):40 层中 30 层使用滑动窗口注意力(窗口大小 512 token),只有 10 层使用全局注意力。3:1 的比例通过 sigmoid 门控和逐层旋转缩放实现。这意味着 KV cache 大幅减少——长上下文场景下的内存压力显著降低。
交错式思考(Interleaved Thinking):模型支持在工具调用之间进行”思考”,而且可以按请求开启或关闭。这解决了编程 Agent 的核心痛点:不是所有步骤都需要深度推理,有时候快速执行比深度思考更高效。
Muon 优化器:训练使用 Muon 优化器——这正是 Kimi 团队开源并被 DeepSeek V4 训练管线采用的优化器。国产开源技术的影响力再次得到印证。
FP8 KV Cache:KV cache 量化到 FP8,进一步降低内存占用。
本地部署:一台 Mac 就够了
这才是 Laguna XS.2 最大的卖点。33B 总参数听起来不小,但因为每次只激活 3B,加上 MoE 架构的稀疏性,36GB RAM 的 Mac(M2/M3 Pro)就能跑起来。
# Ollama 一键部署
ollama run poolside/laguna-xs2
已上架 Ollama,意味着:
- 不需要 GPU 集群,不需要云服务费
- 代码数据不出本地,隐私有保障
- 离线可用,断网环境照样工作
对于一个面向 Agent 的编程模型来说,本地部署意味着你可以把 Laguna XS.2 集成到 Claude Code、OpenClaw、Hermes Agent 等框架中,作为本地代码生成的后端。
训练管线:数据自动混合 + 异步离线 Agent RL
Poolside 在发布博客中透露了训练细节:
- 预训练阶段:使用代码和自然语言混合语料
- 后训练阶段:指令微调和偏好优化
- 强化学习阶段:异步离线 Agent RL(async off-policy agent RL)
特别值得注意的是第三步。Agent RL 直接在 Agent 工作流上进行强化学习,而不是在静态数据集上做 SFT。这意味着模型在训练阶段就”学会”了如何正确使用工具、如何规划多步任务、如何在工具调用之间做思考。
数据自动混合(data automixing)也是一个亮点——不需要人工标注数据配比,模型自动从不同数据源中学习最优混合策略。
与国产模型的对比
把 Laguna XS.2 放在当前国产编程模型的坐标系中看:
| 模型 | 激活参数 | SWE-bench Verified | 部署方式 |
|---|---|---|---|
| Laguna XS.2 | 3B | 68.2% | 本地 Mac |
| Qwen3.6-35B-A3B | 3B | ~65% | 本地/云端 |
| DeepSeek V4 Flash | 18B | ~60% | 云端为主 |
| Kimi K2.6 | ~50B | ~70% | 云端为主 |
Laguna XS.2 在 SWE-bench Verified 上与 Qwen3.6-35B-A3B 接近,但后者在中文场景和多模态能力上更有优势。Kimi K2.6 分数最高,但需要云端部署。
差异化定位:Laguna XS.2 的优势不是绝对分数最高,而是在本地可部署的编程模型中分数最高。如果你需要数据不出本地、或者没有云端 API 预算,这是目前最好的选择。
三判断
信号:33B/3B MoE + SWA + 交错思考的组合,在本地编程模型中确实是一流的。SWE-bench Verified 68.2% 的成绩在同尺寸段没有对手。Apache 2.0 许可意味着商用无限制。
增量:Laguna XS.2 不是 Laguna XS.1 的简单迭代。异步离线 Agent RL 训练、交错思考机制、FP8 KV cache——这些都不是小改动,代表了编程模型训练方法论的演进。
噪音:Terminal-Bench 2.0 的 30.1% 分数不算高,说明在终端操作场景下还有改进空间。模型对英文优化较好,中文支持需要验证。目前社区生态还很新,工具链成熟度不如 Qwen 或 DeepSeek。
如何使用
# 方式一:Ollama(推荐)
ollama run poolside/laguna-xs2
# 方式二:vLLM
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model poolside/Laguna-XS.2 \
--tensor-parallel-size 1
# 方式三:Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"poolside/Laguna-XS.2",
device_map="auto",
torch_dtype="auto"
)
tokenizer = AutoTokenizer.from_pretrained("poolside/Laguna-XS.2")
适合场景:本地代码 Agent 后端、隐私敏感的代码审查、离线编程辅助、教育环境中的 AI 编程教学。
不适合场景:需要中文深度优化、需要多模态理解、需要超大规模并发服务。
总结
Laguna XS.2 代表了一个清晰的趋势:编程模型正在从”云端大模型”走向”本地智能体”。当一台 36GB Mac 就能运行 SWE-bench 68% 的 Agent 级编程模型时,开发者需要重新思考”AI 编程助手”的部署架构。
它不会取代 Qwen 或 DeepSeek——但它给了那些需要本地部署、数据隐私、离线能力的开发者一个真正可用的选项。在开源编程模型的版图上,Laguna XS.2 填上了”本地高性能”这个空白。