Poolside Laguna XS.2：33B 参数 MoE 编程模型，Mac 上就能跑的 Agent 级代码智能体

GitHub Trending 和 Hugging Face 双榜热榜出现了一个值得 Agent 开发者关注的项目——Poolside Laguna XS.2。这不是又一个”大参数刷榜”的故事，而是一条截然不同的技术路线：把 Agent 级编程模型塞进一台消费级 Mac。

Laguna XS.2：33B 总参，3B 激活

Laguna XS.2 来自 Poolside（一家专注 AI 编程助手的公司），是一个 33B 总参数 / 3B 激活参数的 MoE 模型。256 个专家 + 1 个共享专家，每次推理只激活约 3B 参数。

关键指标：

维度	Laguna XS.2	对比对象
SWE-bench Verified	68.2%	超过 Gemma 4 31B IT（52.0%）
SWE-bench Multilingual	62.4%	超过 Devstral Small 2（55.7%）
SWE-bench Pro	44.5%	超过 Gemma 4 31B IT（35.7%）
Terminal-Bench 2.0	30.1%	超过 Devstral Small 2（22.5%）

注意这个对比基准——Gemma 4 31B IT 是 Google 的旗舰开源编程模型，Devstral Small 2 是 Mistral 的编程专用模型。Laguna XS.2 在 SWE-bench 系列上全面压制了它们。

架构亮点：滑动窗口注意力 + 混合思考

Laguna XS.2 的架构设计有几个值得关注的工程决策：

滑动窗口注意力（SWA）：40 层中 30 层使用滑动窗口注意力（窗口大小 512 token），只有 10 层使用全局注意力。3:1 的比例通过 sigmoid 门控和逐层旋转缩放实现。这意味着 KV cache 大幅减少——长上下文场景下的内存压力显著降低。

交错式思考（Interleaved Thinking）：模型支持在工具调用之间进行”思考”，而且可以按请求开启或关闭。这解决了编程 Agent 的核心痛点：不是所有步骤都需要深度推理，有时候快速执行比深度思考更高效。

Muon 优化器：训练使用 Muon 优化器——这正是 Kimi 团队开源并被 DeepSeek V4 训练管线采用的优化器。国产开源技术的影响力再次得到印证。

FP8 KV Cache：KV cache 量化到 FP8，进一步降低内存占用。

本地部署：一台 Mac 就够了

这才是 Laguna XS.2 最大的卖点。33B 总参数听起来不小，但因为每次只激活 3B，加上 MoE 架构的稀疏性，36GB RAM 的 Mac（M2/M3 Pro）就能跑起来。

# Ollama 一键部署
ollama run poolside/laguna-xs2

已上架 Ollama，意味着：

不需要 GPU 集群，不需要云服务费
代码数据不出本地，隐私有保障
离线可用，断网环境照样工作

对于一个面向 Agent 的编程模型来说，本地部署意味着你可以把 Laguna XS.2 集成到 Claude Code、OpenClaw、Hermes Agent 等框架中，作为本地代码生成的后端。

训练管线：数据自动混合 + 异步离线 Agent RL

Poolside 在发布博客中透露了训练细节：

预训练阶段：使用代码和自然语言混合语料
后训练阶段：指令微调和偏好优化
强化学习阶段：异步离线 Agent RL（async off-policy agent RL）

特别值得注意的是第三步。Agent RL 直接在 Agent 工作流上进行强化学习，而不是在静态数据集上做 SFT。这意味着模型在训练阶段就”学会”了如何正确使用工具、如何规划多步任务、如何在工具调用之间做思考。

数据自动混合（data automixing）也是一个亮点——不需要人工标注数据配比，模型自动从不同数据源中学习最优混合策略。

与国产模型的对比

把 Laguna XS.2 放在当前国产编程模型的坐标系中看：

模型	激活参数	SWE-bench Verified	部署方式
Laguna XS.2	3B	68.2%	本地 Mac
Qwen3.6-35B-A3B	3B	~65%	本地/云端
DeepSeek V4 Flash	18B	~60%	云端为主
Kimi K2.6	~50B	~70%	云端为主

Laguna XS.2 在 SWE-bench Verified 上与 Qwen3.6-35B-A3B 接近，但后者在中文场景和多模态能力上更有优势。Kimi K2.6 分数最高，但需要云端部署。

差异化定位：Laguna XS.2 的优势不是绝对分数最高，而是在本地可部署的编程模型中分数最高。如果你需要数据不出本地、或者没有云端 API 预算，这是目前最好的选择。

三判断

信号：33B/3B MoE + SWA + 交错思考的组合，在本地编程模型中确实是一流的。SWE-bench Verified 68.2% 的成绩在同尺寸段没有对手。Apache 2.0 许可意味着商用无限制。

增量：Laguna XS.2 不是 Laguna XS.1 的简单迭代。异步离线 Agent RL 训练、交错思考机制、FP8 KV cache——这些都不是小改动，代表了编程模型训练方法论的演进。

噪音：Terminal-Bench 2.0 的 30.1% 分数不算高，说明在终端操作场景下还有改进空间。模型对英文优化较好，中文支持需要验证。目前社区生态还很新，工具链成熟度不如 Qwen 或 DeepSeek。

如何使用

# 方式一：Ollama（推荐）
ollama run poolside/laguna-xs2

# 方式二：vLLM
pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model poolside/Laguna-XS.2 \
    --tensor-parallel-size 1

# 方式三：Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "poolside/Laguna-XS.2",
    device_map="auto",
    torch_dtype="auto"
)
tokenizer = AutoTokenizer.from_pretrained("poolside/Laguna-XS.2")

适合场景：本地代码 Agent 后端、隐私敏感的代码审查、离线编程辅助、教育环境中的 AI 编程教学。

不适合场景：需要中文深度优化、需要多模态理解、需要超大规模并发服务。

总结

Laguna XS.2 代表了一个清晰的趋势：编程模型正在从”云端大模型”走向”本地智能体”。当一台 36GB Mac 就能运行 SWE-bench 68% 的 Agent 级编程模型时，开发者需要重新思考”AI 编程助手”的部署架构。

它不会取代 Qwen 或 DeepSeek——但它给了那些需要本地部署、数据隐私、离线能力的开发者一个真正可用的选项。在开源编程模型的版图上，Laguna XS.2 填上了”本地高性能”这个空白。

来源：poolside/Laguna-XS.2 | Poolside Release Blog

Laguna XS.2：33B 总参，3B 激活

架构亮点：滑动窗口注意力 + 混合思考

本地部署：一台 Mac 就够了

训练管线：数据自动混合 + 异步离线 Agent RL

与国产模型的对比

三判断

如何使用

总结

関連コンテンツ

ViMax：オープンソースのオールインワン動画生成ツール、1つのプロンプトでRunway + ChatGPT + Midjourney + HeyGenを代替

OpenGeoAgent：地理空間分析を自動化するオープンソースマルチモーダルAIエージェント、831スターでGIS界に衝撃

QwenPaw：QwenエコシステムベースのオープンソースパーソナルAIアシスタント、ローカルデプロイとマルチプラットフォーム対応