omlx：把 Apple Silicon 变成 LLM 推理服务器的 macOS 菜单栏工具

用 Mac 跑本地 LLM 的人大概都有一个共同痛点：模型加载慢，切换模型更慢。尤其是当你需要同时跑多个模型做对比测试的时候。

omlx 试图用一种有点"野"的方式解决这个问题：把 SSD 当缓存用。

做了什么

omlx 是一个跑在 Apple Silicon 上的 LLM 推理服务器，基于 MLX 框架。两个核心特性：

连续批处理（Continuous Batching）：多个请求可以同时进入推理管线，模型不用等一个请求跑完再接下一个。这在多用户场景下直接影响吞吐量。

SSD 缓存：模型权重可以缓存到 SSD 上，切换模型时不用重新从磁盘加载到内存。对于 Mac 用户来说，SSD 速度虽然不如统一内存，但比完全重新加载还是要快得多。

整个服务从 macOS 菜单栏管理——选模型、看状态、调参数，不用开终端。

项目 13K stars，1.1K forks，Apache 2.0 协议。Python 编写，主页 omlx.ai。最近更新在 5 月 9 号，维护频率稳定。

兼容 OpenAI API 格式，这意味着你可以直接把 omxl 当作本地 OpenAI 兼容端点接入 Cursor、Claude Code、OpenClaw 等各种工具。这个兼容层是本地推理工具能被实际用起来的关键——否则你又要额外写适配器。

322 个 open issues 对于 13K stars 的项目来说不算少。说明用户量大，但也意味着有些坑可能还没填完。

如果你有一台 M 系列芯片的 Mac，想跑本地推理做开发测试或者日常使用，omlx 是现在生态里比较成熟的选择之一。它的 SSD 缓存在多模型切换场景下优势明显——不用每次换模型都等半天加载。

连续批处理对个人用户感知不强（毕竟通常只有一个请求），但如果你在用 Mac 做小规模服务、或者多 Agent 并行测试，这个特性就能体现价值。

限制也明确：Apple Silicon 的统一内存就是天花板。M2 Max 96GB 已经是消费级顶配，跑 70B 参数的量化模型勉强够，再大就不现实了。omlx 没有魔法，它只是在现有硬件条件下把效率榨到极限。

Mac 上的本地推理工具已经有不少——MLX 官方的 mlx-lm、Ollama、LM Studio 等。omlx 的差异化在两个地方：

如果你只是偶尔跑个聊天模型，Ollama 可能更简单。但如果你把 Mac 当本地推理服务器用，omlx 值得试试。

下一个版本如果能把 Web UI 做好，体验会更完整。目前纯菜单栏的方式对新手来说学习曲线还是有点陡。