C
ChaoBro

omlx:把 Apple Silicon 变成 LLM 推理服务器的 macOS 菜单栏工具

omlx:把 Apple Silicon 变成 LLM 推理服务器的 macOS 菜单栏工具

用 Mac 跑本地 LLM 的人大概都有一个共同痛点:模型加载慢,切换模型更慢。尤其是当你需要同时跑多个模型做对比测试的时候。

omlx 试图用一种有点"野"的方式解决这个问题:把 SSD 当缓存用。

做了什么

omlx 是一个跑在 Apple Silicon 上的 LLM 推理服务器,基于 MLX 框架。两个核心特性:

连续批处理(Continuous Batching):多个请求可以同时进入推理管线,模型不用等一个请求跑完再接下一个。这在多用户场景下直接影响吞吐量。

SSD 缓存:模型权重可以缓存到 SSD 上,切换模型时不用重新从磁盘加载到内存。对于 Mac 用户来说,SSD 速度虽然不如统一内存,但比完全重新加载还是要快得多。

整个服务从 macOS 菜单栏管理——选模型、看状态、调参数,不用开终端。

值得注意的细节

项目 13K stars,1.1K forks,Apache 2.0 协议。Python 编写,主页 omlx.ai。最近更新在 5 月 9 号,维护频率稳定。

兼容 OpenAI API 格式,这意味着你可以直接把 omxl 当作本地 OpenAI 兼容端点接入 Cursor、Claude Code、OpenClaw 等各种工具。这个兼容层是本地推理工具能被实际用起来的关键——否则你又要额外写适配器。

322 个 open issues 对于 13K stars 的项目来说不算少。说明用户量大,但也意味着有些坑可能还没填完。

能用吗

如果你有一台 M 系列芯片的 Mac,想跑本地推理做开发测试或者日常使用,omlx 是现在生态里比较成熟的选择之一。它的 SSD 缓存在多模型切换场景下优势明显——不用每次换模型都等半天加载。

连续批处理对个人用户感知不强(毕竟通常只有一个请求),但如果你在用 Mac 做小规模服务、或者多 Agent 并行测试,这个特性就能体现价值。

限制也明确:Apple Silicon 的统一内存就是天花板。M2 Max 96GB 已经是消费级顶配,跑 70B 参数的量化模型勉强够,再大就不现实了。omlx 没有魔法,它只是在现有硬件条件下把效率榨到极限。

和竞品的区别

Mac 上的本地推理工具已经有不少——MLX 官方的 mlx-lm、Ollama、LM Studio 等。omlx 的差异化在两个地方:

  1. 菜单栏管理:轻量、不占窗口、随时可见。对日常使用者来说比开个终端或者独立 App 方便。
  2. SSD 缓存 + 连续批处理:这两个特性组合在 Mac 生态里不多见。特别是 SSD 缓存,对于有频繁模型切换需求的开发者是个实打实的效率提升。

如果你只是偶尔跑个聊天模型,Ollama 可能更简单。但如果你把 Mac 当本地推理服务器用,omlx 值得试试。

下一个版本如果能把 Web UI 做好,体验会更完整。目前纯菜单栏的方式对新手来说学习曲线还是有点陡。

相关阅读:

主要来源: