C
ChaoBro

omlx:Apple Silicon を macOS メニューバーから管理する LLM 推論サーバーに

omlx:Apple Silicon を macOS メニューバーから管理する LLM 推論サーバーに

Mac でローカル LLM を走らせている人には共通の悩みがあるだろう:モデルの読み込みが遅い、モデルの切り替えはさらに遅い。特に複数のモデルを同時に走らせて比較テストするとき。

omlx は少し「荒っぽい」方法でこの問題を解決しようとしている:SSD をキャッシュとして使う。

何をするのか

omlx は Apple Silicon 上で動く LLM 推論サーバー、MLX フレームワークベース。2つのコア機能:

連続バッチ処理(Continuous Batching):複数のリクエストが同時に推論パイプラインに入れる。モデルは1つのリクエストが終わるのを待ってから次のリクエストを受ける必要がない。マルチユーザーシナリオでスループットに直接影響する。

SSD キャッシュ:モデルの重みを SSD にキャッシュできる。モデルを切り替えるたびにディスクからメモリに再読み込みする必要がない。Mac ユーザーにとって、SSD の速度はユニファイドメモリには及ばないが、完全な再読み込みよりずっと速い。

サービス全体は macOS メニューバーから管理——モデルの選択、状態の確認、パラメータの調整、ターミナルを開く必要なし。

注目すべき詳細

13K stars、1.1K forks、Apache 2.0 ライセンス。Python 製、ホームページは omlx.ai。最終更新は 5月9日、メンテナンス頻度は安定している。

OpenAI API 互換——つまり omlx を Cursor、Claude Code、OpenClaw などのツールにローカルの OpenAI 互換エンドポイントとして直接接続できる。この互換レイヤーがローカル推論ツールを実際に使えるようにする鍵だ。そうでなければ追加でアダプターを書く必要がある。

13K stars のプロジェクトで 322 件の open issue は少なくない。ユーザー数が多いということだが、同時にいくつかの rough edge がまだ埋められていないということでもある。

使えるか?

M シリーズチップの Mac を持っていて、開発テストや日常利用のためにローカル推論を走らせたいなら、omlx は現在エコシステムで比較的成熟した選択肢の一つだ。SSD キャッシュはマルチモデル切り替えシナリオで威力を発揮する——モデルを切り替えるたびにロードを待つ必要がなくなる。

連続バッチ処理は個人ユーザーにはあまり実感がない(通常リクエストは1つだけ)。だが Mac を小規模サービスやマルチ Agent 並列テストに使っているなら、この機能は本当の価値を発揮する。

制限も明確だ:Apple Silicon のユニファイドメモリが天井。M2 Max 96GB はコンシューマーグレードの上限で、70B パラメータの量子化モデルがやっと。それ以上は現実的ではない。omlx に魔法はない——既存のハードウェア条件の中で効率を限界まで絞り出しているだけだ。

競合との違い

Mac 上のローカル推論ツールはすでに多い——MLX 公式の mlx-lm、Ollama、LM Studio など。omlx の差別化は2点:

  1. メニューバー管理:軽量、ウィンドウを占有しない、常に見える。日常ユーザーにとってターミナルや独立アプリを開くより便利。
  2. SSD キャッシュ + 連続バッチ処理:この組み合わせは Mac エコシステムでは珍しい。特に SSD キャッシュは、頻繁にモデルを切り替える必要がある開発者にとって実質的な効率向上だ。

たまにチャットモデルを走らせるだけなら、Ollama の方がシンプルかもしれない。だが Mac をローカル推論サーバーとして使うなら、omlx は試す価値がある。

次のバージョンで Web UI がきちんと作られれば、体験はより完成するだろう。現状の純メニューバー方式は初心者にとって学習曲線が少し急だ。

関連記事:

主なソース: