MacでローカルLLMを動かすなら、Ollamaを避けて通るのは難しい。確かに使いやすく、一行コマンドで動き、モデルライブラリも充実している。しかし速度だけ在乎するなら、Ollamaは最適解ではなくなるかもしれない。
Rapid-MLXは最近中国開発者コミュニティで注目を集めている。売りは一つだけ:Apple Silicon上でOllamaより2〜4倍速い。パラメータをちょこちょこ調整した程度の高速化ではなく、Mシリーズチップをアーキテクチャレベルで理解した本格的な最適化だ。
どこが速いのか
Rapid-MLXはApple純正のMLXフレームワークを使用し、ネイティブMetal GPU計算でApple Siliconのユニファイドメモリアーキテクチャを直接活用する。サードパーティの魔改ではなく、正真正銘のApple技術スタック上の実装だ。
実測データを挙げる:
Qwen3.5-9B実行時、Rapid-MLXは108 tok/s、Ollamaは41 tok/sで2.6倍の差。4B_smallモデルでは160 tok/sに達する。
Qwen3.6-27Bのような密モデルは36.5 tok/s、メモリ使用量14.9GBでcodingシナリオを100%サポート。35BのMoE版は92 tok/s、メモリ19GBのみで3.5より12%高速。
DeepSeek V4 FlashもDay-0で対応済み。158B-A13BのMoEアーキテクチャ、1MコンテキストでMac Studio上2-bit量子化で56 tok/s。
速いだけじゃない
速度は入口だが、Rapid-MLXができることは推論だけではない。
OpenAI互換APIを提供しており、既存のコードはほぼ変更不要。Cursor、Claude Code、Aiderなどのツールが直接接続できる。17個のtool parserを内蔵し、ツール呼び出しをネイティブサポート。プロンプトキャッシュもあり、cached TTFTは0.08秒に抑えられている。
一行で起動:
pip install -U rapid-mlx
rapid-mlx serve qwen3.6-27b
またはHomebrewで:
brew install raullenchai/rapid-mlx/rapid-mlx
rapid-mlx serve qwen3.5-4b
起動後、ローカル8000ポートにOpenAI互換APIが立ち上がり、Swagger UIドキュメントも付属。
でもOllamaを捨てるのはまだ早い
速度が速い并不意味着全面的に领先。Rapid-MLX現在の弱点も明確だ。
モデル対応範囲が狭い。Apple Siliconのみ対応。OllamaはMac、Linux、Windowsをサポート。チームにWindows開発者がいればRapid-MLXは即除外。
モデルライブラリの規模差。Ollamaのモデルライブラリはほぼ全ての主要オープンソースモデルをカバー。Rapid-MLXのDay-0対応力は良いが、ロングテールモデルの対応には時間がかかる。
コミュニティエコシステム。Ollamaには庞大なコミュニティ、チュートリアル、統合方案がある。Rapid-MLXは1.9k stars、467コミットで、まだ急速なイテレーション段階。
私の判断:Macでローカル推論を行い、速度とtool calling体験を最も在乎するなら、Rapid-MLXは試す価値がある。特にQwenとDeepSeekシリーズでは、これらのモデルに特化した最適化が施されている。しかしクロスプラットフォーム、多様なモデル、コミュニティエコシステムを必要とするなら、Ollamaの方が安心だ。
両者は排他的ではない。私のワークフローでは、ローカル開発ではRapid-MLXで主力モデルを動かし、テストとコラボレーションではOllamaで互換性を確保している。
今後の観察点
Rapid-MLXの最近のコミット頻度は高く、467コミット、issueエリアも活発。今後数ヶ月でモデル対応範囲とWindows/Linux互換性を強化できれば、「Mac上のより速い選択肢」から「ローカル推論の主流オプション」になれる可能性がある。
次のメジャーリリースで注目する两点:一是SuffixDecoding tier classification frameworkの実装効果、二是tool callingの安定性をもう一段階上げられるかどうか。
主要ソース: