C
ChaoBro

Rapid-MLX:MacでローカルAI推論がOllamaより4.2倍高速、でもOllamaを置き換えられるか

Rapid-MLX:MacでローカルAI推論がOllamaより4.2倍高速、でもOllamaを置き換えられるか

MacでローカルLLMを動かすなら、Ollamaを避けて通るのは難しい。確かに使いやすく、一行コマンドで動き、モデルライブラリも充実している。しかし速度だけ在乎するなら、Ollamaは最適解ではなくなるかもしれない。

Rapid-MLXは最近中国開発者コミュニティで注目を集めている。売りは一つだけ:Apple Silicon上でOllamaより2〜4倍速い。パラメータをちょこちょこ調整した程度の高速化ではなく、Mシリーズチップをアーキテクチャレベルで理解した本格的な最適化だ。

どこが速いのか

Rapid-MLXはApple純正のMLXフレームワークを使用し、ネイティブMetal GPU計算でApple Siliconのユニファイドメモリアーキテクチャを直接活用する。サードパーティの魔改ではなく、正真正銘のApple技術スタック上の実装だ。

実測データを挙げる:

Qwen3.5-9B実行時、Rapid-MLXは108 tok/s、Ollamaは41 tok/sで2.6倍の差。4B_smallモデルでは160 tok/sに達する。

Qwen3.6-27Bのような密モデルは36.5 tok/s、メモリ使用量14.9GBでcodingシナリオを100%サポート。35BのMoE版は92 tok/s、メモリ19GBのみで3.5より12%高速。

DeepSeek V4 FlashもDay-0で対応済み。158B-A13BのMoEアーキテクチャ、1MコンテキストでMac Studio上2-bit量子化で56 tok/s。

速いだけじゃない

速度は入口だが、Rapid-MLXができることは推論だけではない。

OpenAI互換APIを提供しており、既存のコードはほぼ変更不要。Cursor、Claude Code、Aiderなどのツールが直接接続できる。17個のtool parserを内蔵し、ツール呼び出しをネイティブサポート。プロンプトキャッシュもあり、cached TTFTは0.08秒に抑えられている。

一行で起動:

pip install -U rapid-mlx
rapid-mlx serve qwen3.6-27b

またはHomebrewで:

brew install raullenchai/rapid-mlx/rapid-mlx
rapid-mlx serve qwen3.5-4b

起動後、ローカル8000ポートにOpenAI互換APIが立ち上がり、Swagger UIドキュメントも付属。

でもOllamaを捨てるのはまだ早い

速度が速い并不意味着全面的に领先。Rapid-MLX現在の弱点も明確だ。

モデル対応範囲が狭い。Apple Siliconのみ対応。OllamaはMac、Linux、Windowsをサポート。チームにWindows開発者がいればRapid-MLXは即除外。

モデルライブラリの規模差。Ollamaのモデルライブラリはほぼ全ての主要オープンソースモデルをカバー。Rapid-MLXのDay-0対応力は良いが、ロングテールモデルの対応には時間がかかる。

コミュニティエコシステム。Ollamaには庞大なコミュニティ、チュートリアル、統合方案がある。Rapid-MLXは1.9k stars、467コミットで、まだ急速なイテレーション段階。

私の判断:Macでローカル推論を行い、速度とtool calling体験を最も在乎するなら、Rapid-MLXは試す価値がある。特にQwenとDeepSeekシリーズでは、これらのモデルに特化した最適化が施されている。しかしクロスプラットフォーム、多様なモデル、コミュニティエコシステムを必要とするなら、Ollamaの方が安心だ。

両者は排他的ではない。私のワークフローでは、ローカル開発ではRapid-MLXで主力モデルを動かし、テストとコラボレーションではOllamaで互換性を確保している。

今後の観察点

Rapid-MLXの最近のコミット頻度は高く、467コミット、issueエリアも活発。今後数ヶ月でモデル対応範囲とWindows/Linux互換性を強化できれば、「Mac上のより速い選択肢」から「ローカル推論の主流オプション」になれる可能性がある。

次のメジャーリリースで注目する两点:一是SuffixDecoding tier classification frameworkの実装効果、二是tool callingの安定性をもう一段階上げられるかどうか。


主要ソース: