Rapid-MLX：在 Mac 上跑本地模型比 Ollama 快 4.2 倍，但它能替代 Ollama 吗

用苹果电脑跑本地大模型的人，大概率绕不开 Ollama。它确实好用，一行命令就能跑起来，模型库也全。但如果你只在意一件事——速度，那 Ollama 可能不是最优解了。

Rapid-MLX 这个项目最近在中文开发者圈子里热度不低。核心卖点就一个：在 Apple Silicon 上，比 Ollama 快 2 到 4 倍。不是微调了几个参数的那种快，是从架构层面吃透了 M 系列芯片。

快在哪里

Rapid-MLX 用的是 Apple 自家的 MLX 框架，原生 Metal GPU 计算，直接利用 Apple Silicon 的统一内存架构。不是第三方魔改，是正牌苹果技术栈上的实现。

实测数据摆出来：

跑 Qwen3.5-9B，Rapid-MLX 能到 108 tok/s，Ollama 是 41 tok/s，差了 2.6 倍。4B 小模型更夸张，能冲到 160 tok/s。

Qwen3.6-27B 这种密集模型，36.5 tok/s，14.9GB 内存占用，100% 支持 coding 场景。35B 的 MoE 版本能到 92 tok/s，只占 19GB，比 3.5 还快 12%。

DeepSeek V4 Flash 也在 Day-0 就上了，158B-A13B 的 MoE 架构，1M 上下文，Mac Studio 上 2-bit 量化跑 56 tok/s。

速度是敲门砖，但 Rapid-MLX 能做的工作不止推理。

它提供 OpenAI 兼容的 API，这意味着你现有的代码基本不用改。Cursor、Claude Code、Aider 这些工具直接对接就行。自带 17 个 tool parser，工具调用原生支持。prompt cache 也有，cached TTFT 压到 0.08 秒。

一行命令启动：

pip install -U rapid-mlx
rapid-mlx serve qwen3.6-27b

或者用 Homebrew：

brew install raullenchai/rapid-mlx/rapid-mlx
rapid-mlx serve qwen3.5-4b

启动后本地 8000 端口就有个 OpenAI 兼容的 API，还自带 Swagger UI 文档。

速度快不等于全面领先。Rapid-MLX 目前的短板也很明显。

模型支持范围窄。它只跑 Apple Silicon，Ollama 支持 Mac、Linux、Windows。你如果团队里有人用 Windows 开发，Rapid-MLX 直接出局。

模型库体量差很多。Ollama 的模型库覆盖了几乎所有主流开源模型，Rapid-MLX 虽然 Day-0 支持能力不错，但长尾模型的支持需要时间跟上。

社区生态。Ollama 有庞大的社区、教程、集成方案。Rapid-MLX 才 1.9k stars，467 个 commits，项目还在快速迭代期。

我的判断：如果你用 Mac 做本地推理，且最关心速度和 tool calling 体验，Rapid-MLX 值得一试。尤其是跑 Qwen 和 DeepSeek 系列，它的优化是专门针对这些模型的。但如果你需要跨平台、模型种类多、或者依赖社区生态——Ollama 还是更稳的选择。

两者不互斥。我自己的工作流里，本地开发用 Rapid-MLX 跑主力模型，测试和协作用 Ollama 保证兼容性。

Rapid-MLX 最近的 commit 频率很高，467 个 commits，issue 区活跃。如果能在接下来几个月把模型支持范围和 Windows/Linux 兼容做起来，它有机会从"Mac 上的更快选择"变成"本地推理的主流选项"。

下一次大版本更新我会在意两件事：一是 SuffixDecoding tier classification framework 的落地效果，二是能不能把 tool calling 的稳定性再往上提一个台阶。

主要来源：