C
ChaoBro

Rapid-MLX:在 Mac 上跑本地模型比 Ollama 快 4.2 倍,但它能替代 Ollama 吗

Rapid-MLX:在 Mac 上跑本地模型比 Ollama 快 4.2 倍,但它能替代 Ollama 吗

用苹果电脑跑本地大模型的人,大概率绕不开 Ollama。它确实好用,一行命令就能跑起来,模型库也全。但如果你只在意一件事——速度,那 Ollama 可能不是最优解了。

Rapid-MLX 这个项目最近在中文开发者圈子里热度不低。核心卖点就一个:在 Apple Silicon 上,比 Ollama 快 2 到 4 倍。不是微调了几个参数的那种快,是从架构层面吃透了 M 系列芯片。

快在哪里

Rapid-MLX 用的是 Apple 自家的 MLX 框架,原生 Metal GPU 计算,直接利用 Apple Silicon 的统一内存架构。不是第三方魔改,是正牌苹果技术栈上的实现。

实测数据摆出来:

跑 Qwen3.5-9B,Rapid-MLX 能到 108 tok/s,Ollama 是 41 tok/s,差了 2.6 倍。4B 小模型更夸张,能冲到 160 tok/s。

Qwen3.6-27B 这种密集模型,36.5 tok/s,14.9GB 内存占用,100% 支持 coding 场景。35B 的 MoE 版本能到 92 tok/s,只占 19GB,比 3.5 还快 12%。

DeepSeek V4 Flash 也在 Day-0 就上了,158B-A13B 的 MoE 架构,1M 上下文,Mac Studio 上 2-bit 量化跑 56 tok/s。

不只是快

速度是敲门砖,但 Rapid-MLX 能做的工作不止推理。

它提供 OpenAI 兼容的 API,这意味着你现有的代码基本不用改。Cursor、Claude Code、Aider 这些工具直接对接就行。自带 17 个 tool parser,工具调用原生支持。prompt cache 也有,cached TTFT 压到 0.08 秒。

一行命令启动:

pip install -U rapid-mlx
rapid-mlx serve qwen3.6-27b

或者用 Homebrew:

brew install raullenchai/rapid-mlx/rapid-mlx
rapid-mlx serve qwen3.5-4b

启动后本地 8000 端口就有个 OpenAI 兼容的 API,还自带 Swagger UI 文档。

但别急着扔掉 Ollama

速度快不等于全面领先。Rapid-MLX 目前的短板也很明显。

模型支持范围窄。它只跑 Apple Silicon,Ollama 支持 Mac、Linux、Windows。你如果团队里有人用 Windows 开发,Rapid-MLX 直接出局。

模型库体量差很多。Ollama 的模型库覆盖了几乎所有主流开源模型,Rapid-MLX 虽然 Day-0 支持能力不错,但长尾模型的支持需要时间跟上。

社区生态。Ollama 有庞大的社区、教程、集成方案。Rapid-MLX 才 1.9k stars,467 个 commits,项目还在快速迭代期。

我的判断:如果你用 Mac 做本地推理,且最关心速度和 tool calling 体验,Rapid-MLX 值得一试。尤其是跑 Qwen 和 DeepSeek 系列,它的优化是专门针对这些模型的。但如果你需要跨平台、模型种类多、或者依赖社区生态——Ollama 还是更稳的选择。

两者不互斥。我自己的工作流里,本地开发用 Rapid-MLX 跑主力模型,测试和协作用 Ollama 保证兼容性。

后续观察

Rapid-MLX 最近的 commit 频率很高,467 个 commits,issue 区活跃。如果能在接下来几个月把模型支持范围和 Windows/Linux 兼容做起来,它有机会从"Mac 上的更快选择"变成"本地推理的主流选项"。

下一次大版本更新我会在意两件事:一是 SuffixDecoding tier classification framework 的落地效果,二是能不能把 tool calling 的稳定性再往上提一个台阶。


主要来源: