用苹果电脑跑本地大模型的人,大概率绕不开 Ollama。它确实好用,一行命令就能跑起来,模型库也全。但如果你只在意一件事——速度,那 Ollama 可能不是最优解了。
Rapid-MLX 这个项目最近在中文开发者圈子里热度不低。核心卖点就一个:在 Apple Silicon 上,比 Ollama 快 2 到 4 倍。不是微调了几个参数的那种快,是从架构层面吃透了 M 系列芯片。
快在哪里
Rapid-MLX 用的是 Apple 自家的 MLX 框架,原生 Metal GPU 计算,直接利用 Apple Silicon 的统一内存架构。不是第三方魔改,是正牌苹果技术栈上的实现。
实测数据摆出来:
跑 Qwen3.5-9B,Rapid-MLX 能到 108 tok/s,Ollama 是 41 tok/s,差了 2.6 倍。4B 小模型更夸张,能冲到 160 tok/s。
Qwen3.6-27B 这种密集模型,36.5 tok/s,14.9GB 内存占用,100% 支持 coding 场景。35B 的 MoE 版本能到 92 tok/s,只占 19GB,比 3.5 还快 12%。
DeepSeek V4 Flash 也在 Day-0 就上了,158B-A13B 的 MoE 架构,1M 上下文,Mac Studio 上 2-bit 量化跑 56 tok/s。
不只是快
速度是敲门砖,但 Rapid-MLX 能做的工作不止推理。
它提供 OpenAI 兼容的 API,这意味着你现有的代码基本不用改。Cursor、Claude Code、Aider 这些工具直接对接就行。自带 17 个 tool parser,工具调用原生支持。prompt cache 也有,cached TTFT 压到 0.08 秒。
一行命令启动:
pip install -U rapid-mlx
rapid-mlx serve qwen3.6-27b
或者用 Homebrew:
brew install raullenchai/rapid-mlx/rapid-mlx
rapid-mlx serve qwen3.5-4b
启动后本地 8000 端口就有个 OpenAI 兼容的 API,还自带 Swagger UI 文档。
但别急着扔掉 Ollama
速度快不等于全面领先。Rapid-MLX 目前的短板也很明显。
模型支持范围窄。它只跑 Apple Silicon,Ollama 支持 Mac、Linux、Windows。你如果团队里有人用 Windows 开发,Rapid-MLX 直接出局。
模型库体量差很多。Ollama 的模型库覆盖了几乎所有主流开源模型,Rapid-MLX 虽然 Day-0 支持能力不错,但长尾模型的支持需要时间跟上。
社区生态。Ollama 有庞大的社区、教程、集成方案。Rapid-MLX 才 1.9k stars,467 个 commits,项目还在快速迭代期。
我的判断:如果你用 Mac 做本地推理,且最关心速度和 tool calling 体验,Rapid-MLX 值得一试。尤其是跑 Qwen 和 DeepSeek 系列,它的优化是专门针对这些模型的。但如果你需要跨平台、模型种类多、或者依赖社区生态——Ollama 还是更稳的选择。
两者不互斥。我自己的工作流里,本地开发用 Rapid-MLX 跑主力模型,测试和协作用 Ollama 保证兼容性。
后续观察
Rapid-MLX 最近的 commit 频率很高,467 个 commits,issue 区活跃。如果能在接下来几个月把模型支持范围和 Windows/Linux 兼容做起来,它有机会从"Mac 上的更快选择"变成"本地推理的主流选项"。
下一次大版本更新我会在意两件事:一是 SuffixDecoding tier classification framework 的落地效果,二是能不能把 tool calling 的稳定性再往上提一个台阶。
主要来源: