C
ChaoBro

Rapid-MLX: локальный ИИ на Mac в 4.2 раза быстрее Ollama, но заменит ли он его?

Rapid-MLX: локальный ИИ на Mac в 4.2 раза быстрее Ollama, но заменит ли он его?

Если вы запускаете локальные LLM на Mac, то наверняка слышали об Ollama. Он действительно удобен — одна команда для запуска, полная библиотека моделей. Но если вас волнует только одно — скорость, то Ollama может быть не лучшим выбором.

Rapid-MLX набирает популярность в китайском сообществе разработчиков. Главное преимущество простое: на Apple Silicon он работает в 2-4 раза быстрее Ollama. Не за счёт подкрутки параметров, а благодаря архитектурной оптимизации, которая по-настоящему понимает чипы M-серии.

За счёт чего достигается скорость

Rapid-MLX использует собственный фреймворк Apple MLX с нативными вычислениями на Metal GPU, напрямую задействуя унифицированную архитектуру памяти Apple Silicon. Это не сторонний хак — это реализация на родном технологическом стеке Apple.

Реальные цифры:

При запуске Qwen3.5-9B, Rapid-MLX выдаёт 108 tok/s против 41 tok/s у Ollama — разница в 2.6 раза. На 4B моделях достигает 160 tok/s.

Для плотных моделей вроде Qwen3.6-27B — 36.5 tok/s при потреблении 14.9GB памяти, полная поддержка coding-сценариев. MoE-версия на 35B достигает 92 tok/s, используя всего 19GB, на 12% быстрее версии 3.5.

DeepSeek V4 Flash также поддержан с первого дня — MoE-архитектура 158B-A13B с контекстом 1M работает на 56 tok/s на Mac Studio с 2-битной квантованием.

Не только скорость

Скорость — это входной билет, но Rapid-MLX умеет больше, чем просто вывод.

Он предоставляет API, совместимый с OpenAI, что означает — ваш существующий код практически не требует изменений. Инструменты вроде Cursor, Claude Code и Aider подключаются напрямую. Встроен 17 парсеров инструментов, нативная поддержка вызова инструментов. Есть кэширование промптов, cached TTFT снижен до 0.08 секунд.

Одна команда для запуска:

pip install -U rapid-mlx
rapid-mlx serve qwen3.6-27b

Или через Homebrew:

brew install raullenchai/rapid-mlx/rapid-mlx
rapid-mlx serve qwen3.5-4b

После запуска на порту 8000 доступен OpenAI-совместимый API со встроенной документацией Swagger UI.

Но не спешите выбрасывать Ollama

Высокая скорость не означает полное превосходство. Текущие слабости Rapid-MLX очевидны.

Узкая поддержка моделей. Работает только на Apple Silicon. Ollama поддерживает Mac, Linux и Windows. Если кто-то в вашей команде использует Windows, Rapid-MLX отпадает.

Размер библиотеки моделей. Библиотека Ollama покрывает практически все основные модели с открытым исходным кодом. Day-0 поддержка у Rapid-MLX хороша, но для длинного хвоста моделей потребуется время.

Экосистема сообщества. У Ollama огромное сообщество, туториалы, интеграции. У Rapid-MLX — 1.9k звёзд и 467 коммитов, проект还在快速迭代中.

Моя оценка: если вы используете Mac для локального вывода и больше всего цените скорость и опыт вызова инструментов, Rapid-MLX стоит попробовать. Особенно для моделей Qwen и DeepSeek — оптимизация специально нацелена на них. Но если нужна кроссплатформенность, разнообразие моделей или зависимость от экосистемы — Ollama остаётся более надёжным выбором.

Они не исключают друг друга. В моём рабочем процессе я использую Rapid-MLX для локальной разработки с основными моделями, а Ollama — для тестирования и совместной работы.

Что наблюдать дальше

Частота коммитов Rapid-MLX высокая — 467 коммитов, активный трекер задач. Если в ближайшие месяцы удастся расширить поддержку моделей и добавить совместимость с Windows/Linux, есть реальный шанс перейти от «более быстрой опции на Mac» к «основному варианту локального вывода».

Две вещи, на которые я обращу внимание в следующем крупном релизе: приземление SuffixDecoding tier classification framework и сможет ли стабильность вызова инструментов подняться ещё на уровень.


Основные источники: