C
ChaoBro

omlx: превращаем Apple Silicon в сервер LLM-инференса из меню macOS

omlx: превращаем Apple Silicon в сервер LLM-инференса из меню macOS

У всех, кто запускает локальные LLM на Mac, есть одна общая боль: загрузка модели медленная, а переключение между моделями — ещё медленнее. Особенно когда нужно одновременно запустить несколько моделей для сравнительного тестирования.

omlx пытается решить эту проблему несколько неортодоксальным способом: использовать SSD как кэш.

Что делает

omlx — сервер LLM-инференса для Apple Silicon на базе фреймворка MLX. Две ключевые функции:

Непрерывный батчинг (Continuous Batching): несколько запросов могут одновременно входить в конвейер инференса — модели не нужно ждать завершения одного запроса перед приёмом следующего. Это напрямую влияет на пропускную способность в многопользовательских сценариях.

SSD-кэширование: веса моделей можно кэшировать на SSD, поэтому переключение между моделями не требует повторной загрузки из диска в память. Для пользователей Mac скорость SSD уступает унифицированной памяти, но значительно быстрее полной перезагрузки.

Весь сервис управляется из строки меню macOS — выбор модели, проверка статуса, настройка параметров, без терминала.

Важные детали

13K звёзд, 1.1K форков, лицензия Apache 2.0. Написан на Python, домашняя страница omlx.ai. Последнее обновление 9 мая, частота поддержки стабильная.

Совместим с OpenAI API, что значит — omlx можно напрямую подключить как локальную OpenAI-совместимую точку входа в Cursor, Claude Code, OpenClaw и другие инструменты. Этот слой совместимости — ключ к практическому использованию локальных инструментов инференса. Иначе пришлось бы писать дополнительные адаптеры.

322 открытых issue для проекта на 13K звёзд — немало. Это означает большую пользовательскую базу, но также то, что некоторые шероховатости ещё не сглажены.

Можно ли использовать?

Если у вас Mac на M-серии чипов и вы хотите запустить локальный инференс для разработки или повседневного использования, omlx — один из более зрелых вариантов в экосистеме сейчас. SSD-кэширование особенно полезно при переключении между моделями — не нужно каждый раз ждать загрузки.

Непрерывный батчинг мало заметен индивидуальным пользователям (обычно только один запрос за раз), но если вы используете Mac для малого сервиса или параллельного тестирования нескольких агентов, эта функция показывает реальную ценность.

Ограничения очевидны: унифицированная память Apple Silicon — это потолок. M2 Max с 96GB уже максимум потребительского уровня, квантованная 70B-модель с трудом помещается, больше — нереально. omlx не делает чудес — просто выжимает максимум эффективности из существующего оборудования.

Отличия от конкурентов

Локальные инструменты инференса на Mac уже существуют — официальный mlx-lm от MLX, Ollama, LM Studio и другие. omlx отличается в двух аспектах:

  1. Управление из строки меню: лёгкий, не занимает окно, всегда виден. Удобнее для повседневных пользователей, чем открытие терминала или отдельного приложения.
  2. SSD-кэширование + непрерывный батчинг: эта комбинация редка в экосистеме Mac. Особенно SSD-кэширование — реальное повышение эффективности для разработчиков с частой потребностью переключения моделей.

Если вы лишь изредка запускаете чат-модель, Ollama может быть проще. Но если вы используете Mac как локальный сервер инференса, omlx стоит попробовать.

Следующая версия выиграет от полноценного Web UI. Текущий подход только через строку меню имеет крутую кривую обучения для новичков.

Связанные статьи:

Основные источники: