MLX-фреймворк Apple становится фактическим стандартом для AI-инференса на Mac. Mac-версия Ollama переключила движок с llama.cpp на MLX, а MLX-VLM — это часть экосистемы,专门负责 VLM.
Что делает MLX-VLM
Python-пакет от Blaizzy с ясной целью: заставить VLM-инференс и файн-тюнинг работать на Mac (Apple Silicon).
Возможности:
- VLM-инференс: загрузить модель, ввести изображение + текст, получить ответ
- Файн-тюнинг: LoRA-файн-тюнинг VLM на Mac
- Мультимодельность: покрывает основные open-source VLM
Почему MLX
MLX — официальный ML-фреймворк Apple, глубоко оптимизированный под унифицированную память Apple Silicon. По сравнению с CPU-инференсом MLX напрямую задействует GPU и Neural Engine.
В марте Ollama переключила свой Mac-движок на MLX. MLX-VLM стал одним из главных выборов для VLM-инференса на Mac.
Ограничения
MLX-VLM работает только на Apple Silicon Mac. Intel Mac, Windows, Linux — нет. Размер модели ограничен памятью Mac — M2 Pro тянет 7B, для более крупных может понадобиться M2/M3 Ultra.
Но для любого, у кого есть хороший Mac и желание поэкспериментировать с мультимодальным AI локально, MLX-VLM — самый гладкий вариант.
Основные источники: