苹果的 MLX 框架正在变成 Mac 端 AI 推理的事实标准。Ollama 的 Mac 版底层已经从 llama.cpp 切换到 MLX,而 MLX-VLM 是这个生态里专门负责视觉语言模型的那一块。
MLX-VLM 做什么
它是 Blaizzy 维护的一个 Python 包,目标很明确:让 Mac(Apple Silicon)上的视觉语言模型推理和微调跑起来。
支持的能力:
- VLM 推理:加载视觉语言模型,输入图片+文字 prompt,输出回答
- 模型微调:在 Mac 上对 VLM 做 LoRA 微调
- 多模型支持:覆盖主流开源 VLM
为什么是 MLX
MLX 是苹果官方推出的机器学习框架,深度优化了 Apple Silicon 的统一内存架构。对比 CPU 推理,MLX 能直接利用 GPU 和 Neural Engine;对比跨平台方案,MLX 省去了框架适配的开销。
今年 3 月 Ollama 把 Mac 版推理引擎切换到 MLX,等于给这个框架做了官方背书。MLX-VLM 趁势成为了 Mac 端 VLM 推理的首选方案之一。
适用人群
- Mac 开发者:想在本地跑 VLM 做原型验证
- 隐私敏感场景:图片数据不想传到云端
- 离线需求:没有网络也能推理
- 微调爱好者:想用自己的数据微调 VLM,但不想租云 GPU
现实限制
MLX-VLM 只能在 Apple Silicon Mac 上跑。Intel Mac 不行,Windows/Linux 也不行。模型大小受限于你的 Mac 内存——M2 Pro 跑 7B 没问题,更大的模型可能需要 M2/M3 Ultra。
但对于"有一台不错的 Mac,想在本地折腾多模态 AI"的人来说,MLX-VLM 是目前最顺滑的方案。
主要来源: