M4 Ultra Mac Pro,$7,999 起步。配上 192GB 统一内存,总价逼近 $10,000。
能跑什么?Llama 3.1 70B、Qwen 2.5 72B、Mixtral 8x22B——这些模型的量化版本。推理速度取决于量化精度,4-bit 量化大概 15-20 tok/s,8-bit 大概 8-12 tok/s。
够用吗?对于日常聊天和简单代码生成,够了。对于需要高精度的场景——法律合同分析、医疗问答、金融数据处理——不够。量化损失的不是几个百分点的精度,而是模型在长尾场景下的可靠性。
只算钱的话,API 赢
HN 上有个帖子算了一笔账:$10,000 的 Mac,如果全部花在 OpenRouter 上,能调多少次模型?
按 OpenRouter 目前的价格,Llama 3.1 70B 的输入约 $0.3/百万 token,输出约 $0.5/百万 token。一个中等复杂度的对话大约消耗 5,000 token(输入+输出),成本约 $0.004。$10,000 能调大约 250 万次。
假设一个开发者每天跑 100 次推理(这已经是重度使用了),一年 36,500 次。$10,000 够他用将近 70 年。
纯数学上,本地跑模型的经济账完全说不通。
但账不能只算钱
有三个因素是纯数学算不出来的。
数据隐私。 如果你的工作涉及客户数据、内部代码、商业机密,这些数据能不能发到云端?很多公司的合规部门会直接说不能。在这种情况下,本地推理不是经济选择,是唯一选择。
延迟和离线可用性。 API 有网络延迟,通常 1-3 秒。本地推理可以做到亚秒级。而且本地不依赖网络——在飞机上、在信号差的地方、在断网环境下,你的 AI 工具依然能用。
心理账户。 这是一个行为经济学的概念:当边际成本为零时(模型已经在你的机器上跑着),你使用它的频率会显著提高。而每次调用 API 都有明确的价格标签,这种"每次都在花钱"的心理暗示会抑制探索性使用。
我自己的工作流就是一个例子。自从买了 M2 Max 之后,我在本地跑的推理次数是之前用 API 时的 5 倍。不是因为本地更快或更好,而是因为"反正不要钱"的心理让我更愿意尝试各种 prompt、各种模型、各种场景。
所以该怎么选
如果你在意数据隐私、需要离线使用、或者重度探索性使用——本地跑。
如果你追求最强模型能力、不想管运维、使用量适中——API。
如果你既想要最强模型又想要隐私——那确实是个难题。目前的最优解可能是混合方案:日常探索用本地模型,关键任务用云端最强模型。
但这台 $10,000 的 Mac 到底值不值?如果你是一个每天跟 AI 打交道的开发者,它不只是工具,是工作台。工作台的投入,不能按使用次数来算。
主要来源:
- Hacker News 讨论 — William Angel 的原始分析
- OpenRouter 价格页
- Apple M4 Ultra 技术规格