Apple Silicon vs クラウドAPI：ローカルでモデルを動かすのは本当にコスパいいのか、計算したら黙った

M4 Ultra Mac Pro、$7,999から。192GBユニファイドメモリで合計$10,000に近づく。

何が走る？Llama 3.1 70B、Qwen 2.5 72B、Mixtral 8x22B——これらのモデルの量子化版。推論速度は量子化精度に依存：4-bitで約15-20 tok/s、8-bitで約8-12 tok/s。

十分か？日常のチャットとシンプルなコード生成なら、十分。高精度が必要なシーン——法務契約分析、医療Q&A、金融データ処理——では不十分。量子化が失うのは数パーセントの精度じゃない。ロングテールシナリオでのモデルの信頼性だ。

お金だけ計算すれば、APIの勝ち

HNのある投稿が計算した：$10,000のMac、全部OpenRouterに使ったら、モデルを何回呼び出せる？

OpenRouterの現在の価格で、Llama 3.1 70Bの入力は約$0.3/百万トークン、出力は約$0.5/百万トークン。中程度の複雑さの対話は約5,000トークン（入力+出力）を消費し、コストは約$0.004。$10,000で約250万回呼び出せる。

開発者が毎日100回推論を走らせると仮定すると（これはヘビーユースだ）、年間36,500回。$10,000で約70年持つ。

純粋な数学では、ローカルでモデルを走らせる経済性は全く成立しない。

純粋な数学では計算できない要素が三つある。

データプライバシー。 顧客データ、内部コード、営業秘密を扱う仕事なら——このデータをクラウドに送れるか？多くの会社のコンプライアンス部門は即座に「ダメ」と言うだろう。この場合、ローカル推論は経済的な選択肢ではなく、唯一の選択肢だ。

レイテンシとオフライン可用性。 APIにはネットワークレイテンシがあり、通常1-3秒。ローカル推論はサブ秒級でできる。そしてローカルはネットワークに依存しない——飛行機の中で、電波の悪い場所で、オフライン環境で、AIツールは依然として使える。

メンタルアカウンティング。 これは行動経済学の概念：限界コストがゼロのとき（モデルはすでにマシン上で動いている）、使用頻度は著しく向上する。APIを呼び出すたびに明確な価格タグがあり、「毎回お金を払っている」という心理的暗示は探索的使用を抑制する。

自分のワークフローが一つの例だ。M2 Maxを買ってから、ローカルでの推論回数はAPIを使っていた時の5倍になった。ローカルの方が速いからでも良いからでもなく、「とにかくタダだ」という心理が、プロンプトやモデルやシナリオを試す意愿を高めたからだ。

データプライバシーを気にする、オフライン使用が必要、またはヘビーな探索的使用をする——ローカルで走らせる。

最強のモデル能力が欲しい、インフラ管理をしたくない、使用量が適度——APIを使う。

最強のモデルとプライバシーの両方が欲しい——それは確かに難しい問題だ。現在の最適解はおそらくハイブリッド：日常の探索はローカルモデル、重要なタスクはクラウドの最強モデル。

だがこの$10,000のMacは本当に価値があるか？毎日AIと向き合う開発者にとって、これはツールじゃない——作業台だ。作業台への投資は、使用回数では計算できない。

主な情報源：