M4 Ultra Mac Pro、$7,999から。192GBユニファイドメモリで合計$10,000に近づく。
何が走る?Llama 3.1 70B、Qwen 2.5 72B、Mixtral 8x22B——これらのモデルの量子化版。推論速度は量子化精度に依存:4-bitで約15-20 tok/s、8-bitで約8-12 tok/s。
十分か?日常のチャットとシンプルなコード生成なら、十分。高精度が必要なシーン——法務契約分析、医療Q&A、金融データ処理——では不十分。量子化が失うのは数パーセントの精度じゃない。ロングテールシナリオでのモデルの信頼性だ。
お金だけ計算すれば、APIの勝ち
HNのある投稿が計算した:$10,000のMac、全部OpenRouterに使ったら、モデルを何回呼び出せる?
OpenRouterの現在の価格で、Llama 3.1 70Bの入力は約$0.3/百万トークン、出力は約$0.5/百万トークン。中程度の複雑さの対話は約5,000トークン(入力+出力)を消費し、コストは約$0.004。$10,000で約250万回呼び出せる。
開発者が毎日100回推論を走らせると仮定すると(これはヘビーユースだ)、年間36,500回。$10,000で約70年持つ。
純粋な数学では、ローカルでモデルを走らせる経済性は全く成立しない。
だがお金だけでは計算できない
純粋な数学では計算できない要素が三つある。
データプライバシー。 顧客データ、内部コード、営業秘密を扱う仕事なら——このデータをクラウドに送れるか?多くの会社のコンプライアンス部門は即座に「ダメ」と言うだろう。この場合、ローカル推論は経済的な選択肢ではなく、唯一の選択肢だ。
レイテンシとオフライン可用性。 APIにはネットワークレイテンシがあり、通常1-3秒。ローカル推論はサブ秒級でできる。そしてローカルはネットワークに依存しない——飛行機の中で、電波の悪い場所で、オフライン環境で、AIツールは依然として使える。
メンタルアカウンティング。 これは行動経済学の概念:限界コストがゼロのとき(モデルはすでにマシン上で動いている)、使用頻度は著しく向上する。APIを呼び出すたびに明確な価格タグがあり、「毎回お金を払っている」という心理的暗示は探索的使用を抑制する。
自分のワークフローが一つの例だ。M2 Maxを買ってから、ローカルでの推論回数はAPIを使っていた時の5倍になった。ローカルの方が速いからでも良いからでもなく、「とにかくタダだ」という心理が、プロンプトやモデルやシナリオを試す意愿を高めたからだ。
だからどう選ぶか
データプライバシーを気にする、オフライン使用が必要、またはヘビーな探索的使用をする——ローカルで走らせる。
最強のモデル能力が欲しい、インフラ管理をしたくない、使用量が適度——APIを使う。
最強のモデルとプライバシーの両方が欲しい——それは確かに難しい問題だ。現在の最適解はおそらくハイブリッド:日常の探索はローカルモデル、重要なタスクはクラウドの最強モデル。
だがこの$10,000のMacは本当に価値があるか?毎日AIと向き合う開発者にとって、これはツールじゃない——作業台だ。作業台への投資は、使用回数では計算できない。
主な情報源:
- Hacker News ディスカッション — William Angelのオリジナル分析
- OpenRouter 価格ページ
- Apple M4 Ultra 技術仕様