AMD Halo Box：128GB 共享内存 Mini PC，2000 美元档的本地 AI 推理革命

核心结论

AMD 计划于 2026 年 6 月推出 Halo Box——一款搭载 Ryzen AI MAX+ 395 处理器的 Mini PC，配备 128GB 统一共享内存，支持完整 ROCm 软件栈，定价 $2,000-3,000。这是首个在消费级价格段提供 200B 参数模型本地推理能力的产品。

对于厌倦了云端 API 按 token 计费、关注数据隐私的开发者，这是一个值得认真对待的信号。

硬件规格拆解

组件	规格	意义
CPU	Ryzen AI MAX+ 395 (16 Zen 5 核心)	通用计算能力强
GPU	40 RDNA 3.5 计算单元	GPU 推理核心
NPU	XDNA 2 (16 TOPS)	低功耗常驻 AI 任务
内存	128GB 统一共享	CPU/GPU/NPU 共享，零拷贝
ROCm	完整支持	兼容 PyTorch、vLLM 等主流框架
价格	$2,000-3,000	消费级定价

关键创新在于统一共享内存。传统 GPU 推理需要将模型从系统内存加载到 GPU 显存，这个过程受限于 PCIe 带宽。而 Halo Box 的 CPU、GPU 和 NPU 共享同一片 128GB 内存池，意味着：

零数据传输开销：模型加载后，所有计算单元直接访问同一份数据
128GB = 可用模型大小：不像独立显存只有 24GB/48GB，128GB 可以容纳 70B-200B 参数的模型（取决于量化精度）
成本优势显著：一块 NVIDIA H100 80GB 的单价就超过 $25,000

能跑什么模型？

以 INT4 量化为例：

模型	量化后大小	Halo Box 可否运行
Llama 3.1 70B	~35GB	✅ 轻松运行
Qwen3.6-35B	~18GB	✅ 绰绰有余
DeepSeek V4 MoE	~70GB	✅ 可运行
Grok-1 314B	~157GB	⚠️ 接近极限
200B 稠密模型	~100GB	✅ 可运行

社区反馈已经有人用 24GB 显存运行 Qwen 3.6 27B/35B 做本地 battle sims，Halo Box 的 128GB 共享内存将把这个能力提升到完全不同的量级。

对标分析：Halo Box vs NVIDIA DGX Spark

维度	AMD Halo Box	NVIDIA DGX Spark
价格	$2,000-3,000	$4,000-5,000+
内存	128GB 统一共享	64GB LPDDR5X
GPU 算力	40 RDNA 3.5 CU	Grace + Orin
软件生态	ROCm (持续改善中)	CUDA (成熟)
目标用户	开发者/爱好者	企业开发者

NVIDIA 的优势在 CUDA 生态的成熟度和稳定性。但 AMD 的 ROCm 在过去一年进步显著，PyTorch 原生支持正在完善。对于不依赖 CUDA 专有优化的工作负载，Halo Box 的性价比优势明显。

格局判断：本地推理的”iPhone 时刻”？

Halo Box 的发布可能标志着本地 AI 推理进入一个新的阶段：

价格门槛打破：$2,000-3,000 意味着个人开发者和小团队都能负担
模型选择自由：不再受限于云端 API 支持的模型，可以运行任何开源权重
数据主权回归：敏感数据完全不出本地，满足合规要求
零边际成本：推理没有按 token 计费，用量越大越划算

Intel 最近也提到 CPU-to-GPU 部署比例正在从 1:8 收紧到 1:4，Agentic Inferencing 场景甚至可能达到 1:1。这意味着未来的 AI 工作负载不会全部集中在 GPU 集群，边缘推理将成为重要补充。

行动建议

你的场景	建议
日常 API 调用成本高	Halo Box 的推理成本趋近于电费，月用量超过 $500 API 费用的团队值得考虑
数据隐私敏感	医疗、金融、法律等行业，本地部署是合规刚需
模型实验/微调	128GB 内存可以做 LoRA 微调，不需要租云端 GPU
已有 NVIDIA 生态	如果深度依赖 CUDA 优化库（如 TensorRT），暂时观望 ROCm 成熟度

上市时间：2026 年 6 月。建议关注 ROCm 对热门开源模型（Qwen、Llama、DeepSeek）的优化进度。

核心结论

硬件规格拆解

能跑什么模型？

对标分析：Halo Box vs NVIDIA DGX Spark

格局判断：本地推理的”iPhone 时刻”？

行动建议

相关内容

JetBrains Air 发布：多Agent 并行开发环境，Codex/Claude/Gemini 统一调度

Anthropic 发布节奏压缩至 59 天：Claude 从 130 天到 59 天，模型迭代进入"季度强制升级"时代

DeepSeek V4 登陆 NVIDIA Blackwell：1.6T MoE 模型推理成本骤降 20 倍