核心结论
AMD 计划于 2026 年 6 月推出 Halo Box——一款搭载 Ryzen AI MAX+ 395 处理器的 Mini PC,配备 128GB 统一共享内存,支持完整 ROCm 软件栈,定价 $2,000-3,000。这是首个在消费级价格段提供 200B 参数模型本地推理能力的产品。
对于厌倦了云端 API 按 token 计费、关注数据隐私的开发者,这是一个值得认真对待的信号。
硬件规格拆解
| 组件 | 规格 | 意义 |
|---|---|---|
| CPU | Ryzen AI MAX+ 395 (16 Zen 5 核心) | 通用计算能力强 |
| GPU | 40 RDNA 3.5 计算单元 | GPU 推理核心 |
| NPU | XDNA 2 (16 TOPS) | 低功耗常驻 AI 任务 |
| 内存 | 128GB 统一共享 | CPU/GPU/NPU 共享,零拷贝 |
| ROCm | 完整支持 | 兼容 PyTorch、vLLM 等主流框架 |
| 价格 | $2,000-3,000 | 消费级定价 |
关键创新在于统一共享内存。传统 GPU 推理需要将模型从系统内存加载到 GPU 显存,这个过程受限于 PCIe 带宽。而 Halo Box 的 CPU、GPU 和 NPU 共享同一片 128GB 内存池,意味着:
- 零数据传输开销:模型加载后,所有计算单元直接访问同一份数据
- 128GB = 可用模型大小:不像独立显存只有 24GB/48GB,128GB 可以容纳 70B-200B 参数的模型(取决于量化精度)
- 成本优势显著:一块 NVIDIA H100 80GB 的单价就超过 $25,000
能跑什么模型?
以 INT4 量化为例:
| 模型 | 量化后大小 | Halo Box 可否运行 |
|---|---|---|
| Llama 3.1 70B | ~35GB | ✅ 轻松运行 |
| Qwen3.6-35B | ~18GB | ✅ 绰绰有余 |
| DeepSeek V4 MoE | ~70GB | ✅ 可运行 |
| Grok-1 314B | ~157GB | ⚠️ 接近极限 |
| 200B 稠密模型 | ~100GB | ✅ 可运行 |
社区反馈已经有人用 24GB 显存运行 Qwen 3.6 27B/35B 做本地 battle sims,Halo Box 的 128GB 共享内存将把这个能力提升到完全不同的量级。
对标分析:Halo Box vs NVIDIA DGX Spark
| 维度 | AMD Halo Box | NVIDIA DGX Spark |
|---|---|---|
| 价格 | $2,000-3,000 | $4,000-5,000+ |
| 内存 | 128GB 统一共享 | 64GB LPDDR5X |
| GPU 算力 | 40 RDNA 3.5 CU | Grace + Orin |
| 软件生态 | ROCm (持续改善中) | CUDA (成熟) |
| 目标用户 | 开发者/爱好者 | 企业开发者 |
NVIDIA 的优势在 CUDA 生态的成熟度和稳定性。但 AMD 的 ROCm 在过去一年进步显著,PyTorch 原生支持正在完善。对于不依赖 CUDA 专有优化的工作负载,Halo Box 的性价比优势明显。
格局判断:本地推理的”iPhone 时刻”?
Halo Box 的发布可能标志着本地 AI 推理进入一个新的阶段:
- 价格门槛打破:$2,000-3,000 意味着个人开发者和小团队都能负担
- 模型选择自由:不再受限于云端 API 支持的模型,可以运行任何开源权重
- 数据主权回归:敏感数据完全不出本地,满足合规要求
- 零边际成本:推理没有按 token 计费,用量越大越划算
Intel 最近也提到 CPU-to-GPU 部署比例正在从 1:8 收紧到 1:4,Agentic Inferencing 场景甚至可能达到 1:1。这意味着未来的 AI 工作负载不会全部集中在 GPU 集群,边缘推理将成为重要补充。
行动建议
| 你的场景 | 建议 |
|---|---|
| 日常 API 调用成本高 | Halo Box 的推理成本趋近于电费,月用量超过 $500 API 费用的团队值得考虑 |
| 数据隐私敏感 | 医疗、金融、法律等行业,本地部署是合规刚需 |
| 模型实验/微调 | 128GB 内存可以做 LoRA 微调,不需要租云端 GPU |
| 已有 NVIDIA 生态 | 如果深度依赖 CUDA 优化库(如 TensorRT),暂时观望 ROCm 成熟度 |
上市时间:2026 年 6 月。建议关注 ROCm 对热门开源模型(Qwen、Llama、DeepSeek)的优化进度。