C
ChaoBro

TideGS:单卡 24GB 显存训练超 10 亿 3D Gaussian,ICML 2026 Spotlight

TideGS:单卡 24GB 显存训练超 10 亿 3D Gaussian,ICML 2026 Spotlight

3D Gaussian Splatting(3DGS)是近几年 3D 重建领域最火的技术路线之一。但它有一个致命瓶颈:显存

每个高斯原语都携带一个很大的属性向量,当原语数量增长到千万级时,参数表就会超出 GPU 容量。此前在消费级单 GPU 硬件上,系统最多只能处理几千万个高斯。

TideGS 这篇被 ICML 2026 接收为 Spotlight 的论文,把天花板直接顶到了 10 亿+——而且只需要一张 24GB 的 GPU。

核心洞察:3DGS 训练天然是稀疏的

团队的出发点很聪明:3DGS 训练本质上是稀疏的、轨迹条件化的

每次迭代只激活从当前相机批次可见的那些高斯。这意味着 GPU 显存不需要作为持久的参数存储器,而是可以充当工作集缓存——只把当前需要的那部分高斯加载进来。

三项协同技术

TideGS 通过 SSD-CPU-GPU 三层存储层级来管理参数:

1. 块虚拟化几何(Block-Virtualized Geometry)

SSD 对齐的空间局部性。把 3D 空间分块组织,确保物理上相邻的高斯在存储上也相邻,减少 I/O 碎片。

2. 分层异步管线

重叠 I/O 和计算。一边在 GPU 上训练当前批次,一边从 SSD 预取下一批需要的高斯数据,两者互不阻塞。

3. 轨迹自适应差分流

只传输迭代间的工作集增量。不是每次都全量加载,而是计算哪些高斯的状态变了,只传输变化的部分。

性能规模

对比数字一目了然:

  • 标准内存内训练:约 1100 万 高斯
  • 此前 out-of-core 基线:约 1 亿 高斯
  • TideGS:超过 10 亿 高斯

在大规模场景上,TideGS 在重建质量上也优于评估过的单 GPU 基线。

为什么值得关注

3D 重建正在从实验室走向实际应用——自动驾驶、数字孪生、AR/VR 都需要处理城市级的大规模场景。TideGS 让单 GPU 就能处理十亿级高斯的训练,大幅降低了大规模 3D 重建的硬件门槛。

论文地址:arXiv:2605.20150