Sakana AI 联合 NVIDIA 发布 TwELL：让 LLM 的"偷懒"真正跑得快

人脑最省能量的做法：想一件事的时候，只点亮需要的神经元。

LLM 其实也在干同样的事——前馈层里超过 95% 的激活值对任何一个 token 来说几乎都是零。但 GPU 硬件偏偏不吃这套：它按密集矩阵设计，你算一个稀疏向量，它也要把整个矩阵过一遍。结果就是，模型"想偷懒"，硬件不让。

Sakana AI 和 NVIDIA 的解法不是改模型，也不是改 GPU——而是改数据格式和内核，让稀疏性贴合硬件。

TwELL 怎么做到的

5 月 8 日，Sakana AI 在博客发布了与 NVIDIA 合作的 ICML2026 论文，核心贡献两个：

TwELL（Tile-wise Efficient Layout for LLMs）：一种新的稀疏数据打包格式。传统的稀疏格式（比如 CSR、BSR）对 GPU 并不友好——内存访问模式跳跃，缓存命中率差。TwELL 把激活值按 tile 重新排列，让连续的内存区域存连续的非零值，GPU 读取的时候不用再"跳格子"。

Fused CUDA 内核：把稀疏矩阵乘法中的多个步骤合并到一个 GPU kernel 里执行，减少中间结果的读写开销。

效果很直接：在大规模推理和训练场景下获得 20% 以上的速度提升，同时保持模型精度不损失。

这不是第一个稀疏优化，但可能是最务实的一个

稀疏加速不是新概念。MoE（Mixture of Experts）已经在做动态稀疏了——每层只激活部分专家。但 MoE 需要改模型架构，训练也得重来。

TwELL 的优势在于它是纯推理侧的优化，不需要动模型权重，不需要重新训练。你有一个现成的 dense transformer，用 TwELL 格式打包一下，换一下 kernel，就能跑。

这对部署团队来说是好消息——不用重新调模型，直接拿收益。

和 Qwen3-Omni 的关系

同一时期，vLLM-Omni v0.20.0 也在做类似的优化：Qwen3-Omni 在 H20 上的吞吐提升了 72%（32 并发下 0.241 → 0.414 req/s）。虽然 vLLM 走的路线不同，但方向一致：把 LLM 推理的每一滴性能榨出来。

当模型参数越来越大、调用量越来越高的时候，推理成本就是生死线。20% 的加速意味着同样硬件能多服务 20% 的请求——这对按 token 计费的商业模型来说，是纯利润。

能不能直接用

论文已经公开，代码应该也会开源（博客提到了 "Paper + code below"）。但 TwELL 目前还是研究型方案，要集成到 vLLM 或 TensorRT-LLM 这样的推理引擎里，还需要工程适配。

如果你在做大规模 LLM 部署，这篇论文值得精读。如果你只是调 API 的用户——不用关心这个，但你可以预期，下一波推理降价的弹药里，有这一份。

主要来源：

TwELL 怎么做到的

这不是第一个稀疏优化，但可能是最务实的一个

和 Qwen3-Omni 的关系

能不能直接用

相关内容

GitHub 本周值得看的开源项目：AI 一键生成原生 PPTX，不是截图是真实幻灯片

9router：一个开源项目把 Claude Code、Cursor 接到 40+ 免费 AI 后端

HKUDS/AI-Trader：让 AI Agent 自己炒股的交易平台，GitHub 日增 189 星