Qwen 团队开源 FlashQLA:线性注意力核实现 2-3 倍推理加速

Qwen 团队开源 FlashQLA:线性注意力核实现 2-3 倍推理加速

Qwen 团队最新开源了一个不起眼但可能影响深远的底层优化项目——FlashQLA,一组基于 TileLang 构建的高性能线性注意力核(linear attention kernels)

核心数据

指标提升
前向推理速度2-3× 加速
反向训练速度2× 加速
目标硬件消费级 GPU / 个人设备
适用场景Agent AI 端侧部署

技术亮点

  1. Gate-driven 自动 intra-card CP:通过门控机制实现芯片间并行计算,减少手动调优
  2. 硬件友好的代数优化:针对消费级 GPU 的内存层级做了专门优化
  3. 基于 TileLang 构建:利用 TileLang 的抽象层,保持跨硬件的可移植性

为什么值得关注

FlashQLA 不是又一个”刷榜”模型。它是纯基础设施层面的优化,直接作用于推理引擎:

  • 一旦 CUDA 核集成进 vLLM、llama.cpp、SGLang 等主流推理框架,所有 Qwen 模型的推理成本都将下降 2-3 倍
  • 对于端侧 Agent 场景(手机、笔记本、边缘设备),这种加速意味着原本跑不动的模型现在可以跑了
  • 线性注意力本身支持无限上下文,配合加速核,长上下文 Agent 在消费硬件上的实用性大幅提升

与同类方案对比

方案优化方向加速比适用范围
FlashQLA线性注意力核2-3×Qwen 系列线性注意力模型
FlashAttention-3标准注意力核1.5-2×所有 Transformer
TensorRT-LLM推理引擎优化1.5-3×NVIDIA GPU

FlashQLA 的独特价值在于它针对线性注意力这个特定架构做了深度优化,而线性注意力正是下一代长上下文模型的核心组件。

行动建议

  • 端侧 Agent 开发者:等 FlashQLA 集成到 llama.cpp 后,尝试在本地跑 Qwen 3.6 系列
  • API 使用者:短期影响不大,长期看 Qwen API 价格可能因成本下降而进一步降低
  • 模型训练者:反向加速 2× 意味着同等预算下可以做更多 fine-tuning 实验

主要来源:Qwen GitHub、X/Twitter