Qwen 团队开源 FlashQLA：线性注意力核实现 2-3 倍推理加速

2026年4月30日 by ChaoBro

#FlashQLA #Qwen #线性注意力 #TileLang #端侧AI

Qwen 团队开源 FlashQLA：线性注意力核实现 2-3 倍推理加速

Qwen 团队最新开源了一个不起眼但可能影响深远的底层优化项目——FlashQLA，一组基于 TileLang 构建的高性能线性注意力核（linear attention kernels）。

核心数据

指标	提升
前向推理速度	2-3× 加速
反向训练速度	2× 加速
目标硬件	消费级 GPU / 个人设备
适用场景	Agent AI 端侧部署

技术亮点

Gate-driven 自动 intra-card CP：通过门控机制实现芯片间并行计算，减少手动调优
硬件友好的代数优化：针对消费级 GPU 的内存层级做了专门优化
基于 TileLang 构建：利用 TileLang 的抽象层，保持跨硬件的可移植性

为什么值得关注

FlashQLA 不是又一个”刷榜”模型。它是纯基础设施层面的优化，直接作用于推理引擎：

一旦 CUDA 核集成进 vLLM、llama.cpp、SGLang 等主流推理框架，所有 Qwen 模型的推理成本都将下降 2-3 倍
对于端侧 Agent 场景（手机、笔记本、边缘设备），这种加速意味着原本跑不动的模型现在可以跑了
线性注意力本身支持无限上下文，配合加速核，长上下文 Agent 在消费硬件上的实用性大幅提升

与同类方案对比

方案	优化方向	加速比	适用范围
FlashQLA	线性注意力核	2-3×	Qwen 系列线性注意力模型
FlashAttention-3	标准注意力核	1.5-2×	所有 Transformer
TensorRT-LLM	推理引擎优化	1.5-3×	NVIDIA GPU

FlashQLA 的独特价值在于它针对线性注意力这个特定架构做了深度优化，而线性注意力正是下一代长上下文模型的核心组件。

行动建议

端侧 Agent 开发者：等 FlashQLA 集成到 llama.cpp 后，尝试在本地跑 Qwen 3.6 系列
API 使用者：短期影响不大，长期看 Qwen API 价格可能因成本下降而进一步降低
模型训练者：反向加速 2× 意味着同等预算下可以做更多 fine-tuning 实验

主要来源：Qwen GitHub、X/Twitter