Qwen 团队最新开源了一个不起眼但可能影响深远的底层优化项目——FlashQLA,一组基于 TileLang 构建的高性能线性注意力核(linear attention kernels)。
核心数据
| 指标 | 提升 |
|---|---|
| 前向推理速度 | 2-3× 加速 |
| 反向训练速度 | 2× 加速 |
| 目标硬件 | 消费级 GPU / 个人设备 |
| 适用场景 | Agent AI 端侧部署 |
技术亮点
- Gate-driven 自动 intra-card CP:通过门控机制实现芯片间并行计算,减少手动调优
- 硬件友好的代数优化:针对消费级 GPU 的内存层级做了专门优化
- 基于 TileLang 构建:利用 TileLang 的抽象层,保持跨硬件的可移植性
为什么值得关注
FlashQLA 不是又一个”刷榜”模型。它是纯基础设施层面的优化,直接作用于推理引擎:
- 一旦 CUDA 核集成进 vLLM、llama.cpp、SGLang 等主流推理框架,所有 Qwen 模型的推理成本都将下降 2-3 倍
- 对于端侧 Agent 场景(手机、笔记本、边缘设备),这种加速意味着原本跑不动的模型现在可以跑了
- 线性注意力本身支持无限上下文,配合加速核,长上下文 Agent 在消费硬件上的实用性大幅提升
与同类方案对比
| 方案 | 优化方向 | 加速比 | 适用范围 |
|---|---|---|---|
| FlashQLA | 线性注意力核 | 2-3× | Qwen 系列线性注意力模型 |
| FlashAttention-3 | 标准注意力核 | 1.5-2× | 所有 Transformer |
| TensorRT-LLM | 推理引擎优化 | 1.5-3× | NVIDIA GPU |
FlashQLA 的独特价值在于它针对线性注意力这个特定架构做了深度优化,而线性注意力正是下一代长上下文模型的核心组件。
行动建议
- 端侧 Agent 开发者:等 FlashQLA 集成到 llama.cpp 后,尝试在本地跑 Qwen 3.6 系列
- API 使用者:短期影响不大,长期看 Qwen API 价格可能因成本下降而进一步降低
- 模型训练者:反向加速 2× 意味着同等预算下可以做更多 fine-tuning 实验
主要来源:Qwen GitHub、X/Twitter