Memory-efficient Transformers via Top-k Attention
论文地址:
整体思路以及计算方式
利用两点来减少计算:
利用top-k取每行attention score的前个最大值;
通过chunk的方式减少内存的锋值;
时间复杂度
时间复杂度为,内存峰值为。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景,效果尚可。
细节
暂无。
简评
算是一个工程优化,不过简单优雅。
PreviousLuna: Linear Unified Nested AttentionNextSeparable Self-attention for Mobile Vision Transformers
Last updated