Scatterbrain: Unifying Sparse and Low-rank Attention Approximation
论文地址:
整体思路以及计算方式
将Sparse Attention和Kernel Attention并联:
时间复杂度
。
训练以及loss
不变。
代码
实验以及适用场景
略过。
细节
暂无。
简评
思路很简洁,但是新意也比较有限,代码部分可以学习一下。
PreviousExplicit Sparse Transformer: Concentrated Attention Through Explicit SelectionNextSparse Factorization of Large Square Matrices
Last updated