Scatterbrain: Unifying Sparse and Low-rank Attention Approximation
PreviousExplicit Sparse Transformer: Concentrated Attention Through Explicit SelectionNextSparse Factorization of Large Square Matrices
Last updated
Last updated
论文地址:
将Sparse Attention和Kernel Attention并联:
。
不变。
略过。
暂无。
思路很简洁,但是新意也比较有限,代码部分可以学习一下。