Blockwise Self-Attention for Long Document Understanding
PreviousSparse Factorization of Large Square MatricesNextH-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences
Last updated
Last updated
论文地址:
置换加分块的方式计算Attention:
假设块的大小为,总时间复杂度为。
不变。
暂无。
因为涉及到置换,所以只适用于Decoder。
暂无。
简单有效的想法。