Fast Transformers with Clustered Attention
论文地址:
整体思路以及计算方式
对进行聚类,从而降低时间复杂度。
输入:
聚类矩阵:
聚类方式见论文。
时间复杂度
。
训练以及loss
不变。
代码
实验以及适用场景
作者跑了Encoder实验,Decoder部分需要适配。
细节
暂无。
简评
一个很简洁的思路,不过高效实现需要花一定的功夫,主要是聚类方式部分。
PreviousEnhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series ForecastingNextLong-Short Transformer: Efficient Transformers for Language and Vision
Last updated