Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting
PreviousChunkFormer: Learning Long Time Series with Multi-stage Chunked TransformerNextFast Transformers with Clustered Attention
Last updated
Last updated
论文地址:
参考资料:
思路很简单,分为两点:
Token mix:每个token和周围几个token进行融合得到,这样做可以明显加速收敛;
Local attention:每个token只和局部token做attention,每层关注的局部位置不同,最后达到全局attention的效果;
不变。
作者测试了时间序列任务,该方法可以推广到其他任务。
暂无。
Token mix的思路非常好,相当于强行让每个token关注周围的信息;Local attention实现较为复杂,只要理解思路即可;