Last updated 2 years ago
论文地址:
参考资料:
对于2维输入X∈Rn×d\mathbf X\in \mathbb R^{n\times d}X∈Rn×d:
其中:
其中F,F−1\mathcal F, \mathcal F^{-1}F,F−1分别为FFT和逆FFT,高维情形为在多个维度做FFT。
O(ndlogn+nd)O(nd\log n+n d)O(ndlogn+nd)。
不变。
论文测试了Encoder情形,效果还可以。
W\mathbf WW和序列长度有关;该方法依然不适配于Decoder情形。
很自然的思路。