Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers
论文地址:
参考资料:
整体思路以及计算方式
对于2维输入X∈Rn×d:
Y=reshape(F(X),n,−1,d/k)∈Rn×k×(d/k) 分块矩阵乘法::
Y1Y2=f(YW1)∈Rn×k×(d/k),W1∈Rk×(d/k)×(d/k)=Y1W2∈Rn×k×(d/k),W2∈R(d/k)×(d/k) 输出:
O=F−1(reshape(softshrink(Y2),n,d))∈Rn×d FNO系列的对比图:
时间复杂度
O(ndlogn+nd2/k)
训练以及loss
不变。
代码
实验以及适用场景
适用于Encoder,效果还不错。
细节
softshrink操作的是因为在频域中,能量大多数集中在高频。
简评
这篇论文的写作是非常好的,理清楚了FNO系列的动机,改进;方法本身也值得复现。