论文地址:
https://arxiv.org/abs/2010.08895arrow-up-right
利用FFT作为token mixer,具体形式为:
对于2维输入X∈Rn×d\mathbf X\in \mathbb R^{n\times d}X∈Rn×d:
其中:
其中F,F−1\mathcal F, \mathcal F^{-1}F,F−1分别为FFT和逆FFT,高维情形为在多个维度做FFT。
O(ndlogn+nd2)O(nd\log n+n d^2)O(ndlogn+nd2)。
不考虑。
https://github.com/zongyi-li/fourier_neural_operatorarrow-up-right
作者主要测试了PDE的实验,对此不太熟悉。
该方法对于lm情形无法高效适配,因为每次FFT的范围不一致。
很好的一个思路,推广的难点是如何处理lm这样的单向模型。
Last updated 2 years ago