Simple Hardware-Efficient Long Convolutions for Sequence Modeling
论文地址:
整体思路以及计算方式
第一部分和Tnn类似,不过Toeplitz matrix的系数直接初始化为独立的(2n−1)×d个独立的参数,然后利用如下操作进行平滑:
Kk←(2p+1)−1j=1∑2p+1Kk+j−pK←sign(K)⊙max(∣K∣−λ,0) 第二部分主要是一个快速的FFT算法,这部分可以学习一下。
代码
简评
这篇主要推的应该是一个高效的kernel,关于模型部分,主要说明Toeplitz matrix的系数需要平滑,而这点可以用网络拟合参数得到。