Parallelizing Legendre Memory Unit Training
论文地址:
整体思路以及计算方式
利用卷积的方式并行化计算LMU,整体思路如下。
首先回顾计算公式:
ut=f1(Uxxt+bu)mt=Amt−1+Butot=f2(Wmmt+Wxxt+bo) 对mt进行展开:
mt=j=1∑tAt−jBuj 记:
HU=[A0BAB…]∈Rd×n=u1u2u1u3u2u1………⋱unun−1un−2⋮u1∈Rn×n 那么:
m1:n=HU 利用傅里叶变换,最后的计算方式为:
m1:n=F−1{F{H}⋅F{U:n}} 时间复杂度
O(ndelogn),其中e为embedding的维度。
代码
实验以及适用场景
略过。
细节
略过。
简评
依然和S4很像。