Last updated 2 years ago
论文地址:
依然是利用了linear attention的方式,只不过这里Q,KQ,KQ,K没有过特征变换ϕ\phiϕ,计算方式如下:
定义:XN(x):=γx∑i=0h∥x∥2\operatorname{XN}(x):=\frac{\gamma x}{\sqrt{\sum_{i=0}^{h}\|x\|^{2}}}XN(x):=∑i=0h∥x∥2γx
Q,K,V=XWQ,XWK,XWV∈Rn×dQ,K, V = XW_Q, XW_K, XW_V \in \mathbb R^{n\times d}Q,K,V=XWQ,XWK,XWV∈Rn×d
Y1=XNaxis=1(Q)Y_1 = \mathrm{XN}_{\mathrm{axis=1}}(Q)Y1=XNaxis=1(Q)
Y2=XNaxis=0(K⊤V)Y_2=\mathrm{XN}_{\mathrm{axis=0}}(K^{\top} V)Y2=XNaxis=0(K⊤V)
O=Y1Y2O=Y_1 Y_2O=Y1Y2
线性时间复杂度,依然是O(nd2)O(nd^2)O(nd2)。
不变。
非官方实现:
适用于Encoder,Decoder,效果还行,不过感觉可能是由于在Attention和FFN之间加了卷积层的原因。
暂无。
个人感觉如果不加上卷积层,效果不会太好。