H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences
论文地址:
参考资料:
整体思路以及计算方式
利用层次化的方式计算Attention(本质上任然是稀疏的方法),核心思路是只计算如下位置的Attention:
A~(0)∝2222222222222222222222,A~(1)∝222222,A~(2)∝[22] 计算公式为:
Y=AV=Y(0)+P(0)(Y~(1)+P(1)Y~(2))Y(0)=A(0)V(0),Y~(l)=A~(l)V~(l),l=1,2 其中P(i)为预先计算好的矩阵,A(i)的计算方式如下:
A~(i)Q~j(l+1)K~j(l+1)V~j(l+1)Q~(0)=exp(S~(i))=exp(Q~(i)K~(i)⊤)=21(Q~2j(l)+Q~2j+1(l))=21(K~2j(l)+K~2j+1(l))=(V~2j(l)+V~2j+1(l))=Q,K~(0)=K,V~(0)=V 时间复杂度
O(knd)。
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景。
细节
具体实现需要细读代码。
简评
很新颖的思路,可以趁此机会学习Hierarchical Matrix。