Last updated 2 years ago
论文地址:
提供了一个让LM处理更长序列的思路,图示如下:
步骤:
将输入拆成MMM组,组内位置编码右对齐,统一为pn,pn−1,…p_{n}, p_{n-1},\ldotspn,pn−1,…,输入的位置编码为pn+1p_{n+1}pn+1;
组内做attention,得到MMM组向量yZi\mathbf y_{\mathcal Z_i}yZi,Zi={1+∑j<iNj,…,∑j≤iNj}\mathcal Z_i =\{1+\sum_{j<i} N_j,\ldots,\sum_{j\le i}N_j \}Zi={1+∑j<iNj,…,∑j≤iNj};
将输入x\mathbf xx作为query,x,yZ1,…,yZM\mathbf x, \mathbf y_{\mathcal Z_1}, \ldots, \mathbf y_{\mathcal Z_M}x,yZ1,…,yZM作为key, value做attention得到最终结果;
注意x\mathbf xx和x\mathbf xx的attention score加强了MMM倍;
还可以的思路,不过细节得看代码。