Structured Prompting: Scaling In-Context Learning to 1,000 Examples

论文地址:

整体思路以及计算方式

提供了一个让LM处理更长序列的思路,图示如下:

步骤:

  • 将输入拆成MM组,组内位置编码右对齐,统一为pn,pn1,p_{n}, p_{n-1},\ldots,输入的位置编码为pn+1p_{n+1}

  • 组内做attention,得到MM组向量yZi\mathbf y_{\mathcal Z_i}Zi={1+j<iNj,,jiNj}\mathcal Z_i =\{1+\sum_{j<i} N_j,\ldots,\sum_{j\le i}N_j \}

  • 将输入x\mathbf x作为query,x,yZ1,,yZM\mathbf x, \mathbf y_{\mathcal Z_1}, \ldots, \mathbf y_{\mathcal Z_M}作为key, value做attention得到最终结果;

    • 注意x\mathbf xx\mathbf x的attention score加强了MM倍;

代码

简评

还可以的思路,不过细节得看代码。

Last updated