Structured Prompting: Scaling In-Context Learning to 1,000 Examples
论文地址:
整体思路以及计算方式
提供了一个让LM处理更长序列的思路,图示如下:
步骤:
将输入拆成组,组内位置编码右对齐,统一为,输入的位置编码为;
组内做attention,得到组向量,;
将输入作为query,作为key, value做attention得到最终结果;
注意和的attention score加强了倍;
代码
简评
还可以的思路,不过细节得看代码。
Last updated