Randomized Positional Encodings Boost Length Generalization of Transformers
PreviousStable, Fast and Accurate: Kernelized Attention with Relative Positional EncodingNextPretrain
Last updated
Last updated
论文地址:
本文是解决外推性的一个方法,思路很简单。lm无法外推到更长的序列是因为有一些位置编码没见过,所以第一步是将位置编码扩容,从扩容到,其中,为训练的最大序列长度。但是扩容后还有一个问题,如果按照正常训练,位置编码最多使用到,要使得更远的位置得到训练,就需要作者提出的Randomized Positional Encoding,其思路为从不放回采样个样本,用这些样本代替。在inerence时需要稍作修改,假设序列长度为,那么采样的集合为。整体图示如下:
不错的思路,可以适当参考。