KERPLE Kernelized Relative Positional Embedding for Length Extrapolation
PreviousImprove Transformer Models with Better Relative Position EmbeddingsNextPermuteFormer Efficient Relative Position Encoding for Long Sequences
Last updated
Last updated
论文地址:
本文利用PD kernel来构造相对位置编码,得到了非常好的外推效果(训练长度为512,inference长度为1024),定义这里不再复述,理一下论文思路:
相对位置编码形式:;
CPD kernel可以描述高维空间中的距离,这一点和相对位置编码很像,但是由于无法表述内积,所以和Attention无法兼容;
CPD kernel通过平移可以转换为PD Kernel,即对于CPD kernel ,存在,使得为PD kernel,尽管无法直接给出,但是由于Softmax的平移不变性,可以在计算的时候再使用;
常见的CPD kernel:
实际计算公式:
不变。
不变。
暂无,但是实现起来很简单。
适用于所有场景,论文测了LM,结果是外推性非常好。
暂无。
非常好的想法,将理论和实际结合,这里给出一个小问题:
为什么外推性比较好,没有给出理论或者直觉解释;