论文地址:
https://arxiv.org/pdf/2212.10947.pdfarrow-up-right
提供了一个让LM处理更长序列的思路,图示如下:
首先假设输入分为context window和task token。假设最大训练长度为NNN,task token的序列长度为TTT,那么context window的序列长度不能超过C=N−TC=N-TC=N−T,后续计算时,context window内部做self attention, task token和全部context window做cross attention(概念上,不准确的描述),和自身做self attention。另一方面context window中使用前CCC个位置编码,task token使用C+1∼NC+1\sim NC+1∼N个位置编码。
https://github.com/ai21labs/parallel-context-windowsarrow-up-right
还不错的思路,唯一的问题是task token计算attention时的序列长度长于NNN,可能有泛化性的问题。
Last updated 2 years ago