Parallel Context Windows for Large Language Models

论文地址:

整体思路以及计算方式

提供了一个让LM处理更长序列的思路,图示如下:

首先假设输入分为context window和task token。假设最大训练长度为NN,task token的序列长度为TT,那么context window的序列长度不能超过C=NTC=N-T,后续计算时,context window内部做self attention, task token和全部context window做cross attention(概念上,不准确的描述),和自身做self attention。另一方面context window中使用前CC个位置编码,task token使用C+1NC+1\sim N个位置编码。

代码

简评

还不错的思路,唯一的问题是task token计算attention时的序列长度长于NN,可能有泛化性的问题。

Last updated