General-purpose, long-context autoregressive modeling with Perceiver AR

论文地址:

整体思路以及计算方式

基本上同Perceiver,将模型拓展为可以处理单向数据,唯一的区别是将输入拆分为:

  • X=[X1,X2]\mathbf X=[\mathbf X_1,\mathbf X_2]

    • XRn×d\mathbf X \in \mathbb R^{n\times d}

    • X1R(nm)×d\mathbf X_1\in \mathbb R^{(n-m)\times d}

    • X2Rm×d\mathbf X_2\in \mathbb R^{m\times d}

  • Y1=MHA(X2,X1)Rm×d\mathbf Y_1= \mathrm{MHA}(\mathbf X_2, \mathbf X_1)\in \mathbb R^{m\times d}(with mask)

  • O=MHA(Y1,Y1)Rm×d\mathbf O=\mathrm{MHA}(\mathbf Y_1,\mathbf Y_1)\in \mathbb R^{m\times d}(with mask)

其余部分同Perceiver。

代码

简评

是否可以将该方法推广为一种预训练方式?

Last updated