Last updated 2 years ago
论文地址:
基本上同Perceiver,将模型拓展为可以处理单向数据,唯一的区别是将输入拆分为:
X=[X1,X2]\mathbf X=[\mathbf X_1,\mathbf X_2]X=[X1,X2]
X∈Rn×d\mathbf X \in \mathbb R^{n\times d}X∈Rn×d
X1∈R(n−m)×d\mathbf X_1\in \mathbb R^{(n-m)\times d}X1∈R(n−m)×d
X2∈Rm×d\mathbf X_2\in \mathbb R^{m\times d}X2∈Rm×d
Y1=MHA(X2,X1)∈Rm×d\mathbf Y_1= \mathrm{MHA}(\mathbf X_2, \mathbf X_1)\in \mathbb R^{m\times d}Y1=MHA(X2,X1)∈Rm×d(with mask)
O=MHA(Y1,Y1)∈Rm×d\mathbf O=\mathrm{MHA}(\mathbf Y_1,\mathbf Y_1)\in \mathbb R^{m\times d}O=MHA(Y1,Y1)∈Rm×d(with mask)
其余部分同Perceiver。
是否可以将该方法推广为一种预训练方式?