Transformer-XL Attentive Language Models Beyond a Fixed-Length Context
论文地址:
整体思路以及计算方式
传统的Attention计算,Q,K可以拆成context和pos部分,所以Attention Score的计算可以拆成4项:
Ai,jabs=(a)Exi⊤Wq⊤WkExj+(b)Exi⊤Wq⊤WkUj+(c)Ui⊤Wq⊤WkExj+(d)Ui⊤Wq⊤WkUj Transformer-XL的思路是将(b), (c), (d)项修改:
Ai,jrel=(a)Exi⊤Wq⊤Wk,EExj+(b)Exi⊤Wq⊤Wk,RRi−j+(c)u⊤Wk,EExj+(d)v⊤Wk,RRi−j⋅ 时间复杂度
Attention Matrix的时间复杂度由n2d增加为4n2d,其余部分不变。
训练以及loss
不变。
代码
实验以及适用场景
作者主要测试了LM,不清楚在Encoder中是否有效果。
细节
暂无。
简评
应该是第一篇引入相对位置编码的工作,将Attention Score拆成4项的思路还是挺巧妙的。