Last updated 2 years ago
论文地址:
利用LocalGlobal的思想降低Attention计算量,并且增加了动态相对位置编码,整体结构如下:
O(ndc)O(ndc)O(ndc),其中ccc为常数。
不变。
论文测试了Encoder常见,在Decoder场景中如何使用需要研究一下。
实现的挺巧妙的,利用Reshape即可,具体可以参考代码部分。
该工作简洁,有效,非常赏心悦目,值得复现。