论文地址:
https://arxiv.org/abs/2105.14103arrow-up-right
提出了一种代替Attention的模块,最一般的计算形式为:
该方法和Linear Attention非常接近,不过使用了点乘(求和符号是关于每个特征维度)
时间复杂度为O(nd)O(nd)O(nd),不过由于需要存储ws,tw_{s,t}ws,t,所以会增加O(n2)O(n^2)O(n2)空间复杂度。
不变。
暂无。
实验跑了Encoder和Decoder,效果尚可。
由于点乘的存在,所以不适用于NMT。
非常好的一个思路,之前没有仔细关注,最主要的创新点是增加了ws,tw_{s,t}ws,t,可以增加模型表达能力。
Last updated 2 years ago