Do Transformers Need Deep Long-Range Memory

论文地址：

整体思路以及计算方式

之前Transformer中引入Memory的方法在每层中的Memory长度都一样，本文的方式是将Memory分为Long和Short，减少了一定的内存和计算开销，同时保证效果不会差太多。

备注，引入Memory的方式：

时间复杂度为 $O(n (n+m)d)$ 。

不变。

暂无，但实现起来也很简单。

适用于Encoder，Decoder；论文里测试了lm，short/long memory结合的效果和全是long memory的效果相当。

short/long memory结合使用的方式有3种：

总体感觉一般，因为还是拿参数量换性能的方式。

Last updated 3 years ago