Compressive Transformers for Long-Range Sequence Modelling
Last updated
Last updated
论文地址:
计算方式:
构造记忆和压缩记忆;
对于输入,将记忆和压缩记忆拼接为整体记忆,得到输出。
记忆的更新方式为:
记忆:
拼接,选择最近的个记忆:
压缩记忆:
对的序列维度降维倍得到
拼接,选择最近的个记忆:
依然是标准Attention的计算方式,所以时间复杂度为。
训练方式一致,loss部分增加了如下部分:
其中表示更新前/后拼接得到的整体记忆,应该是确保训练稳定。
单向双向模型均适用;论文里只测试了lm(单向模型),效果有所提升。
记忆和压缩记忆都不在计算图内,即不使用梯度方式更新。
优点:
适用于单向和双向模型;
引入了记忆机制,提升了性能;
不足:
引入的记忆机制增增加了不少显存,时间复杂度也增加了;
压缩记忆的动机不够清晰;
总结:
是一种时间和空间换性能的方法,不会进行复现;