Block-Recurrent Transformers
PreviousGMAT Global Memory Augmentation for TransformersNextAugmenting Self-attention with Persistent Memory
Last updated
Last updated
论文地址:
利用Memory的方式增加Transformer的性能,利用窗口的方式降低计算复杂度,对Memory部分使用递归的方式更新。
计算方式:
输入:;
表示Memory;
输出部分更新方式:
Memory部分更新方式:
备注,这里省略了ffn部分,其中的ffn为rnn。
整体结构:
不变。
论文测试了lm,效果还不错。
暂无。
依然是一个空间换性能的方法。
。