Memorizing Transformers

论文地址:

整体思路以及计算方式

通过增加外部内存,在做Attention之前,利用Query从外部内存中找到Top-k的Key, Value,拼接到原始的Key, Value上,后续和传统Attention一致。

代码

简评

和Knn-LM思路类似,不过融合信息的方式略有不同。

Last updated