论文地址:
https://arxiv.org/abs/2203.08913arrow-up-right
通过增加外部内存,在做Attention之前,利用Query从外部内存中找到Top-k的Key, Value,拼接到原始的Key, Value上,后续和传统Attention一致。
https://github.com/lucidrains/memorizing-transformers-pytorcharrow-up-right
和Knn-LM思路类似,不过融合信息的方式略有不同。
Last updated 3 years ago