Memorizing Transformers
论文地址:
整体思路以及计算方式
通过增加外部内存,在做Attention之前,利用Query从外部内存中找到Top-k的Key, Value,拼接到原始的Key, Value上,后续和传统Attention一致。
代码
简评
和Knn-LM思路类似,不过融合信息的方式略有不同。
Last updated
论文地址:
通过增加外部内存,在做Attention之前,利用Query从外部内存中找到Top-k的Key, Value,拼接到原始的Key, Value上,后续和传统Attention一致。
和Knn-LM思路类似,不过融合信息的方式略有不同。
Last updated