Transformer Feed-Forward Layers Are Key-Value Memories
论文地址:
参考资料:
整体思路
主要是一篇分析原理的论文,解读FFN的作用,这里不做深入解读,只记录下主要观点。
Key-Value Memory Network的形式如下:
Transformer中的FFN形式如下:
可以看到两者非常相似,所以作者猜想FFN是否也有记忆的功能,并通过实验验证了这点。
代码
简评
没有细读,但是加深了对FFN的理解,后续做FFN改进的时候可以做适当参考。
Last updated