Transformer Feed-Forward Layers Are Key-Value Memories

论文地址:

参考资料:

整体思路

主要是一篇分析原理的论文,解读FFN的作用,这里不做深入解读,只记录下主要观点。

Key-Value Memory Network的形式如下:

MN(x)=Softmax(xK)V\operatorname{MN}(\mathbf x)=\operatorname{Softmax}\left(\mathbf x \mathbf K^{\top}\right)\mathbf V

Transformer中的FFN形式如下:

FFN(x)=f(xK)V\operatorname{FFN}(\mathbf x)=f\left(\mathbf x \mathbf K^{\top}\right)\mathbf V

可以看到两者非常相似,所以作者猜想FFN是否也有记忆的功能,并通过实验验证了这点。

代码

简评

没有细读,但是加深了对FFN的理解,后续做FFN改进的时候可以做适当参考。

Last updated