论文地址:
https://arxiv.org/abs/2012.14913arrow-up-right
参考资料:
https://jerryzhao.com/post/guan-yu-vanilla-transformer-de-chong-chong-xi-jie/arrow-up-right
https://zhuanlan.zhihu.com/p/459305335arrow-up-right
主要是一篇分析原理的论文,解读FFN的作用,这里不做深入解读,只记录下主要观点。
Key-Value Memory Network的形式如下:
Transformer中的FFN形式如下:
可以看到两者非常相似,所以作者猜想FFN是否也有记忆的功能,并通过实验验证了这点。
https://github.com/mega002/ff-layers/arrow-up-right
没有细读,但是加深了对FFN的理解,后续做FFN改进的时候可以做适当参考。
Last updated 3 years ago