Transformer with a Mixture of Gaussian Keys

论文地址:

整体思路以及计算方式

作者对Attention中Softmax部分利用GMM替换,最后达到了相当的效果,这里回顾下技术细节。

全篇文章的出发点是如下假设:

随后作者对上式进行推广,利用GMM可以拟合任意分布,作者假设:

所以:

最后的输出为:

Linear版本:

学习策略:

具体的细节可以参考论文,主要是利用了EM算法。

时间复杂度

训练以及loss

不变。

代码

实验以及适用场景

适用于所有场景,从结果来看提升并不明显。

细节

见代码。

简评

一个很好的思路,但是缺点也比较明显,性能基本没有提升,而且感觉学习的效率会降低。

Last updated