Transformer with a Mixture of Gaussian Keys
论文地址:
整体思路以及计算方式
作者对Attention中Softmax部分利用GMM替换,最后达到了相当的效果,这里回顾下技术细节。
全篇文章的出发点是如下假设:
随后作者对上式进行推广,利用GMM可以拟合任意分布,作者假设:
所以:
最后的输出为:
Linear版本:
学习策略:
具体的细节可以参考论文,主要是利用了EM算法。
时间复杂度
训练以及loss
不变。
代码
实验以及适用场景
适用于所有场景,从结果来看提升并不明显。
细节
见代码。
简评
一个很好的思路,但是缺点也比较明显,性能基本没有提升,而且感觉学习的效率会降低。
Last updated