Why self-attention is Natural for Sequence-to-Sequence Problems? A Perspective from Symmetries
论文地址:
简评
文章先把Self Attention的置换不变性()推广为正交不变性(从置换矩阵推广为正交矩阵),然后证明其形式为:
接着推广到一般的Attention,即,作者证明其形式可以表达为:
那么就和Attention的形式非常类似。
Last updated
论文地址:
文章先把Self Attention的置换不变性()推广为正交不变性(从置换矩阵推广为正交矩阵),然后证明其形式为:
接着推广到一般的Attention,即,作者证明其形式可以表达为:
那么就和Attention的形式非常类似。
Last updated