论文地址:
https://arxiv.org/abs/2110.11945arrow-up-right
参考资料:
https://zhuanlan.zhihu.com/p/427028271arrow-up-right
首先加Attention Matrix的计算方式改写为(忽略常数):
记为:
由于时间复杂度没有降低,其实并无意义,后续的操作是降低时间复杂度。
作者首先假设Q=KQ=KQ=K,那么SSS变成对称矩阵,将其表示为:
根据对称性,可以利用Nystrom分解进行计算:
其中A†A^{\dagger}A†是AAA的Moore-Penrose逆矩阵。
后续的做法是,通过采样的方式得到Q~,K~\tilde Q,\tilde KQ~,K~(降维),然后计算
最后可得:
伪逆可以利用现成的方法计算。
O(mnd)O(mnd)O(mnd),如果mmm较小,可视为线性。
不变。
https://github.com/fudan-zvg/SOFTarrow-up-right
主要实验是CV相关,感觉该方法也可以使用到NLP中。
暂无。
该论文提供了一个视角,QQQ是否可以和KKK相同,在self attention中,似乎对性能不会有损失,这也是后续可以研究的点。
Last updated 2 years ago