Sparse Factorization of Large Square Matrices
论文地址:
整体思路以及计算方式
利用多个稀疏矩阵近似方阵:
每个稀疏矩阵的pattern由Chord protocol协议人为指定。
图示:
时间复杂度
不太好计算,涉及稀疏矩阵乘法。
训练以及loss
不变。
代码
实验以及适用场景
方法是普适的,实验比较简单,效果尚可。
细节
暂无。
简评
指定稀疏形式的动机不明确,LRA代码部分值得参考。
PreviousScatterbrain: Unifying Sparse and Low-rank Attention ApproximationNextBlockwise Self-Attention for Long Document Understanding
Last updated