Last updated 1 year ago
论文地址:
https://arxiv.org/abs/1912.11637
对Score Matrix S=QK⊤\mathbf S=\mathbf Q \mathbf K^{\top}S=QK⊤增加阈值操作,小于阈值直接设置为−∞-\infty−∞,达到稀疏的效果。
朴素的实现依然是O(n2d)O(n^2d)O(n2d),利用cuda可能可以提速。
不变。
https://github.com/lancopku/Explicit-Sparse-Transformer
该方法适用于所有场景。
朴素的实现应该无法提速。
暂无。