Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection
论文地址:
整体思路以及计算方式
对Score Matrix 增加阈值操作,小于阈值直接设置为,达到稀疏的效果。
时间复杂度
朴素的实现依然是,利用cuda可能可以提速。
训练以及loss
不变。
代码
实验以及适用场景
该方法适用于所有场景。
细节
朴素的实现应该无法提速。
简评
暂无。
Last updated