EL-Attention: Memory Efficient Lossless Attention for Generation
论文地址:
整体思路以及计算方式
思路非常简单,降低infercence时间复杂度:
输入:
时间复杂度
不考虑。
训练以及loss
不考虑。
代码
实验以及适用场景
主要是用于inference,可以提升不少速度。
细节
暂无。
简评
非常好的思路,感觉可以尝试在training上。
PreviousValue-aware Approximate AttentionNextFlowformer: Linearizing Transformers with Conservation Flows
Last updated