Fast Transformer Decoding: One Write-Head is All You Need
论文地址:
整体思路以及计算方式
只将Query变成多头,Key和Value都是单头,最后的结果是性能接近,显存降低不少。
时间复杂度
不变。
训练以及loss
不变。
代码
暂无,但是原论文有伪代码。
实验以及适用场景
测试了机器翻译和lm,性能如之前所述。
细节
论文也测试了local attention,最后的性能相当。
简评
提速其实不太明显,但是总体来说,值得复现。
Last updated