Value-aware Approximate Attention
论文地址:
整体思路以及计算方式
之前优化Attention的方式都是近似sim(q,k),在这篇工作中,作者指出,应该考虑整体,即近似:
∑i=1nκ(q,ki)∑i=1nκ(q,ki)vi 定义o为vanilla attention的输出:
o=∑i=1nκ(q,ki)∑i=1nκ(q,ki)vi 作者将考虑v的近似方式称为optimal-v-aware-r(OVA)。
对于OVA,作者考虑如下集合:
Cr={o~=i=1∑nβivi:∀iβi≥0,i∑βi=1,∣{βi:βi>0}∣≤r} 作者定义OVA-r为:
argmino~∈Cr∥o−o~∥2 对于r≥d+1情形,根据Carathéodory定理,必然存在o~,使得:
对于r=1,那么:
o~=ok,k=argimin∥o−vi∥2 另一方面,定义:
attκ,S=∑i∈Sκ(q,ki)∑i∈Sκ(q,ki)viS⊆{1,…,n},∣S∣≪n 对于这种方法,作者称其为optimal-v-oblivious-r(OVO)。
定义OVO-r为:
S={a1,a2,…,ar∣κ(q,ka1)≥κ(q,ka2)≥…≥κ(q,kan)} 作者的结论是对于相同的r,OVA-r比OVO-r的效果好。
时间复杂度
不考虑。
训练以及loss
不变。
代码
暂无。
实验以及适用场景
作者主要比较了OVA-r和OVO-r的效果,OVA-r效果更好。
细节
暂无。
简评
思路挺特别的,从整体角度考虑近似;另一方面,根据Carathéodory定理,假设存在最优的线性组合:
o=∑i=1nκ(q,ki)∑i=1nκ(q,ki)vi 那么必然存在:
o~∈Cd+1={o~=i=1∑nβivi:∀i,βi≥0,i∑βi=1,∣{βi:βi>0}∣≤d+1} 使得:
从这个角度来说,只需要稀疏性注意力,就能捕捉到关键信息。