Object-Centric Learning with Slot Attention
论文地址:
参考资料:
整体思路以及计算方式
对任务背景没有特别的了解,感觉是一种抽特征的方式,直接讨论计算方式,忽略Normlize相关部分:
X∈RN×d1
S∼N(μ,diag(σ))∈RK×d2(代表Slots)
for t=0,…,T−1:
Sprev=S∈RK×d2
Q=SWq∈RK×d,K=XWk∈RN×d,V=XWv∈RN×d
A=Softmax(QK⊤,dim=0)∈RK×N
U=AV∈RK×d
S=GRU(Sprev,U)∈RK×d2
时间复杂度
MHA的时间复杂度为O(KNd),总时间复杂度为O(TKNd)。
训练以及loss
没有变化。
代码
实验以及适用场景
作者进行的实验比较简单,这里不进行讨论。
细节
略过。
简评
个人理解是一种抽特征的方式,不知道能否适用于NLP任务。