1.向量用小写mathbf字体表示:x∈Rd (所有向量均为列向量,即x∈Rd×1 ); 2.矩阵用大写mathbf字体表示,X∈Rn×d : X=⎣⎡x1⊤⋮xn⊤⎦⎤∈Rn×d; 5.默认用表示序列长度,表示嵌入维度,表示batch size; 6.Score Matrix:S=QK⊤ ; 7.Attention Matrix:A=f(S) ; 一般场景下f=Softmax ,但是也可以有别的选择;
8.Softmax(X,d=−1):Rn×d→Rn×d : 为归一化维度,不指定时为最后一维,这里表示映射时没有考虑,做个不严格的简化定义;
Norm(X,d=−1):Rn×d→Rn×d : 各种归一化方式,具体类型使用文字说明,符号中不体现,为归一化维度,不指定时为最后一维;
MHA(X,Y):Rn×d×Rm×d→Rn×d : 一种的接口,最具体来说对应query,对应key, value;
MHA(Q,K,V):Rn×d×Rm×d×Rm×d→Rn×d : Tran(X,Y):Rn×d×Rm×d→Rn×d FFN(X):Rn×d→Rn×d :
9.Sum(X,d=0):Rn×d→Rd