数学符号
这里统一规定笔记中的数学记号。
基本符号
向量用小写mathbf字体表示:x∈Rd(所有向量均为列向量,即x∈Rd×1);
矩阵用大写mathbf字体表示,X∈Rn×d:
X=x1⊤⋮xn⊤∈Rn×d;xi表示矩阵X的第i行的转置;
标量用常规字体表示α,β;
默认用n表示序列长度,d表示嵌入维度,b表示batch size;
Score Matrix:S=QK⊤;
Attention Matrix:A=f(S);
一般场景下f=Softmax,但是也可以有别的选择;
一些常用算子符号:
Softmax(X,d=−1):Rn×d→Rn×d:
d为归一化维度,不指定时为最后一维,这里表示映射时没有考虑d,做个不严格的简化定义;
Norm(X,d=−1):Rn×d→Rn×d:
各种归一化方式,具体类型使用文字说明,符号中不体现,d为归一化维度,不指定时为最后一维;
MHA(X,Y):Rn×d×Rm×d→Rn×d:
一种MHA的接口,最具体来说X对应query,Y对应key, value;
MHA(Q,K,V):Rn×d×Rm×d×Rm×d→Rn×d:
另一种MHA的接口,不常使用;
Tran(X,Y):Rn×d×Rm×d→Rn×d
Transformer的接口;
FFN(X):Rn×d→Rn×d:
Transformer中FFN层;
Sum(X,d=0):Rn×d→Rd
目前先定义这些,后续再进行补充。
Last updated