数学符号

这里统一规定笔记中的数学记号。

基本符号

  1. 向量用小写mathbf字体表示:xRd\mathbf x \in \mathbb R^d(所有向量均为列向量,即xRd×1\mathbf x \in \mathbb R^{d\times 1});

  2. 矩阵用大写mathbf字体表示,XRn×d\mathbf X\in \mathbb R^{n\times d}

    X=[x1xn]Rn×d;\begin{aligned} \mathbf X&= \left[ \begin{matrix} \mathbf x_1^{\top} \\ \vdots \\ \mathbf x_n^{\top} \end{matrix} \right]\in \mathbb R^{n\times d}; \end{aligned}
  3. xi\mathbf x_i表示矩阵X\mathbf X的第ii行的转置;

  4. 标量用常规字体表示α,β\alpha, \beta

  5. 默认用nn表示序列长度,dd表示嵌入维度,bb表示batch size;

  6. Score Matrix:S=QK\mathbf S=\mathbf Q \mathbf K^{\top}

  7. Attention Matrix:A=f(S)\mathbf A = f(\mathbf S)

    • 一般场景下f=Softmaxf=\mathrm{Softmax},但是也可以有别的选择;

  8. 一些常用算子符号:

    • Softmax(X,d=1):Rn×dRn×d\mathrm{Softmax}(\mathbf X,d=-1): \mathbb R^{n\times d}\to \mathbb R^{n\times d}

      • dd为归一化维度,不指定时为最后一维,这里表示映射时没有考虑dd,做个不严格的简化定义;

    • Norm(X,d=1):Rn×dRn×d\mathrm{Norm}(\mathbf X,d=-1): \mathbb R^{n\times d}\to \mathbb R^{n\times d}

      • 各种归一化方式,具体类型使用文字说明,符号中不体现,dd为归一化维度,不指定时为最后一维;

    • MHA(X,Y):Rn×d×Rm×dRn×d\mathrm{MHA}(\mathbf X, \mathbf Y):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}

      • 一种MHA\mathrm {MHA}的接口,最具体来说X\mathbf X对应query,Y\mathbf Y对应key, value;

    • MHA(Q,K,V):Rn×d×Rm×d×Rm×dRn×d\mathrm{MHA}(\mathbf Q, \mathbf K,\mathbf V):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}

      • 另一种MHA\mathrm{MHA}的接口,不常使用;

    • Tran(X,Y):Rn×d×Rm×dRn×d\mathrm{Tran}(\mathbf X, \mathbf Y):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}

      • Transformer的接口;

    • FFN(X):Rn×dRn×d\mathrm {FFN}(\mathbf{X}): \mathbb R^{n\times d} \to \mathbb R^{n\times d}

      • Transformer中FFN层;

  9. Sum(X,d=0):Rn×dRd\mathrm{Sum}(\mathbf X,d=0): \mathbb R^{n\times d} \to \mathbb R^{d}

目前先定义这些,后续再进行补充。

Last updated