数学符号
这里统一规定笔记中的数学记号。

基本符号

  1. 1.
    向量用小写mathbf字体表示:
    xRd\mathbf x \in \mathbb R^d
    (所有向量均为列向量,即
    xRd×1\mathbf x \in \mathbb R^{d\times 1}
    );
  2. 2.
    矩阵用大写mathbf字体表示,
    XRn×d\mathbf X\in \mathbb R^{n\times d}
    X=[x1xn]Rn×d;\begin{aligned} \mathbf X&= \left[ \begin{matrix} \mathbf x_1^{\top} \\ \vdots \\ \mathbf x_n^{\top} \end{matrix} \right]\in \mathbb R^{n\times d}; \end{aligned}
  3. 3.
    xi\mathbf x_i
    表示矩阵
    X\mathbf X
    的第
    ii
    行的转置;
  4. 4.
    标量用常规字体表示
    α,β\alpha, \beta
  5. 5.
    默认用
    nn
    表示序列长度,
    dd
    表示嵌入维度,
    bb
    表示batch size;
  6. 6.
    Score Matrix:
    S=QK\mathbf S=\mathbf Q \mathbf K^{\top}
  7. 7.
    Attention Matrix:
    A=f(S)\mathbf A = f(\mathbf S)
    • 一般场景下
      f=Softmaxf=\mathrm{Softmax}
      ,但是也可以有别的选择;
  8. 8.
    一些常用算子符号:
    • Softmax(X,d=1):Rn×dRn×d\mathrm{Softmax}(\mathbf X,d=-1): \mathbb R^{n\times d}\to \mathbb R^{n\times d}
      • dd
        为归一化维度,不指定时为最后一维,这里表示映射时没有考虑
        dd
        ,做个不严格的简化定义;
    • Norm(X,d=1):Rn×dRn×d\mathrm{Norm}(\mathbf X,d=-1): \mathbb R^{n\times d}\to \mathbb R^{n\times d}
      • 各种归一化方式,具体类型使用文字说明,符号中不体现,
        dd
        为归一化维度,不指定时为最后一维;
    • MHA(X,Y):Rn×d×Rm×dRn×d\mathrm{MHA}(\mathbf X, \mathbf Y):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}
      • 一种
        MHA\mathrm {MHA}
        的接口,最具体来说
        X\mathbf X
        对应query,
        Y\mathbf Y
        对应key, value;
    • MHA(Q,K,V):Rn×d×Rm×d×Rm×dRn×d\mathrm{MHA}(\mathbf Q, \mathbf K,\mathbf V):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}
      • 另一种
        MHA\mathrm{MHA}
        的接口,不常使用;
    • Tran(X,Y):Rn×d×Rm×dRn×d\mathrm{Tran}(\mathbf X, \mathbf Y):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}
      • Transformer的接口;
    • FFN(X):Rn×dRn×d\mathrm {FFN}(\mathbf{X}): \mathbb R^{n\times d} \to \mathbb R^{n\times d}
      • Transformer中FFN层;
  9. 9.
    Sum(X,d=0):Rn×dRd\mathrm{Sum}(\mathbf X,d=0): \mathbb R^{n\times d} \to \mathbb R^{d}
目前先定义这些,后续再进行补充。
Last modified 29d ago
Copy link