T
T
Transformer-Evolution-Paper
Search…
README
数学符号
Act
Arch
FFN
Head
Memory
MHA
Normalize_And_Residual
Pe
Pretrain
Softmax
Others
Powered By
GitBook
数学符号
这里统一规定笔记中的数学记号。
基本符号
1.
向量用小写mathbf字体表示:
x
∈
R
d
\mathbf x \in \mathbb R^d
x
∈
R
d
(所有向量均为列向量,即
x
∈
R
d
×
1
\mathbf x \in \mathbb R^{d\times 1}
x
∈
R
d
×
1
);
2.
矩阵用大写mathbf字体表示,
X
∈
R
n
×
d
\mathbf X\in \mathbb R^{n\times d}
X
∈
R
n
×
d
:
X
=
[
x
1
⊤
⋮
x
n
⊤
]
∈
R
n
×
d
;
\begin{aligned} \mathbf X&= \left[ \begin{matrix} \mathbf x_1^{\top} \\ \vdots \\ \mathbf x_n^{\top} \end{matrix} \right]\in \mathbb R^{n\times d}; \end{aligned}
X
=
⎣
⎡
x
1
⊤
⋮
x
n
⊤
⎦
⎤
∈
R
n
×
d
;
3.
x
i
\mathbf x_i
x
i
表示矩阵
X
\mathbf X
X
的第
i
i
i
行的转置;
4.
标量用常规字体表示
α
,
β
\alpha, \beta
α
,
β
;
5.
默认用
n
n
n
表示序列长度,
d
d
d
表示嵌入维度,
b
b
b
表示batch size;
6.
Score Matrix:
S
=
Q
K
⊤
\mathbf S=\mathbf Q \mathbf K^{\top}
S
=
Q
K
⊤
;
7.
Attention Matrix:
A
=
f
(
S
)
\mathbf A = f(\mathbf S)
A
=
f
(
S
)
;
一般场景下
f
=
S
o
f
t
m
a
x
f=\mathrm{Softmax}
f
=
Softmax
,但是也可以有别的选择;
8.
一些常用算子符号:
S
o
f
t
m
a
x
(
X
,
d
=
−
1
)
:
R
n
×
d
→
R
n
×
d
\mathrm{Softmax}(\mathbf X,d=-1): \mathbb R^{n\times d}\to \mathbb R^{n\times d}
Softmax
(
X
,
d
=
−
1
)
:
R
n
×
d
→
R
n
×
d
:
d
d
d
为归一化维度,不指定时为最后一维,这里表示映射时没有考虑
d
d
d
,做个不严格的简化定义;
N
o
r
m
(
X
,
d
=
−
1
)
:
R
n
×
d
→
R
n
×
d
\mathrm{Norm}(\mathbf X,d=-1): \mathbb R^{n\times d}\to \mathbb R^{n\times d}
Norm
(
X
,
d
=
−
1
)
:
R
n
×
d
→
R
n
×
d
:
各种归一化方式,具体类型使用文字说明,符号中不体现,
d
d
d
为归一化维度,不指定时为最后一维;
M
H
A
(
X
,
Y
)
:
R
n
×
d
×
R
m
×
d
→
R
n
×
d
\mathrm{MHA}(\mathbf X, \mathbf Y):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}
MHA
(
X
,
Y
)
:
R
n
×
d
×
R
m
×
d
→
R
n
×
d
:
一种
M
H
A
\mathrm {MHA}
MHA
的接口,最具体来说
X
\mathbf X
X
对应query,
Y
\mathbf Y
Y
对应key, value;
M
H
A
(
Q
,
K
,
V
)
:
R
n
×
d
×
R
m
×
d
×
R
m
×
d
→
R
n
×
d
\mathrm{MHA}(\mathbf Q, \mathbf K,\mathbf V):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}
MHA
(
Q
,
K
,
V
)
:
R
n
×
d
×
R
m
×
d
×
R
m
×
d
→
R
n
×
d
:
另一种
M
H
A
\mathrm{MHA}
MHA
的接口,不常使用;
T
r
a
n
(
X
,
Y
)
:
R
n
×
d
×
R
m
×
d
→
R
n
×
d
\mathrm{Tran}(\mathbf X, \mathbf Y):\mathbb R^{n\times d}\times \mathbb R^{m\times d}\to \mathbb R^{n\times d}
Tran
(
X
,
Y
)
:
R
n
×
d
×
R
m
×
d
→
R
n
×
d
Transformer的接口;
F
F
N
(
X
)
:
R
n
×
d
→
R
n
×
d
\mathrm {FFN}(\mathbf{X}): \mathbb R^{n\times d} \to \mathbb R^{n\times d}
FFN
(
X
)
:
R
n
×
d
→
R
n
×
d
:
Transformer中FFN层;
9.
S
u
m
(
X
,
d
=
0
)
:
R
n
×
d
→
R
d
\mathrm{Sum}(\mathbf X,d=0): \mathbb R^{n\times d} \to \mathbb R^{d}
Sum
(
X
,
d
=
0
)
:
R
n
×
d
→
R
d
目前先定义这些,后续再进行补充。
Previous
README
Next
Act
Last modified
29d ago
Copy link