RWKV
项目地址:
Training
RWKV是一个训练时并行,推理时串行的算法,非常有意思,一共有4个版本,这里逐一介绍,假设输入为,激活函数为,为序列长度,为特征维度。
Time mixing
Time mixing可以理解为强制bi-gram,每个token包含自己和前一个token的部分信息:
Feature mixing
首先所有版本的feature mixing几乎是一样的:
Time mix得到;
;
;
;
V1
Token mix得到;
;
;
;
;
;
;
;
;
V2
步骤4修改为:
步骤3修改为:
步骤6修改为:
删除步骤9。
V3
步骤2修改为:
;
V4
利用,保证这一项的数值大小,防止数值问题。
Inference
V2, V3, V4版本可以递归计算,记:
PreviousHyena Hierarchy: Towards Larger Convolutional Language ModelsNextSimple Hardware-Efficient Long Convolutions for Sequence Modeling
Last updated