Last updated 2 years ago
论文地址:
这篇文章解释了S4性能好的原因:
首先S4可以理解为全局卷积,卷积核是通过状态矩阵参数化;
S4之所以起作用是因为:
卷积核的参数化和序列长度无关,否则很容易过拟合;
局部先验,因为有矩阵Ak\mathbf A^kAk的形式;
这两点是S4真正起作用的原因,作者根据这两点使用了其他参数化的方式,也取得相当的结果。