What Makes Convolutional Models Great on Long Sequence Modeling?

论文地址:

整体思路以及计算方式

这篇文章解释了S4性能好的原因:

  • 首先S4可以理解为全局卷积,卷积核是通过状态矩阵参数化;

  • S4之所以起作用是因为:

    • 卷积核的参数化和序列长度无关,否则很容易过拟合;

    • 局部先验,因为有矩阵Ak\mathbf A^k的形式;

这两点是S4真正起作用的原因,作者根据这两点使用了其他参数化的方式,也取得相当的结果。

代码

Last updated