What Makes Convolutional Models Great on Long Sequence Modeling?
PreviousPretraining Without AttentionNextHungry Hungry Hippos: Towards Language Modeling with State Space Models
Last updated
Last updated
论文地址:
这篇文章解释了S4性能好的原因:
首先S4可以理解为全局卷积,卷积核是通过状态矩阵参数化;
S4之所以起作用是因为:
卷积核的参数化和序列长度无关,否则很容易过拟合;
局部先验,因为有矩阵的形式;
这两点是S4真正起作用的原因,作者根据这两点使用了其他参数化的方式,也取得相当的结果。