Hyena Hierarchy: Towards Larger Convolutional Language Models
Last updated
Last updated
论文地址:
整体还是Toeplitz的思路,这里理一下如何计算。
首先是基本操作:
其中是Toeplitz matrix。
然后是Hyena的计算方式:
假设Hyena的循环次数为,输入为;
每次循环使用基本操作;
第一步得到初始输入和每次循环中使用的,即的输入1;
;
;
kernel size为3,这一步的作用是进行local token mixing;
将按照第二个维度拆分为个向量:
;
第二步利用一个网络计算每一步的Toeplitz matrix:
;
使用了类似Tnn中的Rpe加上指数衰减;
for i in :
return ;
非常有意思的工作:
local token mixing看起来比较关键;
如何去掉那个循环,是一个值得研究的问题;
。