论文地址:
https://arxiv.org/abs/1912.12333arrow-up-right
参考资料:
https://mp.weixin.qq.com/s?__biz=MzIxMzkwNjM2NQ==&mid=2247484015&idx=1&sn=7e79cf7f2b3abe51b82c4a8beacdf195&chksm=97aee4bda0d96dab57db412e7c9f51e7e9bd5d9d17742f2a522f2dbc881c77fb59183c098d04&scene=21#wechat_redirectarrow-up-right
https://openreview.net/forum?id=Hke-WTVtwrarrow-up-right
论文给出新的位置编码方式,整体思路如下。
传统使用位置编码的形式为:
其中jjj表示词的index,pos表示该词对应的位置。作者认为这种方式无法表示相对位置关系,给出了另一种位置编码方式为:
为了给出合理的位置编码,作者提出了两个位置编码应该满足的形式:
存在函数www,满足:
位置函数ggg有界:
满足上述两个条件的解为:
利用复数表示,可得
特别的,取r1=1r_1=1r1=1,那么上式可以化简为:
可学习的参数为:
假设原始的position embedding形状为L×DL\times DL×D,那么Complex Embedding的参数数量为3×L×D3\times L\times D3×L×D(因为涉及到r,w,θr,w ,\thetar,w,θ),所以该方法会增加空间复杂度;另外,由于复数的分为实部和虚部,所以计算的时候时间复杂度会乘以2。
不变。
https://github.com/iclr-complex-order/complex-orderarrow-up-right
https://github.com/zhaodongh/Encoding-Word-Order-in-Complex-valued-Embeddingarrow-up-right
适用于所有场景,作者测了LM,机器翻译以及分类任务,均带来一定提升。
暂无。
作者给的思路很简洁,也能带来一定提升,值得进行复现。
Last updated 3 years ago