RETHINKING ATTENTION WITH PERFORMERS
ABSTRACT
我们介绍了 Performers——Transformer 体系结构,该体系结构可以以可证明的准确性估算常规(softmax)全等级关注变压器(full-rank-attention Transformers),但仅使用线性(而不是二次)空间和时间复杂度,而无需依赖于诸如稀疏性或低等级的先验条件。为了近似 softmax 注意内核,Performers 使用一种新颖的通过正正交随机特征方法(Fast Attention Via positive Orthogonal Random features, FAVOR +)的快速注意方法,这对于可扩展内核方法可能是独立关注的。 FAVOR +还可以用于对 softmax 以外的可内核化注意力机制进行有效建模。这种表征能力对于在大型任务中首次准确地将 Softmax 与其他内核进行比较(常规 Transformes 所无法达到的)以及研究最优的注意力内核至关重要。Performers 是与常规 Transformers 完全兼容的线性体系结构,并具有强大的理论保证:无偏或近乎无偏的注意力矩阵估计、一致收敛和较低的估计方差。我们对 Performers 进行了一系列丰富的测试,包括从像素预测到文本模型再到蛋白质序列建模。我们用其他经过检验的有效稀疏和密集注意力方法展示了竞争结果,展示了 Performers 利用的新的注意力学习范式的有效性。
1 I NTRODUCTION AND RELATED WORK
- 本文作者: YuT
- 本文链接: https://ytno1.github.io/archives/e17f9655.html
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!