2020-Performer-Rethinking Attention with Performers(Krzysztof Choromanski et al.)

2021-03-27

字数统计: 373字 | 阅读时长≈ 1分

RETHINKING ATTENTION WITH PERFORMERS

ABSTRACT

我们介绍了 Performers——Transformer 体系结构，该体系结构可以以可证明的准确性估算常规（softmax）全等级关注变压器(full-rank-attention Transformers)，但仅使用线性（而不是二次）空间和时间复杂度，而无需依赖于诸如稀疏性或低等级的先验条件。为了近似 softmax 注意内核，Performers 使用一种新颖的通过正正交随机特征方法（Fast Attention Via positive Orthogonal Random features, FAVOR +）的快速注意方法，这对于可扩展内核方法可能是独立关注的。 FAVOR +还可以用于对 softmax 以外的可内核化注意力机制进行有效建模。这种表征能力对于在大型任务中首次准确地将 Softmax 与其他内核进行比较(常规 Transformes 所无法达到的)以及研究最优的注意力内核至关重要。Performers 是与常规 Transformers 完全兼容的线性体系结构，并具有强大的理论保证：无偏或近乎无偏的注意力矩阵估计、一致收敛和较低的估计方差。我们对 Performers 进行了一系列丰富的测试，包括从像素预测到文本模型再到蛋白质序列建模。我们用其他经过检验的有效稀疏和密集注意力方法展示了竞争结果，展示了 Performers 利用的新的注意力学习范式的有效性。

本文作者： YuT
本文链接： https://ytno1.github.io/archives/e17f9655.html
版权声明： 本博客所有文章除特别声明外，均采用 MIT 许可协议。转载请注明出处！

RETHINKING ATTENTION WITH PERFORMERS

ABSTRACT

1 I NTRODUCTION AND RELATED WORK