一、ELA论文
论文地址:2403.01123 (arxiv.org)
二、Efficient Local Attention结构
ELA (Efficient Local Attention) 被用于处理自然语言处理任务中的序列数据。它旨在提高传统注意力机制的效率,并减少其计算和存储成本。
在传统的注意力机制中,计算每个输入位置与所有其他位置之间的相关性,这意味着计算复杂度会随着序列长度的增加而显著增加。而ELA则通过只计算输入位置与其局部邻居之间的相关性来解决这个问题。它认为在处理序列数据时,与某个位置相关的信息主要来自其周围的邻居,而远离该位置的信息对其影响较小。
ELA通过引入一个窗口大小来限制计算相关性的范围。然后,它将注意力权重限制在该窗口内的邻居之间计算。这样,ELA可以在不损失模型性能的情况下大幅减少计算量和存储需求。
ELA还可以通过在窗口内引入位置编码来捕捉序列数据的位置信息。这样,ELA不仅可以关注重要的邻居,还可以考虑它们在序列中的相对位置。
ELA是一种高效的注意力机制,它通过只计算局部邻居之间的相关性来减少计算和存储成本。它在自然语言处理任务中有着广泛的应用,并且在提