欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/140281680
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
在 Transformer 中,多头自注意力机制 (MHSA, Multi-Head Self-Attention) 是核心创新之一,极大地提升模型处理序列数据的能力。
**自注意力机制 (Self-Attention) **
自注意力机制的核心思想是,在序列中的每个元素都与其他所有元素相关,这种关系是通过注意力权重来表示。具体来说,自注意力机制通过以下步骤计算:
- 计算 Query、Key 和 Value 矩阵:输入序列,通过线性变换生成 Query(Q)、Key(K) 和 Value(V) 矩阵。
- 计算注意力权重:通过点积计算 Query 和 Key 的相似度,通过 softmax 函数归一化,得到注意力权重。
- 加权求和: