Transformer的Word Embedding

一、Transformer 中的词嵌入是什么？

1. 定义与作用

• 词嵌入（Word Embedding）：将离散的词语映射为低维连续向量，捕捉语义和语法信息。
• 在 Transformer 中的位置：
• 输入层：每个词通过嵌入层转换为向量（如 embedding_dim=512）。
• 输出层：解码器输出的向量通过反向嵌入映射回词表概率（如 logits = decoder_output * embedding_matrix^T）。

2. 与 Word2Vec 的对比

特性	Word2Vec	Transformer 中的词嵌入
上下文相关性	静态（每个词仅一个向量）	动态（同一词在不同上下文中向量不同）
训练方式	独立预训练（无监督）	端到端学习（通常结合预训练任务）
多义词处理	无法区分多义词	基于上下文动态调整（如 BERT）
位置信息	无	通过位置编码（Positional Encoding）
参数规模	较小（仅词表大小 × 嵌入维度）	较大（嵌入层是模型的一部分）

二、Transformer 词嵌入的核心革新

1. 上下文相关（Contextualized Embeddings）

• 问题：Word2Vec 的静态词向量无法处理一词多义（例如“bank”在“river bank”和“bank account”中的不同含义）。
• 解决方案：Transformer 通过自注意力机制动态调整词向量：
• 输入序列中的每个词向量在编码过程中与其他词交互，生成上下文相关的表示。
• 示例：在句子 Apple launched a new phone 中，“Apple”的向量会包含“phone”的语义；而在 Apple pie is delicious 中，“Apple”的向量会包含“pie”的语义。

2. 位置编码（Positional Encoding）

• 问题：Transformer 抛弃了 RNN 的时序结构，需显式注入位置信息。
• 实现方式：
• 绝对位置编码：通过正弦函数或可学习向量编码词的位置（原始论文方法）：
$PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}})$ $PE_{(pos, 2i+1)} = \cos(pos10000^{2i/d_{\text{model}}})$
• 相对位置编码：某些变体（如 Transformer-XL）编码词之间的相对距离。

3. 预训练任务驱动

• 预训练任务：Transformer 的词嵌入通常通过大规模预训练任务学习：
• BERT：掩码语言模型（Masked Language Model, MLM） + 下一句预测（Next Sentence Prediction, NSP）。
• GPT：自回归语言模型（预测下一个词）。
• 优势：
• 词嵌入不仅包含通用语义，还编码了任务相关的知识（如句间关系、长程依赖）。

三、Transformer 词嵌入的技术细节

1. 嵌入层的数学表示

• 给定词表大小为 $V$ ，嵌入维度为 $d$ ，嵌入层是一个 $\times d$ 的矩阵。
• 输入序列 $w_1, w_2, ..., w_n]$ 经过嵌入层后得到矩阵 $\in \mathbb{R}^{n \times d}$ ，再与位置编码 $P$ 相加：
$X_{\text{final}} = X + P$

2. 与自注意力的交互

• 自注意力机制通过查询（Query）、键（Key）、值（Value）矩阵对词向量进行交互：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$
• 结果：每个词的输出向量是所有词向量的加权和，权重由语义相关性决定。

3. 跨层信息传递

• Transformer 的每一层（Layer）都会更新词向量：
• 底层编码局部语法（如词性）。
• 高层编码全局语义（如指代消解、情感倾向）。

四、实例分析：BERT 的嵌入层

1. 输入表示

BERT 的输入嵌入由三部分组成：

词嵌入（Token Embeddings）：将词语映射为向量。
位置嵌入（Position Embeddings）：可学习的位置编码。
段嵌入（Segment Embeddings）：区分句子对（如问答任务中的问题和答案）。

2. 掩码语言模型（MLM）

• 训练任务：随机遮盖输入中的某些词（如替换为 [MASK]），让模型预测被遮盖的词。
• 对词嵌入的影响：
• 迫使模型通过上下文推断被遮盖词，增强嵌入的上下文敏感性。
• 示例：在句子 The [MASK] sat on the mat 中，模型需根据 sat 和 mat 推断 [MASK] 可能是 cat。

3. 输出示例

• 输入词 bank 在不同上下文中的 BERT 嵌入向量：
• 上下文 1：river bank → 向量靠近 shore, water。
• 上下文 2：bank account → 向量靠近 money, finance。

五、代码示例：Transformer 嵌入层的实现（PyTorch）

import torch
import torch.nn as nnclass TransformerEmbedding(nn.Module):def __init__(self, vocab_size, embed_dim, max_seq_len, dropout=0.1):super().__init__()self.token_embed = nn.Embedding(vocab_size, embed_dim)self.pos_embed = nn.Embedding(max_seq_len, embed_dim)  # 可学习的位置编码self.dropout = nn.Dropout(dropout)def forward(self, x):# x: [batch_size, seq_len]positions = torch.arange(x.size(1), device=x.device).unsqueeze(0)token_emb = self.token_embed(x)        # [batch_size, seq_len, embed_dim]pos_emb = self.pos_embed(positions)    # [1, seq_len, embed_dim]return self.dropout(token_emb + pos_emb)# 使用示例
vocab_size = 10000
embed_dim = 512
max_seq_len = 128
model = TransformerEmbedding(vocab_size, embed_dim, max_seq_len)input_ids = torch.randint(0, vocab_size, (32, max_seq_len))  # 模拟输入（batch_size=32）
output_emb = model(input_ids)  # [32, 128, 512]