第3讲、大模型如何理解和表示单词：词嵌入向量原理详解

1. 引言

大型语言模型（Large Language Models，简称LLM）如GPT-4、Claude和LLaMA等近年来取得了突破性进展，能够生成流畅自然的文本、回答复杂问题、甚至编写代码。但这些模型究竟是如何理解人类语言的？它们如何表示和处理单词？本文将深入探讨大模型的基础机制——词嵌入向量，揭示AI是如何"理解"文字的。

2. 从符号到向量：语言表示的基础

2.1 词向量的概念

在传统自然语言处理中，单词通常被表示为独热编码（One-Hot Encoding）——一个只有一个元素为1，其余都为0的稀疏向量。例如，在一个有10000个单词的词汇表中，"苹果"这个词可能被表示为一个长度为10000的向量，其中只有第345位是1，其余都是0。

然而，这种表示方法存在明显缺陷：向量维度过高且稀疏，更重要的是，无法表达单词之间的语义关系。例如，"苹果"和"梨"在语义上很接近，但它们的独热编码向量可能完全不同，计算相似度时得到的结果是0。

2.2 词嵌入向量的基本原理

词嵌入向量（Word Embedding）解决了上述问题，它是"通过将离散空间向连续空间映射后得到的词向量"。每个单词被映射到一个低维度（通常为几百维）的稠密向量空间中，这些向量捕捉了单词的语义和句法特性。

词嵌入向量的核心优势在于：语义上相似的词在向量空间中的距离也相近。这种特性使得模型能够理解词与词之间的关系，从而更好地处理自然语言。

3. 词嵌入向量的实现方式

3.1 Word2Vec

Word2Vec是由Google在2013年开源的词嵌入技术，它通过两种模型来学习词向量：

CBOW (Continuous Bag of Words)：使用上下文预测目标词。给定一个词的上下文（周围的词），预测这个词是什么。
Skip-gram：与CBOW相反，使用目标词预测上下文。给定一个词，预测它周围可能出现的词。

Word2Vec能够捕捉到丰富的语义关系，最著名的例子是向量的代数运算能够表示语义关系：

vector('国王') - vector('男人') + vector('女人') ≈ vector('女王')
vector('巴黎') - vector('法国') + vector('意大利') ≈ vector('罗马')

这种现象表明，词嵌入不仅能够捕捉相似性，还能捕捉词汇之间的语义关系和类比关系。

####案例代码

import streamlit as st
import pandas as pd
from sklearn.decomposition import PCA
from openai import OpenAI
from dotenv import load_dotenv
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import matplotlib# 指定中文字体路径（macOS）
font_path = "/System/Library/Fonts/PingFang.ttc"  # macOS 中文字体
my_font = fm.FontProperties(fname=font_path)# 设置 matplotlib 默认字体
matplotlib.rcParams['font.family'] = my_font.get_name()
matplotlib.rcParams['axes.unicode_minus'] = False
# 加载环境变量
load_dotenv()# OpenAI 客户端
client = OpenAI(
)# 嵌入生成函数
def get_word_embeddings(words, model="text-embedding-3-large"):try:response = client.embeddings.create(input=words, model=model)return [item.embedding for item in response.data]except Exception as e:st.error(f"Error occurred: {e}")return []# 主界面
st.title("🧠 词嵌入向量空间可视化")st.write("输入一些单词，看看它们在二维空间里的分布！")# 文本输入
user_input = st.text_area("请输入单词（每行一个单词）：","国王\n皇后\n男人\n女人\n猫\n狗\n苹果\n橙子"
)if user_input:words = [w.strip() for w in user_input.split("\n") if w.strip()]if len(words) < 2:st.warning("请输入至少两个单词！")else:with st.spinner("生成词嵌入向量中..."):embeddings = get_word_embeddings(words)if embeddings:st.success("嵌入向量生成成功！")st.write(f"每个单词的向量维度：**{len(embeddings[0])}**")# 用 PCA 降到 2Dpca = PCA(n_components=2)reduced = pca.fit_transform(embeddings)# 转成 DataFramedf = pd.DataFrame(reduced, columns=["x", "y"])df["word"] = words# 画出散点图fig, ax = plt.subplots(figsize=(10, 6))ax.scatter(df["x"], df["y"], color="blue")# 在点旁边标注单词for i, word in enumerate(df["word"]):ax.text(df["x"][i]+0.01, df["y"][i]+0.01, word, fontsize=12)ax.set_title("词嵌入二维空间可视化")ax.set_xlabel("主成分1 (PCA1)")ax.set_ylabel("主成分2 (PCA2)")st.pyplot(fig)# 图的解释st.subheader("图表解释 🧠")st.markdown("""- 每个点代表一个单词在嵌入空间中的位置。- **相近的单词**，在二维平面上会靠得更近，表示语义相似。- 方向和距离代表潜在的语义关系，比如“国王-男人+女人≈皇后”。- 注意：因为是降维展示，实际高维特征被简化了，但依然可以直观感知单词间的语义结构。""")

3.2 GloVe

GloVe (Global Vectors for Word Representation) 是由斯坦福大学开发的另一种流行的词嵌入模型。与Word2Vec不同，GloVe结合了全局矩阵分解和局部上下文窗口方法的优点。

GloVe基于共现矩阵——记录每个单词与其上下文词的共现频率，然后通过矩阵分解技术学习词向量。这使得GloVe能够更好地捕捉全局统计信息。

3.3 FastText

FastText是Facebook AI Research开发的一种改进型词嵌入模型。它的主要创新在于将单词分解为子词（subword）单元，通常是字符n-gram。

例如，单词"apple"的3-gram表示为：<ap, app, ppl, ple, le>。这种方法的优势在于：

能够处理词汇表外的词（OOV问题）
对拼写错误有一定的容忍度
特别适合处理形态丰富的语言（如芬兰语、土耳其语等）

4. 大模型中的词嵌入技术

在现代大型语言模型（如BERT、GPT系列、LLaMA等）中，词嵌入技术得到了进一步的发展和应用。

4.1 上下文相关的词嵌入

传统的Word2Vec等模型为每个词生成一个固定的向量，而不考虑上下文。这意味着多义词（如"苹果"可以指水果或公司）只有一个表示。

而现代大模型采用了上下文相关的词嵌入技术。例如，BERT模型会根据词出现的上下文生成不同的表示：

"我喜欢吃苹果" → vector("苹果") 表示水果意义
"苹果公司发布新产品" → vector("苹果") 表示公司意义

这种动态表示极大地提高了模型理解语言的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.2 Transformer中的词嵌入

在Transformer架构（现代大模型的基础）中，词嵌入通常包含三个部分：

词嵌入 (Token Embeddings)：单词本身的向量表示
位置嵌入 (Positional Embeddings)：表示单词在序列中的位置
段嵌入 (Segment Embeddings)：用于区分不同段落或句子（主要用于BERT等模型）

这三种嵌入向量相加后，形成了输入Transformer各层的初始表示。位置嵌入特别重要，因为它使模型能够了解单词的顺序，这对于理解语言至关重要。

5. 大模型中的Token化过程

大模型处理文本的第一步是将输入分解为"token"。这些token可以是完整单词、子词单元（subword units）或单个字符。

5.1 BPE算法

字节对编码（Byte Pair Encoding, BPE）是GPT等模型常用的分词算法。BPE首先将每个单词分解为字符序列，然后反复合并最常见的字符对，形成新的子词单元。

BPE的优势在于能够平衡词汇表大小和表示能力，有效处理罕见词和复合词。

例如，英文单词"unhappiness"可能被分解为：["un", "happiness"]或["un", "happy", "ness"]，而中文"人工智能"可能被分解为：["人工", "智能"]。

5.2 SentencePiece和WordPiece

SentencePiece和WordPiece是其他常用的子词分词算法，它们与BPE类似，但在细节实现上有所不同。这些算法都允许模型处理开放词汇表，提高了模型的灵活性和泛化能力。

6. 词嵌入向量的特性与误区

6.1 重要特性

语义相似性：语义相近的词在向量空间中距离较近
类比关系：向量间的关系可以表示语义关系
降维可视化：通过t-SNE等技术降维后，可以直观地看到词汇聚类

6.2 常见误区

注意点: 词嵌入向量并不直接表示语义，而是词与词之间语义的相似度。因此，不必去纠结每个向量值到底代表什么意思。

许多人误以为词向量的每个维度对应某种具体的语义属性（如第一维表示性别，第二维表示生物/非生物等）。实际上，词嵌入空间通常是高度纠缠的，单个维度很少有明确的语义解释。

词嵌入是在特定任务和数据集上学习得到的分布式表示，它们捕捉的是词与词之间的相对关系，而非绝对语义。

7. 词嵌入向量的实际应用

词嵌入技术被广泛应用于各种自然语言处理任务：

文本分类：通过词向量表示文档，进行情感分析、主题分类等
命名实体识别：识别文本中的人名、地名、组织名等专有名词
机器翻译：作为神经机器翻译系统的基础表示
问答系统：帮助理解问题和生成答案
文本相似度计算：判断两段文本的语义相似程度

7.1 实战案例：使用Python实现词向量计算

下面我们通过一个实际案例，展示如何使用Python和预训练模型来计算和使用词向量。我们将使用流行的Gensim库和预训练的Word2Vec模型来演示：

import streamlit as st
import gensim.downloader as api
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import matplotlib# 指定中文字体路径（macOS）
font_path = "/System/Library/Fonts/PingFang.ttc"
my_font = fm.FontProperties(fname=font_path)# 设置 matplotlib 中文字体和负号显示
matplotlib.rcParams['font.family'] = my_font.get_name()
matplotlib.rcParams['axes.unicode_minus'] = False# 设置页面配置
st.set_page_config(page_title="Word2Vec 词向量可视化", layout="wide")@st.cache_resource(show_spinner=True)
def load_model():return api.load('word2vec-google-news-300')# 加载模型
model = load_model()st.title("📌 Word2Vec 词向量可视化工具")# 分页
tab1, tab2, tab3, tab4 = st.tabs(["词向量查询", "词语相似度", "类比推理", "向量可视化"])# --- 1. 词向量查询 ---
with tab1:st.header("🔍 查看词向量")word = st.text_input("输入一个英文单词：", "computer")if st.button("获取词向量"):if word in model:vec = model[word]st.write(f"词向量维度: {vec.shape}")st.write("前10个维度的值：", vec[:10])else:st.error("词不在词汇表中，请尝试其他单词")# --- 2. 词语相似度 ---
with tab2:st.header("🔗 计算词语相似度")col1, col2 = st.columns(2)with col1:word1 = st.text_input("单词1", "computer")with col2:word2 = st.text_input("单词2", "laptop")if st.button("计算相似度"):if word1 in model and word2 in model:sim = model.similarity(word1, word2)st.success(f"'{word1}' 和 '{word2}' 的余弦相似度为：{sim:.4f}")else:st.error("一个或两个词不在词汇表中")# --- 3. 类比推理 ---
with tab3:st.header("🧠 类比推理（word1 - word2 + word3 ≈ ?）")col1, col2, col3 = st.columns(3)with col1:w1 = st.text_input("词1 (如 king)", "king")with col2:w2 = st.text_input("词2 (如 man)", "man")with col3:w3 = st.text_input("词3 (如 woman)", "woman")if st.button("进行类比推理"):try:result = model.most_similar(positive=[w3, w1], negative=[w2], topn=5)st.write(f"'{w1}' 之于 '{w2}'，相当于 '{w3}' 之于：")for word, score in result:st.write(f"- {word}: {score:.4f}")except KeyError as e:st.error(f"词汇错误: {e}")# --- 4. 向量可视化 ---
with tab4:st.header("📈 词向量可视化（PCA降维）")words_input = st.text_area("输入一组英文单词，用逗号分隔（如：king,queen,man,woman,computer）","king, queen, man, woman, computer, banana, apple, orange, prince, princess")raw_words = [w.strip() for w in words_input.split(",")]words = [w for w in raw_words if w in model]skipped = [w for w in raw_words if w not in model]if st.button("生成可视化图像"):if len(words) < 2:st.warning("请至少输入两个词，并确保它们在词汇表中")else:vectors = [model[w] for w in words]pca = PCA(n_components=2)reduced = pca.fit_transform(vectors)fig, ax = plt.subplots(figsize=(12, 8))ax.set_facecolor("#f9f9f9")  # 浅色背景ax.grid(True, linestyle='--', alpha=0.5)  # 显示网格线# 绘制点ax.scatter(reduced[:, 0], reduced[:, 1],color="#1f77b4", s=100, alpha=0.7, edgecolor='k', linewidth=0.5)# 标签字体大小适配数量font_size = max(8, 14 - len(words) // 5)# 添加标签for i, word in enumerate(words):ax.annotate(word, xy=(reduced[i, 0], reduced[i, 1]),fontsize=font_size, fontproperties=my_font,xytext=(5, 2), textcoords='offset points',bbox=dict(boxstyle='round,pad=0.3', edgecolor='gray', facecolor='white', alpha=0.6),arrowprops=dict(arrowstyle='->', color='gray', lw=0.5))ax.set_title("📌 Word2Vec 词向量 2D 可视化 (PCA)", fontsize=18, pad=15)st.pyplot(fig)if skipped:st.info(f"以下词不在模型词汇表中，已跳过：{', '.join(skipped)}")# 自动分析生成说明st.subheader("🧠 分析说明")explanation = []# 简单聚类分析：找最近的词对from scipy.spatial.distance import euclideanpairs = []for i in range(len(words)):for j in range(i + 1, len(words)):dist = euclidean(reduced[i], reduced[j])pairs.append(((words[i], words[j]), dist))pairs.sort(key=lambda x: x[1])top_similar = pairs[:3]  # 取最相近的三个词对for (w1, w2), dist in top_similar:explanation.append(f"🔹 **{w1}** 和 **{w2}** 在图中非常接近，表明它们在语义上可能较为相关（距离约为 {dist:.2f}）。")# 计算均值中心，找偏离大的词（即“异类”）center = reduced.mean(axis=0)dists_to_center = [(words[i], euclidean(reduced[i], center)) for i in range(len(words))]dists_to_center.sort(key=lambda x: x[1], reverse=True)outlier_word, max_dist = dists_to_center[0]explanation.append(f"🔸 **{outlier_word}** 与其他词的平均距离最大（约为 {max_dist:.2f}），可能表示它语义上偏离较远。")# 输出说明for line in explanation:st.markdown(line)