大模型系列：OpenAI使用技巧_给数据集中做文本向量化embeding

文章目录

- 1. 加载数据集
- 2. 获取嵌入并保存以备将来使用

1. 加载数据集

本示例使用的数据集是来自亚马逊的精细食品评论。该数据集包含截至2012年10月，亚马逊用户留下的共568,454条食品评论。我们将使用该数据集的一个子集，包含最近的1,000条评论，以说明目的。这些评论是用英语编写的，倾向于是积极的或消极的。每个评论都有一个ProductId、UserId、Score、评论标题（Summary）和评论正文（Text）。

我们将把评论摘要和评论文本合并成一个单独的文本。模型将对这个合并的文本进行编码，并输出一个单一的向量嵌入。

要运行这个笔记本，您需要安装以下软件包：pandas、openai、transformers、plotly、matplotlib、scikit-learn、torch（transformer dep）、torchvision 和 scipy。

# 导入pandas和tiktoken模块
import pandas as pd
import tiktoken# 导入自定义的get_embedding函数
from utils.embeddings_utils import get_embedding

# 定义嵌入模型参数
embedding_model = "text-embedding-ada-002"
# 定义嵌入编码方式
embedding_encoding = "cl100k_base"  # 这是text-embedding-ada-002的编码方式
# 定义最大标记数
max_tokens = 8000  # text-embedding-ada-002的最大标记数为8191

# 加载和检查数据集
input_datapath = "data/fine_food_reviews_1k.csv"  # 为了节省空间，我们提供了一个经过预过滤的数据集
df = pd.read_csv(input_datapath, index_col=0)  # 使用pandas库的read_csv函数读取csv文件，并将第一列作为索引列
df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]  # 选择数据集中的指定列
df = df.dropna()  # 删除包含缺失值的行
df["combined"] = (  # 创建一个新的列"combined"，将"Summary"和"Text"两列的内容合并到一起"Title: " + df.Summary.str.strip() + "; Content: " + df.Text.str.strip()
)
df.head(2)  # 显示数据集的前两行数据

	Time	ProductId	UserId	Score	Summary	Text	combined
0	1351123200	B003XPF9BO	A3R7JR3FMEBXQB	5	where does one start...and stop... with a tre...	Wanted to save some to bring to my Chicago fam...	Title: where does one start...and stop... wit...
1	1351123200	B003JK537S	A3JBPC3WFUT5ZP	1	Arrived in pieces	Not pleased at all. When I opened the box, mos...	Title: Arrived in pieces; Content: Not pleased...

# subsample to 1k most recent reviews and remove samples that are too long
# 将数据集抽样为最近的1000个评论，并删除过长的样本top_n = 1000
# 对数据集按照"Time"列进行排序，然后取最后的2k个样本
df = df.sort_values("Time").tail(top_n * 2)  # first cut to first 2k entries, assuming less than half will be filtered out# 删除"Time"列
df.drop("Time", axis=1, inplace=True)# 使用tiktoken库的get_encoding方法获取嵌入编码
encoding = tiktoken.get_encoding(embedding_encoding)# 对于每个评论，计算其编码后的token数量，并将结果保存在新的列"n_tokens"中
df["n_tokens"] = df.combined.apply(lambda x: len(encoding.encode(x)))# 保留token数量不超过max_tokens的样本，并取最后的top_n个样本
df = df[df.n_tokens <= max_tokens].tail(top_n)# 返回数据集df的长度
len(df)

2. 获取嵌入并保存以备将来使用

# 确保您已按照README中的说明在环境中设置了API密钥：https://github.com/openai/openai-python#usage# 这可能需要几分钟时间
# 将get_embedding函数应用于df的combined列，并将结果存储在df的embedding列中
df["embedding"] = df.combined.apply(lambda x: get_embedding(x, model=embedding_model))
# 将df保存为CSV文件，文件名为fine_food_reviews_with_embeddings_1k.csv
df.to_csv("data/fine_food_reviews_with_embeddings_1k.csv")