揭开ChatGPT面纱（3）：使用OpenAI进行文本情感分析（embeddings接口）

文章目录

一、embeddings接口解析
二、代码实现
- 1.数据集dataset.csv
- 2.代码
- 3.运行结果

openai版本==1.6.1
本系列博客源码仓库：gitlab，本博客对应文件夹03

在这一篇博客中我将使用OpenAI的embeddings接口判断21条服装评价是否是好评。

首先来看实现思路：

在这里插入图片描述

一、embeddings接口解析

在上一篇博客中说过了，OpenAI主要有11个接口，其中embeddings接口用于生成文本嵌入。下面通过解读参数来学习下这个接口的用法。

在这个接口中，最主要使用的就是这个create()方法：

在这里插入图片描述

参数解析：

input: 要嵌入的输入文本，可以是字符串、字符串列表、整数列表或整数数组列表。输入必须不超过模型的最大输入令牌数。
model: 要使用的模型ID。
encoding_format: 返回嵌入的格式，可以是float或base64。
user: 代表终端用户的唯一标识符，可以帮助OpenAI监控和检测滥用行为。
extra_headers: 发送额外的HTTP头。
extra_query: 在请求中添加额外的查询参数。
extra_body: 在请求中添加额外的JSON属性。
timeout: 覆盖客户端级别的默认超时时间，单位为秒。

二、代码实现

1.数据集dataset.csv

评价,标签
这件衣服的面料非常舒适，穿上去感觉很好,好评
款式时尚，颜色也很正，非常满意的一次购物体验,好评
衣服质量超出预期，非常满意,好评
穿上这件衣服，感觉整个人都精神了，好评,好评
质量很好，做工精细，好评,好评
颜色很鲜亮，非常喜欢,好评
尺码很准，穿上很合身,好评
衣服的版型很好，穿上很有型,好评
面料柔软，手感很好,好评
非常满意的一次购物，衣服质量非常好,好评
穿上很显瘦，非常喜欢,好评
颜色和图片一样，没有色差,好评
衣服的质感很好，穿上很有档次,好评
款式新颖，穿上很有气质,好评
衣服有质量问题，线头多，不满意,差评
颜色和图片有色差，感觉被欺骗了,差评
尺码不准确，穿上不合身,差评
面料很硬，穿上不舒服,差评
衣服做工粗糙，有很多线头,差评
款式一般，没有图片上看起来好看,差评
衣服有异味，洗了好几次还是有味道,差评

2.代码

from openai import OpenAI
import json
import httpx
import numpy as np# 读取配置，在上传gitlab时配置文件ignore了
with open('../config/openai.json') as config_file:config = json.load(config_file)client = OpenAI(base_url=config['base_url'],api_key=config['key'],http_client=httpx.Client(base_url=config['base_url'],follow_redirects=True,),
)# 指定模型
MODEL = "text-embedding-ada-002"# 读取数据集，忽略表头行
dataset = open('dataset.csv', 'r', encoding='utf-8').readlines()[1:]
reviews = []
labels = []
for row in dataset:items = row.split(',')reviews.append(items[0])labels.append(items[1])# 实现文本转embedding方法
def get_embedding(text, model=MODEL):return client.embeddings.create(input=[text], model=model).data[0].embedding# 将”好评“和”差评“转换为embedding
positive = get_embedding("好评")
negative = get_embedding("差评")# 把数据集的评论转为embedding
review_embeddings = []
for review in reviews:review_embeddings.append(get_embedding(review))# 实现余弦相似度算法
def cosine_similarity(vec_a, vec_b):# 计算两个向量的点积dot_product = np.dot(vec_a, vec_b)# 计算两个向量的欧几里得范数（即长度）norm_a = np.linalg.norm(vec_a)norm_b = np.linalg.norm(vec_b)# 计算余弦相似度cos_similarity = dot_product / (norm_a * norm_b)return cos_similarity# 计算每条评论是好评还是差评
for i in range(len(reviews)):print("第" + str(i) + "条评论为：" + reviews[i])pos_score = cosine_similarity(review_embeddings[i], positive)neg_score = cosine_similarity(review_embeddings[i], negative)print("该评论与好评的相似度为：" + str(pos_score))print("该评论与差评的相似度为：" + str(neg_score))print("判断结果为：" + ("好评" if pos_score>neg_score else "差评"))print("实际标签为："+labels[i])

3.运行结果

21条评论，只计算错误3条，正确率高达85.7%。

D:\setup\tensorflow\envs\openaidemo\python.exe "D:/0 project/openaidemo/03/sentiment_analysis.py"
第0条评论为：这件衣服的面料非常舒适，穿上去感觉很好
该评论与好评的相似度为：0.7866600025796906
该评论与差评的相似度为：0.7340914289400244
判断结果为：好评
实际标签为：好评第1条评论为：款式时尚，颜色也很正，非常满意的一次购物体验
该评论与好评的相似度为：0.8116062681356471
该评论与差评的相似度为：0.7592264307269887
判断结果为：好评
实际标签为：好评第2条评论为：衣服质量超出预期，非常满意
该评论与好评的相似度为：0.835177254990754
该评论与差评的相似度为：0.7910031400363514
判断结果为：好评
实际标签为：好评第3条评论为：穿上这件衣服，感觉整个人都精神了，好评
该评论与好评的相似度为：0.8479253083790808
该评论与差评的相似度为：0.7992275199715745
判断结果为：好评
实际标签为：好评第4条评论为：质量很好，做工精细，好评
该评论与好评的相似度为：0.8804815052105072
该评论与差评的相似度为：0.8202060552575923
判断结果为：好评
实际标签为：好评第5条评论为：颜色很鲜亮，非常喜欢
该评论与好评的相似度为：0.8122908056959066
该评论与差评的相似度为：0.7453758474352993
判断结果为：好评
实际标签为：好评第6条评论为：尺码很准，穿上很合身
该评论与好评的相似度为：0.8095639635935163
该评论与差评的相似度为：0.7542509575575985
判断结果为：好评
实际标签为：好评第7条评论为：衣服的版型很好，穿上很有型
该评论与好评的相似度为：0.8029880472359789
该评论与差评的相似度为：0.752721443961377
判断结果为：好评
实际标签为：好评第8条评论为：面料柔软，手感很好
该评论与好评的相似度为：0.8202393074180623
该评论与差评的相似度为：0.7715710993474748
判断结果为：好评
实际标签为：好评第9条评论为：非常满意的一次购物，衣服质量非常好
该评论与好评的相似度为：0.8304340790084418
该评论与差评的相似度为：0.7686974883325032
判断结果为：好评
实际标签为：好评第10条评论为：穿上很显瘦，非常喜欢
该评论与好评的相似度为：0.7845954204223071
该评论与差评的相似度为：0.7344546937738867
判断结果为：好评
实际标签为：好评第11条评论为：颜色和图片一样，没有色差
该评论与好评的相似度为：0.7889487515789574
该评论与差评的相似度为：0.7629094836325928
判断结果为：好评
实际标签为：好评第12条评论为：衣服的质感很好，穿上很有档次
该评论与好评的相似度为：0.8103547992920661
该评论与差评的相似度为：0.7626423966774464
判断结果为：好评
实际标签为：好评第13条评论为：款式新颖，穿上很有气质
该评论与好评的相似度为：0.7940717784875954
该评论与差评的相似度为：0.7563715210341154
判断结果为：好评
实际标签为：好评第14条评论为：衣服有质量问题，线头多，不满意
该评论与好评的相似度为：0.7944173838386458
该评论与差评的相似度为：0.800127661438339
判断结果为：差评
实际标签为：差评第15条评论为：颜色和图片有色差，感觉被欺骗了
该评论与好评的相似度为：0.7822516772149408
该评论与差评的相似度为：0.7907092043951234
判断结果为：差评
实际标签为：差评第16条评论为：尺码不准确，穿上不合身
该评论与好评的相似度为：0.7697819579113206
该评论与差评的相似度为：0.7768264577324818
判断结果为：差评
实际标签为：差评第17条评论为：面料很硬，穿上不舒服
该评论与好评的相似度为：0.7652704470138616
该评论与差评的相似度为：0.7608743799318946
判断结果为：好评
实际标签为：差评第18条评论为：衣服做工粗糙，有很多线头
该评论与好评的相似度为：0.748231684611617
该评论与差评的相似度为：0.7604407281022945
判断结果为：差评
实际标签为：差评第19条评论为：款式一般，没有图片上看起来好看
该评论与好评的相似度为：0.7825934944171562
该评论与差评的相似度为：0.7738324828014607
判断结果为：好评
实际标签为：差评第20条评论为：衣服有异味，洗了好几次还是有味道
该评论与好评的相似度为：0.7546261044756783
该评论与差评的相似度为：0.7442435431393303
判断结果为：好评
实际标签为：差评Process finished with exit code 0