nlp之加载电商评论集

代码

import pandas as pddf = pd.read_csv("../data/Clothing Reviews.csv")
print(df.info())df['Review Text'] = df['Review Text'].astype(str)
x_train = df['Review Text']
y_train = df['Rating']from tensorflow.keras.preprocessing.text import Tokenizer# 创建词典的索引,默认词典大小20000
dict_size = 20000
tokenizer = Tokenizer(num_words=dict_size)
# jieba: 停用词，标点符号，词性.....
tokenizer.fit_on_texts(x_train)
print(len(tokenizer.word_index), tokenizer.index_word)# 把评论的文本转化序列编码
x_train_tokenized = tokenizer.texts_to_sequences(x_train)
print(x_train_tokenized)
for v in x_train_tokenized[:10]:print(v, len(v))# 可以通过可视化方式展示评论的长度
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
matplotlib.use('TkAgg')word_per_comment = [len(comment) for comment in x_train_tokenized]
plt.hist(word_per_comment, bins=np.arange(0, 200, 10))
plt.show()# 通过指定长度,把不等长list转化为等长
from tensorflow.keras.preprocessing.sequence import pad_sequencesmax_comment_length = 120
x_train = pad_sequences(x_train_tokenized, maxlen=max_comment_length)for v in x_train[:10]:print(v, len(v))

代码解读

逐行解读这段代码。

import pandas as pd

引入了pandas库，并以pd为别名。

df = pd.read_csv("../data/Clothing Reviews.csv")

使用pandas的read_csv函数读取一个CSV文件，并将其保存到变量df中。

print(df.info())

打印数据框df的信息，包括列名、非空值数量和数据类型。

<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 23486 entries, 0 to 23485
Data columns (total 11 columns):
Column Non-Null Count Dtype

0 Unnamed: 0 23486 non-null int64
1 Clothing ID 23486 non-null int64
2 Age 23486 non-null int64
3 Title 19676 non-null object
4 Review Text 22641 non-null object
5 Rating 23486 non-null int64
6 Recommended IND 23486 non-null int64
7 Positive Feedback Count 23486 non-null int64
8 Division Name 23472 non-null object
9 Department Name 23472 non-null object
10 Class Name 23472 non-null object

df['Review Text'] = df['Review Text'].astype(str)

将数据框df中的Review Text列的数据类型转换为字符串。

x_train = df['Review Text']
y_train = df['Rating']

将Review Text列分配给x_train，将Rating列分配给y_train。

from tensorflow.keras.preprocessing.text import Tokenizer

从tensorflow.keras.preprocessing.text模块导入Tokenizer类。

dict_size = 20000
tokenizer = Tokenizer(num_words=dict_size)

设置词典大小为20,000，并创建一个Tokenizer对象。

tokenizer.fit_on_texts(x_train)

在x_train上调用fit_on_texts方法，这样tokenizer就可以根据x_train中的文本构建词典。

print(len(tokenizer.word_index), tokenizer.index_word)

打印词典中的词数量和词到索引的映射。

x_train_tokenized = tokenizer.texts_to_sequences(x_train)

使用texts_to_sequences方法将x_train中的文本转化为整数序列，并保存到x_train_tokenized。

print(x_train_tokenized)

打印转化后的整数序列。

for v in x_train_tokenized[:10]:print(v, len(v))

打印x_train_tokenized中前10个序列及其长度。

import matplotlib.pyplot as plt
import matplotlib
import numpy as np

导入了matplotlib.pyplot，matplotlib和numpy库。

matplotlib.use('TkAgg')

设置matplotlib使用的后端为TkAgg。

word_per_comment = [len(comment) for comment in x_train_tokenized]

计算每个评论的词数，并保存到word_per_comment列表中。

plt.hist(word_per_comment, bins=np.arange(0, 200, 10))

绘制一个直方图，显示评论的词数分布。直方图的分箱范围是0到200，每10个单位一个分箱。

plt.show()

显示上面绘制的直方图。

from tensorflow.keras.preprocessing.sequence import pad_sequences

从tensorflow.keras.preprocessing.sequence模块导入pad_sequences函数。

max_comment_length = 120

设置评论的最大长度为120。

x_train = pad_sequences(x_train_tokenized, maxlen=max_comment_length)

使用pad_sequences函数将x_train_tokenized中的序列填充或截断到长度为120。

for v in x_train[:10]:print(v, len(v))

打印填充或截断后的前10个序列及其长度。

print('ok')

打印ok，表示代码运行完毕。

总之，这段代码的主要目的是从CSV文件中读取文本评论，然后使用Tokenizer将文本转化为整数序列，并对这些序列进行填充或截断，以确保它们都有相同的长度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/122457.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

nlp之加载电商评论集

目录

代码

代码解读

相关文章

Geeker-Admin中ProTable表格分页之自定义接口页码、尺寸参数

C#，数值计算——分类与推理，基座向量机的 Svmgenkernel的计算方法与源程序

微信小程序瀑布流组件

机器学习-特征选择：如何使用互信息特征选择挑选出最佳特征？

前端线上部署，如何通知用户有新版本

verilog vscode linux

Csdn文章编写参考案例

解决visual studio Just-In-Time Debugger调试

cosover是什么？crossover23又是什么软件

获取客户端请求IP及IP所属城市

Linux进程等待

数据库分库分表的原则

vscode提取扩展出错xhr

redirect导致的循环重定向问题(史上最全)

不一样的网络协议-------KCP协议

基于单片机16位智能抢答器设计

json格式存储b64编码的rgb raw数据

C++单调向量算法应用：所有子数组中不平衡数字之和

vivado窗口使用与分析2-IDE 中的逻辑分析

buuctf_练[安洵杯 2019]easy_web