对商品评论进行文本分析(NLP)的实战项目

文本分析技术是指使用计算机程序或算法处理、分析和理解文本数据的一系列方法。这种技术在自然语言处理(NLP)领域中非常重要,它可以应用于多种场景,包括但不限于情感分析、主题识别、信息提取、文本分类等。以下是一些常见的文本分析技术和方法:

1. 分词(Tokenization):
   - 将文本分割成单独的词汇或短语,这是文本处理的第一步。

2. 词性标注(Part-of-Speech Tagging):
   - 识别文本中每个词汇的词性,如名词、动词、形容词等。

3. 句法分析(Parsing):
   - 理解句子的语法结构,包括短语结构和依存关系。

4. 情感分析(Sentiment Analysis):
   - 判断文本的情感倾向,如正面、负面或中性。

5. 主题建模(Topic Modeling):
   - 识别文本集合中的主题分布,常用于文档聚类和探索性数据分析。

6. 文本分类(Text Classification):
   - 将文本分配到一个或多个类别中,如垃圾邮件检测、新闻分类等。

7. 命名实体识别(Named Entity Recognition, NER):
   - 识别文本中的特定实体,如人名、地点、组织等。

8. 链接识别(Entity Linking):
   - 将文本中的实体链接到知识库中的相应条目。

9. 关键词提取(Keyword Extraction):
   - 自动提取文本中的关键词汇或短语。

10. 摘要生成(Summarization):
    - 生成文本的简短摘要,保留主要信息。

11. 语义分析(Semantic Analysis):
    - 理解文本的深层含义,包括词义消歧和句子的真正意图。

12. 机器翻译(Machine Translation):
    - 将一种语言的文本自动翻译成另一种语言。

13. 文本相似度计算(Text Similarity):
    - 计算文本之间的相似度,常用于信息检索和去重。

14. 自然语言理解(Natural Language Understanding, NLU):
    - 综合理解自然语言的意图、情感、语境等。

15. 预训练语言模型(Pretrained Language Models):
    - 使用大规模数据预训练的深度学习模型,如BERT、GPT等,用于各种NLP任务。

文本分析技术的应用非常广泛,从社交媒体监控到客户反馈分析,从自动化内容生成到智能搜索引擎,都是文本分析技术的用武之地。随着技术的发展,文本分析技术正变得越来越精准和智能,为各种行业提供数据驱动的洞察。

在这里介绍一个用于情感分析的Python库SnowNLP。SnowNLP是一个专为中文文本处理设计的Python库,它提供了包括分词、词性标注、情感分析、文本转换(简繁转换)、关键词提取、摘要生成、短语提取等多种功能。SnowNLP的核心优势在于对中文文本的处理能力,特别是情感分析功能。

SnowNLP的安装非常简单,可以通过pip命令直接安装:

pip install snownlp

或者使用这个命令:

#安装snownlp包
!pip install snownlp  -i https://pypi.tuna.tsinghua.edu.cn/simple

接下来将对关于一个包含对一个商品的3637条评论的文本数据集来进行文本分析。本文将使用jieba,snownlp,wordcloud,matplotlib等模块对文本数据进行了简要的情感分析及可视化。

数据观看和下载入口:‌​​​​‍‌‍​‬​​‍‬‍​‍⁠‬​⁠​‌​⁠​​‍‌‍​​​​‌​‌​​​​数据集_NLP - 飞书云文档 (feishu.cn)

一、情感分析

先导入数据:

import pandas as pd
data = pd.read_csv('./商品评论数据.csv')
data1 = data[['sku_id','content']]
data1.head(10)

显示数据样貌为:

from snownlp import SnowNLP
data1['emotion'] = data1['content'].apply(lambda x:SnowNLP(x).sentiments)
data1.head(10)

接下来利用先前提到的用于情感分析的Python库SnowNLP:

from snownlp import SnowNLP
data1['emotion'] = data1['content'].apply(lambda x:SnowNLP(x).sentiments)
data1.head(10)

可以得到如下结果:

情感分析的结果是一个介于0到1之间的分数,越接近1表示情感越正面,越接近0则表示情感越负面 ,因此我们可以根据情感评分筛选出积极评论和消极评论。

我们也可对这些情感评分进一步可视化:

#情感分直方图
import matplotlib.pyplot as plt
import numpy as npplt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = Falsebins=np.arange(0,1.1,0.1)
plt.hist(data1['emotion'],bins,color='#4F94CD',alpha=0.9)
plt.xlim(0,1)
plt.xlabel('情感分')
plt.ylabel('数量')
plt.title('情感分直方图')plt.show()

可以得到如下的直方图:

便可得到如下结论:

  • 由直方图可见,评论内容两级分化较为严重

二、所有评论的词云图

from wordcloud import WordCloud
import jieba
w = WordCloud()
text = ''
for s in data['content']:text += s
data_cut = ' '.join(jieba.lcut(text))w = WordCloud(font_path='SimHei',stopwords=['的', '我', '了', '是', '和', '都', '就', '用'],width=2000,height=1200).generate(data_cut)
# 保存词云
w.to_file('词云图.png')
# 显示词云文件
plt.imshow(w)
plt.axis("off")
plt.show()

需要注意的是,为了运行这段代码,除了需要安装wordcloudjieba库之外,还需要安装matplotlib库来显示图片。

  • WordCloud 是一个用于生成词云的库。
  • jieba 是一个中文分词库,用于将中文文本拆分成单独的词语。
  • font_path='SimHei' 设置词云使用的字体,SimHei是一种常用的中文字体。
  • stopwords=['的', '我', '了', '是', '和', '都', '就', '用'] 设置停用词列表,这些词在生成词云时会被忽略。
  • width=2000 和 height=1200 设置生成的词云图片的宽度和高度。
  • generate(data_cut) 是根据分词后的文本数据生成词云。

以下为所有评论的词云图:

接下来我们提取其中的最常出现的前10个关键词:

#关键词top10
from jieba import analyse 
key_words = jieba.analyse.extract_tags(sentence=text, topK=10, withWeight=True, allowPOS=())
key_words

代码调用extract_tags函数来提取关键词,并带有以下参数:

  • sentence=text:要提取关键词的文本,这里使用之前拼接好的长字符串text
  • topK=10:指定提取关键词的数量,这里设置为10,表示提取出现频率最高的10个关键词。
  • withWeight=True:设置是否返回每个关键词的权重(即该关键词在文本中的出现频率),这里设置为True表示返回权重。
  • allowPOS=():这是一个可选参数,用来指定提取关键词时允许的词性。这里设置为空元组(),表示不限制词性,默认情况下会提取所有词性的关键词。

结果如下:

以上关键词显示,消费者比较在意手机的“屏幕”“拍照”“手感”等特性。

三、积极评论和消极评论的词云图

先根据第一步得出的情感评分进行分类,数值大于0.5的为积极评论,数值小于0.5的为消极评论。从而得出积极评论与消极评论占比:

#计算积极评论与消极评论各自的数目
pos = 0
neg = 0
for i in data1['emotion']:if i >= 0.5:pos += 1else:neg += 1
print('积极评论,消极评论数目分别为:',pos,neg)

得出结果为积极评论,消极评论数目分别为: 2791,846。

接下来我们对消极评论进行详细的分析:

#获取消极评论数据
data2=data1[data1['emotion']<0.5]
data2.head(10)

我们先了解消极评论数据样貌:

用与之前类似的方法得出消极评论的词云图:

#消极评论词云图
text2 = ''
for s in data2['content']:text2 += s
data_cut2 = ' '.join(jieba.lcut(text2))
w.generate(data_cut2)
image = w.to_file('消极评论词云.png')# 显示词云文件
plt.imshow(w)
plt.axis("off")
plt.show()

结果如下:

随后我们再用与之前类似的方法提取消极评论中最常出现的前10个关键词:

#消极评论关键词top10
key_words = jieba.analyse.extract_tags(sentence=text2, topK=10, withWeight=True, allowPOS=())
key_words

结果如下:

  • 消极评论关键词显示,“屏幕”“快递”“充电”是造成用户体验不佳的几个重要因素;屏幕和充电问题有可能是手机不良品率过高或快递压迫;

  • 因此平台应注重提高手机品控,降低不良品率;另外应设法提升发货,配送,派件的效率和质量。

以上就完成了对商品评论进行文本分析(NLP)的实战项目的全部流程,可以帮助了解用户使用体验,以此对平台运营提出优化建议。

点下关注,分享更多有关AI,数据分析和量化金融的实用教程和实战项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/51994.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在本地和远程删除 Git 分支?

如何在本地和远程删除 Git 分支&#xff1f; 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页&#xff0c;我是博主英杰&#xff0c;211科班出身&#xff0c;就职于医疗科技公司&#xff0c;热衷分享知识&#xff0c;武汉城市开发者社区主理人 擅长.n…

江西学术会议:第五届计算机、大数据与人工智能国际会议

第五届计算机、大数据与人工智能国际会议(ICCBDAI 2024)将于2024年11月1日-3日在江西景德镇召开。本届会议由景德镇陶瓷大学主办&#xff0c;西安交通大学、暨南大学、南京邮电大学、景德镇学院、ELSP&#xff08;爱迩思出版社&#xff09;、ESBK国际学术交流中心、AC学术平台协…

Transformer模型中的Position Embedding实现

引言 在自然语言处理&#xff08;NLP&#xff09;中&#xff0c;Transformer模型自2017年提出以来&#xff0c;已成为许多任务的基础架构&#xff0c;包括机器翻译、文本摘要和问答系统等。Transformer模型的核心之一是其处理序列数据的能力&#xff0c;而Position Embedding在…

你是如何克服编程学习中的挫折感的?(-@-^-0-)

在编程学习中遇到挫折感是极为常见且正常的现象&#xff0c;因为编程往往涉及解决复杂问题、理解抽象概念以及不断试错的过程。 以下是一些建议&#xff0c;帮助你在面对挫折时调整心态&#xff0c;继续前行&#xff1a; 接受失败是成长的一部分&#xff1a;首先要认识到&#…

专题---自底向上的计算机网络(计算机网络相关概述)

目录 计算机网络相关概述 物理层 数据链路层 网络层 运输层 应用层 网络安全 1.计算机网络相关概述&#xff08;具体细节http://t.csdnimg.cn/NITAW&#xff09; 什么是计算机网络&#xff1f; 计算机网络是将一个分散的&#xff0c;具有独立功能的计算机系统&#x…

测绘程序设计|初识C#编程语言|C#源码结构|面向对象|MFC、WinFrom与WPF

由于微信公众号改变了推送规则&#xff0c;为了每次新的推送可以在第一时间出现在您的订阅列表中&#xff0c;记得将本公众号设为星标或置顶喔~ 根据笔者经验&#xff0c;分享了C#编程语言、面向对象以及MFC、WinForm与WPF界面框架相关知识~ &#x1f33f;前言 c#作为测绘程序…

海外媒体投稿:怎样在法国媒体发稿宣传中获得成功

法国是一个充满机遇的销售市场&#xff0c;而媒体发稿营销推广是企业在法国市场里扩张曝光度和提升知名度的有效途径。下面我们就共享如何运用低投资得到高收益的办法&#xff0c;帮助企业在法国媒体发稿推广过程中获得成功。 第一步&#xff1a;掌握目标群体在进行法国媒体发稿…

AI时代来临:数字人主播,虚拟代言人正颠覆行业!

数字人主播、虚拟代言人……你的身边有“数字同事”了吗&#xff1f;近年来&#xff0c;越来越多的数字人开始活跃在各个行业&#xff0c;承担起直播带货、知识讲解、新闻播报和品牌代言等任务。就在刚刚过去的五一假期&#xff0c;当大多数人还在休息时&#xff0c;不少数字人…

RongCallKit iOS 端本地私有 pod 方案

RongCallKit iOS 端本地私有 pod 方案 需求背景 适用于源码集成 CallKit 时&#xff0c;使用 pod 管理 RTC framework 以及源码。集成 CallKit 时&#xff0c;需要定制化修改 CallKit 的样式以及部分 UI 功能。适用于 CallKit 源码 Debug 调试便于定位相关问题。 解决方案 从…

某系统存在任意账户凭据窃取漏洞

世人都晓神仙好&#xff0c;惟有功名忘不了&#xff01;古今将相今何在&#xff1f;荒冢一堆草没了。 漏洞描述 某系统存在任意账户凭据窃取漏洞&#xff0c;攻击者使用任意账号登录后访问特殊的Url即可获取所有用户的账号和密码 漏洞复现 登录后台(存在访客用户默认账号密…

【原创】java+swing+mysql房屋租赁管理系统设计与实现

个人主页&#xff1a;程序员杨工 个人简介&#xff1a;从事软件开发多年&#xff0c;前后端均有涉猎&#xff0c;具有丰富的开发经验 博客内容&#xff1a;全栈开发&#xff0c;分享Java、Python、Php、小程序、前后端、数据库经验和实战 文末有本人名片&#xff0c;希望和大家…

听专家的,不如听国家的,网络安全究竟值不值得报?

考学选专业&#xff0c;或者跳槽选行业的&#xff0c;看这篇&#xff01; 如果你什么都不懂&#xff0c;家里也没有矿&#xff0c;那就紧跟国家大事和地方政策。 关于网络安全专业究竟是否值得报考? 要知道“二十大”、“十四五”等大会一直在提一个词叫做“数字中国建设”…

Linux:进程的概念,进程相关函数

一、进程的概念 1.进程 进程是系统进行资源分配和调度的一个独立单元&#xff0c;它是操作系统结构的基础。进程是程序的一次执行过程&#xff0c;包含了程序代码、当前活动、系统资源&#xff08;如CPU、内存、文件等&#xff09;的使用情况等信息。每个进程都有自己独立的内…

DevOps入门(上)

1: DevOps概念 &#xfeff;&#xfeff;DevOps: Development 和 Operations 的组合 DevOps 看作开发&#xff08;软件工程&#xff09;、技术运营和质量保障&#xff08;QA&#xff09;三者的交集。 突出重视软件开发人员和运维人员的沟通合作&#xff0c;通过自动化流程来使…

React学习笔记(一)——react基础

目录 1. React 介绍 1.1 React是什么 1.2 React的优势 1.3 React的市场情况 2. 开发环境搭建 2.1 使用create-react-app快速搭建开发环境 2.2 react 项目文件说明 2.3 index.js项目入口文件 2.4 App.js 项目根组件 2.5 react 调试工具安装 3. JSX基础-概念和本质 3…

代驾系统源码开发中的用户体验优化:从设计到实现的全方位解析

在当今数字化时代&#xff0c;代驾服务已经成为城市生活中不可或缺的一部分。为了帮助开发者和企业快速搭建代驾服务平台&#xff0c;许多开源的代驾系统源码应运而生。这些源码不仅节省了开发时间&#xff0c;还为进一步的定制化开发提供了坚实的基础。本文将以“开源代驾系统…

docker 安装 oracle11g

#创建oracle11g docker run -d --name myoracle11g -p 1522:1521 akaiot/oracle_11g #登录到oracle,要先docker ps 查看具体的docker id docker exec -it 22222222 bash su root 密码&#xff1a;helowin # 设置环境变量 vi /etc/profile export ORACLE_HOME/home/oracle/ap…

Dubbo源码深度解析(七)

接上一篇博客《Dubbo源码深度解析(六)》&#xff0c;上篇博客主要从服务消费方开始讲起&#xff0c;主要讲&#xff1a;如果类中的属性或者方法&#xff0c;如果被DubboReference注解所修饰&#xff0c;Dubbo是怎么处理的&#xff0c;处理逻辑类似Spring框架提供的Autowired注解…

tomcat相关

一、部署安装tomcat 在10和20上安装tomcat [root10 ~]# dnf install java-1.8.0-openjdk.x86_64 -y #安装java环境 [root10 ~]# tar zxf apache-tomcat-9.0.93.tar.gz -C /usr/local/ #安装并启动tomcat [root10 ~]# ln -s /usr/local/apache-tomcat-9.0.93/ /usr/local/tomcat…

NC 完全二叉树结点数

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 描述 给定一棵完全…