NLP教程:1 词袋模型和TFIDF模型

文章目录

  • 词袋模型
  • TF-IDF模型
  • 词汇表模型


词袋模型

  文本特征提取有两个非常重要的模型:

  • 词集模型:单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个。

  • 词袋模型:在词集的基础上如果一个单词在文档中出现不止一次,统计其出现的次数(频数)。

  两者本质上的区别,词袋是在词集的基础上增加了频率的维度,词集只关注有和没有,词袋还要关注有几个。
  假设我们要对一篇文章进行特征化,最常见的方式就是词袋。
  导入相关的函数库:

from sklearn.feature_extraction.text import CountVectorizer

  实例化分词对象:

vectorizer = CountVectorizer(min_df=1)
>>> vectorizer                    CountVectorizer(analyzer=...'word', binary=False, decode_error=...'strict',dtype=<... 'numpy.int64'>, encoding=...'utf-8', input=...'content',lowercase=True, max_df=1.0, max_features=None, min_df=1,ngram_range=(1, 1), preprocessor=None, stop_words=None,strip_accents=None, token_pattern=...'(?u)\\b\\w\\w+\\b',tokenizer=None, vocabulary=None)

  将文本进行词袋处理:

import jieba
from sklearn.feature_extraction.text import CountVectorizertxt="""
变压器停、送电操作时,应先将该变压器中性点接地,对于调度要求不接地的变压器,在投入系统后应拉开中性点接地刀闸。在中性点直接接地系统中,运行中的变压器中性点接地闸刀需倒换时,应先合上另一台主变压器的中性点接地闸刀,再拉开原来变压器的中性点接地闸刀。运行中的变压器中性点接地方式、中性点倒换操作的原则是保证该网络不失去接地点,采用先合后拉的操作方法。
变压器中性点的接地方式变化后其保护应相应调整,即是变压器中性点接地运行时,投入中性点零序过流保护,停用中性点零序过压保护及间隔零序过流保护;变压器中性点不接地运行时,投入中性点零序过压保护及间隔零序保护,停用中性点零序过流保护,否则有可能造成保护误动作。
"""
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
vectorizer = CountVectorizer(min_df=1)#min_df 默认为1(int),表示“忽略少于1个文档中出现的术语”,因此,默认设置不会忽略任何术语,该参数不起作用X = vectorizer.fit_transform(words)#获取对应的特征名称:
print(vectorizer.get_feature_names())#feature_names可能不等于words
#词袋化
print(X.toarray())

词袋类似array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
[0, 1, 0, 1, 0, 2, 1, 0, 1],
[1, 0, 0, 0, 1, 0, 1, 1, 0],
[0, 1, 1, 1, 0, 0, 1, 0, 1]]…)

  但是如何可以使用现有的词袋的特征,对其他文本进行特征提取呢?我们定义词袋的特征空间叫做词汇表vocabulary:

vocabulary=vectorizer.vocabulary_

  针对其他文本进行词袋处理时,可以直接使用现有的词汇表:

new_vectorizer = CountVectorizer(min_df=1, vocabulary=vocabulary)

  CountVectorize函数比较重要的几个参数为:

  • decode_error,处理解码失败的方式,分为‘strict’、‘ignore’、‘replace’三种方式。
  • strip_accents,在预处理步骤中移除重音的方式。
  • max_features,词袋特征个数的最大值。
  • stop_words,判断word结束的方式。
  • max_df,df最大值。
  • min_df,df最小值 。
  • binary,默认为False,当与TF-IDF结合使用时需要设置为True。
    本例中处理的数据集均为英文,所以针对解码失败直接忽略,使用ignore方式,stop_words的方式使用english,strip_accents方式为ascii方式。

TF-IDF模型

  文本处理领域还有一种特征提取方法,叫做TF-IDF模型(term frequency–inverse document frequency,词频与逆向文件频率)。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF(Term Frequency,词频),词频高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF * IDF。TF表示词条在文档d中出现的频率。IDF(inverse document frequency,逆向文件频率)的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其他类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其他类文档。

示例
文档

中文停用词见
停用词

import jieba
import pandas as pd
import re
from sklearn.feature_extraction.text import CountVectorizer#词袋
from sklearn.feature_extraction.text import TfidfTransformer#tfidffile=pd.read_excel("文档.xls")# 定义删除除字母,数字,汉字以外的所有符号的函数
def remove_punctuation(line):line = str(line)if line.strip() == '':return ''rule = re.compile(u"[^a-zA-Z0-9\u4E00-\u9FA5]")line = rule.sub('', line)return line#停用词
def stopwordslist(filepath):try:stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]except:stopwords = [line.strip() for line in open(filepath, 'r', encoding='gbk').readlines()]return stopwords# 加载停用词
stopwords = stopwordslist("停用词.txt")#去除标点符号
file['clean_review']=file['文档'].apply(remove_punctuation)
# 去除停用词
file['cut_review'] = file['clean_review'].apply(lambda x: " ".join([w for w in list(jieba.cut(x)) if w not in stopwords]))#词袋计数
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(file['cut_review'])#tf-idf
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

X_train_tfidf
(0, 123) 0.08779682150216786 表示第1篇文档词袋中第123个单词的tdidf为0.087

X_train_tfidf.toarray()

词汇表模型

词袋模型可以很好的表现文本由哪些单词组成,但是却无法表达出单词之间的前后关系,于是人们借鉴了词袋模型的思想,使用生成的词汇表对原有句子按照单词逐个进行编码。TensorFlow默认支持了这种模型:

tf.contrib.learn.preprocessing.VocabularyProcessor (max_document_length,    min_frequency=0,vocabulary=None,tokenizer_fn=None)

其中各个参数的含义为:

  • max_document_length:,文档的最大长度。如果文本的长度大于最大长度,那么它会被剪切,反之则用0填充。
  • min_frequency,词频的最小值,出现次数小于最小词频则不会被收录到词表中。
  • vocabulary,CategoricalVocabulary 对象。
  • tokenizer_fn,分词函数。

假设有如下句子需要处理:

x_text =['i love you','me too'
]

基于以上句子生成词汇表,并对’i me too’这句话进行编码:

 vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)vocab_processor.fit(x_text)print next(vocab_processor.transform(['i me too'])).tolist()x = np.array(list(vocab_processor.fit_transform(x_text)))print x

运行程序,x_text使用词汇表编码后的数据为:
[[1 2 3 0]
[4 5 0 0]]
'i me too’这句话编码的结果为:
[1, 4, 5, 0]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/46535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上海理工大学24计算机考研考情分析!初复试分值比55:45,复试逆袭人数不算多!

上海理工大学&#xff08;University of Shanghai for Science and Technology&#xff09;&#xff0c;位于上海市&#xff0c;是一所以工学为主&#xff0c;工学、理学、经济学、管理学、文学、法学、艺术学等多学科协调发展的应用研究型大学&#xff1b;是上海市属重点建设大…

Linux系统及常用指令

目录 1、什么是Linux系统 2、为什么要用Linux系统 3、Linux系统的种类 4、如何安装Linux系统 5、常见的适配器种类 6、学习第一个Linux指令 7、安装ssh客户端软件 8、Linux系统的目录结构 9、Linux的常用命令 9.1 目录切换命令 9.2 查看目录下的内容 9.3 查看当前…

Vue 3.0 所采用的 Composition Api 与 Vue 2.x使用的Options Api 有什么区别

Vue 3.0 引入的 Composition API 与 Vue 2.x 使用的 Options API 在多个方面存在显著的区别。这些区别主要体现在代码的组织方式、逻辑复用、TypeScript 支持以及生命周期钩子的使用上。以下是对这些区别的详细归纳&#xff1a; 1. 代码的组织方式 Options API&#xff08;Vu…

vue项目build以后整合到springboot项目里面---------gxl

很多时候我们需要用到vue的组件&#xff0c;但是全栈的背景下懒得去搞前后端分离&#xff0c;很多权限校验后台都写好了&#xff0c;没必要再去做接口或者前端写一遍了&#xff0c;因此我们需要把打包后的项目整合到项目里面。 整合也很简单&#xff0c;照常vue项目开发&#…

UE4-蓝图(可视化编程)学习

一.开关门交互实现 1.需要用到的模板和内容包 2.给门添加碰撞 进入第三人称模板场景&#xff0c;找到门的模型&#xff0c;并将门的模型添加到我们的场景中&#xff1a; 此时我们运行游戏&#xff0c;会发现我们的角色可以穿过我们门的模型&#xff0c;说明我们没有给门添加碰…

水利行业的智慧转型之路:分析智慧水利的核心要素与优势,展望其在提升水资源利用效率、保障水安全方面的广阔前景

目录 引言 一、智慧水利的核心要素 1. 物联网技术 2. 大数据与云计算 3. 人工智能与机器学习 4. 移动互联网与GIS技术 5. 标准化与信息安全 二、智慧水利的优势 1. 提高水资源利用效率 2. 增强水灾害防御能力 3. 提升水环境治理水平 4. 促进水利服务智能化 三、展望…

Grafana :利用Explore方式实现多条件查询

背景 日志统一推送到Grafana上管理。所以&#xff0c;有了在Grafana上进行日志搜索的需求&#xff0c;而进行日志搜索通常需要多条件组合。 解决方案 通过Grafana的Explore的方式实现多条件查询。 直接看操作步骤&#xff1a; 在主页搜索框中输入“Explore” 进入这个界面…

mybatis中的useGeneratedKeys和keyProperty

在 MyBatis 中&#xff0c;<insert> 标签用于定义插入数据的 SQL 语句。useGeneratedKeys 和 keyProperty 属性是其中两个重要的属性&#xff0c;常用于处理数据库自动生成的主键。以下是这两个属性的详细解释&#xff1a; useGeneratedKeys 作用: 指示 MyBatis 是否使…

Elasticsearch:评估搜索相关性 - 第 1 部分

作者&#xff1a;来自 Elastic Thanos Papaoikonomou, Thomas Veasey 这是一系列博客文章中的第一篇&#xff0c;讨论如何在更好地理解 BEIR 基准的背景下考虑评估你自己的搜索系统。我们将介绍具体的技巧和技术&#xff0c;以便在更好地理解 BEIR 的背景下改进你的搜索评估流程…

Android init 中的wait_for_property指令

Android开机优化系列文档-CSDN博客 Android 14 开机时间优化措施汇总-CSDN博客Android 14 开机时间优化措施-CSDN博客根据systrace报告优化系统时需要关注的指标和优化策略-CSDN博客Android系统上常见的性能优化工具-CSDN博客Android上如何使用perfetto分析systrace-CSDN博客A…

MySQL中的幻读究竟是怎么回事?

什么是幻读 幻读是指同一条select语句在不同时刻返回不同的结果集。例如第二次查询比第一次多了一条记录&#xff0c;就如同幻象一般。 幻读的原因 幻读一般是由于插入造成的&#xff0c;因为正常删改或当前读一些已存在的数据只会锁住这些已有的数据&#xff0c;无法阻止新…

AccessibilityEvent常用事件

AccessibilityEvent 在 Android 开发中是一种用于处理无障碍访问事件的类&#xff0c;它包含了一系列的事件类型&#xff0c;这些事件类型帮助开发者为视障、听障等用户提供更好的应用体验。以下是根据多个来源整理的一些常用 AccessibilityEvent 事件名称、描述和对应的16进制…

如何解决 CentOS 7 官方 yum 仓库无法使用

一、背景介绍 编译基于 CentOS 7.6.1810 镜像的 Dockerfile 过程中,执行 yum install 指令时,遇到了错误:Could not resolve host: mirrorlist.centos.org; Unknown error。 二、原因分析 官方停止维护 CentOS 7。该系统内置的 yum.repo 所使用的域名 mirrorlist.centos.o…

静态网站怎么更新数据

今天看到个问题 我不是行业从业者&#xff0c;但目前遇到一个问题 我公司网站为纯静态&#xff0c;除了直接从html里修改文字外能不能这样 建立一个xml或者txt文档&#xff0c;其中有很多信息&#xff0c;例如网站名称&#xff0c;电话&#xff0c;备案号等&#xff0c;一行一行…

Java 网络编程(TCP编程 和 UDP编程)

1. Java 网络编程&#xff08;TCP编程 和 UDP编程&#xff09; 文章目录 1. Java 网络编程&#xff08;TCP编程 和 UDP编程&#xff09;2. 网络编程的概念3. IP 地址3.1 IP地址相关的&#xff1a;域名与DNS 4. 端口号&#xff08;port&#xff09;5. 通信协议5.1 通信协议相关的…

40.简易频率计(基于等精度测量法)(3)

&#xff08;1&#xff09;BCD8421码&#xff1a;十进制数字转换成BCD8421码的方法 补零&#xff1a;你需要显示多少位数字&#xff0c;就在前面补上四倍的位宽。比如你要显示一个十进制8位的数字&#xff0c;就在前面补上8*432个零。判断&#xff1a;判断补零部分显示的十进制…

golang 实现负载均衡器-负载均衡原理介绍

go 实现负载均衡器 文章目录 go 实现负载均衡器代码实现介绍负载均衡的核心组件与工作流程核心组件工作流程 总结 算法详细描述&#xff1a;1. 轮询&#xff08;Round Robin&#xff09;2. 最少连接&#xff08;Least Connections&#xff09;3. IP散列&#xff08;IP Hash&…

vue是如何进行监听数据变化的?vue2和vue3分别是什么?vue3为什么要更换?

Vue如何进行监听数据变化的&#xff1f; Vue.js 通过其响应式系统来监听数据变化。这个系统允许你声明式地将数据和 DOM 绑定&#xff0c;一旦数据发生变化&#xff0c;相关的 DOM 将自动更新。Vue 使用以下机制来实现数据的监听和响应&#xff1a; 响应式数据&#xff1a;在 …

叉车指纹一键启动/熄火车辆,“锁”住叉车安全

在现代工业领域&#xff0c;叉车作为重要的物流搬运工具&#xff0c;其安全性和便捷性一直是人们关注的焦点。为此&#xff0c;我们引入了一项技术——叉车指纹一键启动/熄火系统&#xff0c;真正实现了叉车安全的“锁定”。 这项技术不仅仅是简单的启动或关闭车辆的手段&#…

关于OSI七层模型

OSI&#xff08;Open Systems Interconnection&#xff0c;开放系统互连&#xff09;七层模型是一个网络通信的基本框架&#xff0c;用于描述网络中数据传输和通信的过程。 一.OSI的基本概念及原则 OSI是Open System Interconnect的缩写&#xff0c;意为开放式系统互联。其各个…