python的特征提取实验一_Spark 2.1.0 入门:特征抽取 — TF-IDF(Python版)

这一部分我们主要介绍和特征处理相关的算法,大体分为以下三类:

特征抽取:从原始数据中抽取特征

特征转换:特征的维度、特征的转化、特征的修改

特征选取:从大规模特征集中选取一个子集

特征提取

TF-IDF (HashingTF and IDF)

“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。

​ 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性,很容易过度强调在文档中经常出现,却没有太多实际信息的词语,比如“a”,“the”以及“of”。如果一个词语经常出现在语料库中,意味着它并不能很好的对文档进行区分。TF-IDF就是在数值化文档信息,衡量词语能提供多少信息以区分文档。其定义如下:

​ 此处 是语料库中总的文档数。公式中使用log函数,当词出现在所有文档中时,它的IDF值变为0。加1是为了避免分母为0的情况。TF-IDF 度量值表示如下:

​ 此处

是语料库中总的文档数。公式中使用log函数,当词出现在所有文档中时,它的IDF值变为0。加1是为了避免分母为0的情况。TF-IDF 度量值表示如下:

​ 在Spark ML库中,TF-IDF被分成两部分:TF (+hashing) 和 IDF。

TF: HashingTF 是一个Transformer,在文本处理中,接收词条的集合然后把这些集合转化成固定长度的特征向量。这个算法在哈希的同时会统计各个词条的词频。

IDF: IDF是一个Estimator,在一个数据集上应用它的fit()方法,产生一个IDFModel。 该IDFModel 接收特征向量(由HashingTF产生),然后计算每一个词在文档中出现的频次。IDF会减少那些在语料库中出现频率较高的词的权重。

​ Spark.mllib 中实现词频率统计使用特征hash的方式,原始特征通过hash函数,映射到一个索引值。后面只需要统计这些索引值的频率,就可以知道对应词的频率。这种方式避免设计一个全局1对1的词到索引的映射,这个映射在映射大量语料库时需要花费更长的时间。但需要注意,通过hash的方式可能会映射到同一个值的情况,即不同的原始特征通过Hash映射后是同一个值。为了降低这种情况出现的概率,我们只能对特征向量升维。i.e., 提高hash表的桶数,默认特征维度是 2^20 = 1,048,576.

在下面的代码段中,我们以一组句子开始。首先使用分解器Tokenizer把句子划分为单个词语。对每一个句子(词袋),我们使用HashingTF将句子转换为特征向量,最后使用IDF重新调整特征向量。这种转换通常可以提高使用文本特征的性能。

首先,导入TFIDF所需要的包:

from pyspark.ml.feature import HashingTF,IDF,Tokenizer

准备工作完成后,我们创建一个简单的DataFrame,每一个句子代表一个文档。

sentenceData = spark.createDataFrame([(0, "I heard about Spark and I love Spark"),(0, "I wish Java could use case classes"),(1, "Logistic regression models are neat")]).toDF("label", "sentence")

在得到文档集合后,即可用tokenizer对句子进行分词

tokenizer = Tokenizer(inputCol="sentence", outputCol="words")

wordsData = tokenizer.transform(sentenceData)

得到分词后的文档序列后,即可使用HashingTF的transform()方法把句子哈希成特征向量,这里设置哈希表的桶数为2000。

hashingTF = HashingTF(inputCol="words", outputCol="rawFeatures", numFeatures=20)

featurizedData = hashingTF.transform(wordsData)

​可以看到,分词序列被变换成一个稀疏特征向量,其中每个单词都被散列成了一个不同的索引值,特征向量在某一维度上的值即该词汇在文档中出现的次数。

最后,使用IDF来对单纯的词频特征向量进行修正,使其更能体现不同词汇对文本的区别能力,IDF是一个Estimator,调用fit()方法并将词频向量传入,即产生一个IDFModel。

idf = IDF(inputCol="rawFeatures", outputCol="features")

idfModel = idf.fit(featurizedData)

很显然,IDFModel是一个Transformer,调用它的transform()方法,即可得到每一个单词对应的TF-IDF度量值。

rescaledData = idfModel.transform(featurizedData)

rescaledData.select("label", "features").show()

可以看到,特征向量已经被其在语料库中出现的总次数进行了修正,通过TF-IDF得到的特征向量,在接下来可以被应用到相关的机器学习方法中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/533621.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java addlast_Java中的LinkedList addLast()方法: java.util.LinkedList.addLast() - Break易站

Java中的java.util.LinkedList.addLast()方法用于在LinkedList的末尾插入特定元素。句法:void addLast(Object element)参数:此函数接受单个参数元素,如上面的语法所示。此参数指定的元素将附加在列表的末尾。返回值:此方法不返回…

macos降级_iOS12.3 beta2更新了什么 iOS12.3测试版2新特性与升降级方法

4月0日凌晨,苹果发布了iOS12.3 beta2,作为iOS12.3第二个测试版,相比前一个版本,发布时间间隔近2周,这次依然是小版本更新,不过相对良心一些,主要是多了一些与国内用户相关的东西。iOS12.3 beta …

java技术教程视频_Spring开发视频教程高级篇+源码(400M)33讲

Spring开发视频教程高级篇源码(400M)33讲01_全面阐释Spring及其各项功能.rar 02_搭建与测试Spring的开发环境.rar 03_编码剖析Spring管理Bean的原理.rar 04_Spring的三种实例化Bean的方式.rar 05_配置Spring管理的bean的作用域.rar 06_Spring管理的Bean的生命周期.rar 07_编码剖…

python的常见矩阵除法_Numpy矩阵除法返回所有零

我对下面的矩阵有个除法错误。我想用行和的101向量除以1010matrix。在[[5731, 3, 20, 8, 12, 54, 46, 8, 39, 2],[ 2, 6472, 47, 24, 7, 44, 7, 11, 116, 12],[ 55, 36, 5296, 104, 84, 27, 106, 53, 183, 14],[ 50, 49, 132, 5312, 2, 253, 36, 58, 142, 97],[ 16, 28, 36, 9,…

java rc2加密_急求java RC2加密算法

下面是一段C RC2加密 要求要用java 重写 能互相加密解密QSBEncryptRc2::QSBEncryptRc2(){EncryKey "DingXin Communication Key 20080613";}//解密失败时返回失败描述AnsiString QSBEncryptRc2::GetDecryptErrMsg(){int ErrorCode;AnsiString ErrMsg;ErrorCode …

linux配置usb主从_杂集:浅谈关于Mongodb数据库主从复制

Linux下Mongodb数据库主从复制配置Mongodb的三种集群搭建的方式:Master-Slaver:主从[目前被副本集取代]。Replica Set:副本集。Sharding:切片。Mongodb单实例缺点:适合简易开发时使用,生产使用不行&#xf…

java读取邮箱附件_使用javamail获取附件内容

我正在使用javamail来自动化一些电子邮件处理。使用javamail获取附件内容我设法连接到pop3服务器并获取消息。其中一些包含附件。根据邮件标题,我可以“预测”我需要获取的附件的文件名。但我无法得到它的内容:(我有一个函数public byte[] searchForContent(Part pa…

高斯拟合 vc++代码_NMA2020W1 极大似然法模型拟合与bootstrap

常见的线性模型: 求解方式有两种,一种是计算均方误差(MSE),使得均方误差最小。图1找到梯度为零的点即可。而之前一直比较模糊的最大似然法也比较清楚了。一般线性模型,我们假定误差项是符合高斯分布的&…

java文件快速扫描仪_Java扫描仪具有示例的NextNextShort()方法

扫描仪类hasNextShort()方法语法:public boolean hasNextShort();public boolean hasNextShort(int rad);hasNextShort()方法在java.util包中可用。hasNextShort()方法用于检查此扫描程序在其输入中是否具有下一个标记,是否可以将其作为隐式基数中的shor…

python sqlite并发处理_python sqlite大数据 处理

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…

java sax xml文件解析_java解析xml文件-DOM/SAX

java解析xml文件的两种方式1:DOM原理:把整个文档加载到内存,转化成dom树,之后应用程序可以随机的访问dom树的任何数据,灵活 快,但消耗内存一个简单的xml使用java解析//builder工厂DocumentBuilderFactory f…

python现有两个磁盘文件a和b_有两个磁盘文件A和B,各存放一行字母,今要求把这两个文件中的信息合并,输出到一个新文件C中。...

首先,在.cpp所在的文件夹下建立A.txt与B.txt。向其中输入字母。#include#include#includeint main(){FILE *a,*b,*c;char ch[100],outfile[10];int i0,n;void paixu(char a[100],int n);if((afopen("A.txt","r"))NULL){printf("Cant open …

python 远程控制_用 Python 远程控制你的电脑

用 Python 远程控制你的电脑一、前言很多时候我们有这种需求,因为程序运行比较耗时,但是我们没有足够的时间等待。这个时候我们就可以用 Python 做一个远程控制电脑的小工具,实现远程控制电脑。当然,我们能做的操作十分有限&#…

摄像头图像分析目标物体大小位置_一文读懂图像定位及跟踪技术

文 | 传感器技术在科学技术日新月异的今天,人们对机器设备的智能性、自主性要求也越来越高,希望其完全替代人的角色,把人们从繁重、危险的工作任务中解脱出来,而能否像人一样具有感知周围环境的能力已成为设备实现智能化自主化的关…

java 相对路径获取_在java项目中通过相对路径获取资源的方式

1.可以通过 类名.class.getResource方法获取或者getSystemResource2.可以通过当前线程 Thread.currentThread().getContextClassLoader().getResource获取public class TestDemo {public static void main(String[] args) throws FileNotFoundException, IOException {Properti…

python循环嵌套的外循环必须完全包含内循环_Python:循环与嵌套循环实现规律数列...

很多人觉得编程很难,其实换个想法,这就是个用来解决问题的工具,我们为了解决实际问题而来学习和使用编程,这样编程学习有了目的性,动力会更强。就像现在十分热门的Python技术,就是人工智能领域所需求的&…

python爬取正确但不出文件_使用BeautifulSoup进行Python抓取时不显示所有行

我是美容小组的新手。我试图从ESPN Fantasy Basketball Standings中获取“Season Stats”表,但并不是返回所有行。经过一番研究,我认为这可能是一个问题html.parser,所以我用了lxml。我得到了同样的结果。如果有人能告诉我如何得到所有球队的…

pat乙级相当于什么水平_雅思6.5是什么水平?相当于托福多少分?

雅思和托福是当前社会中非母语人士的主流英语水平测试。准备出国留学的学生对这两项考试并不陌生。对于一些学生来说,仅靠雅思成绩并不足以申请他们最喜欢的学校。特别是对于申请北美院校的学生,托福成绩是申请时提交语言成绩的优先考虑事项。那么&#…

java时间方法_JAVA处理日期时间常用方法

转载JAVA处理日期时间常用方法:1.java.util.CalendarCalendar 类是一个抽象类,它为特定瞬间与一组诸如 YEAR、MONTH、DAY_OF_MONTH、HOUR 等 日历字段之间的转换提供了一些方法,并为操作日历字段(例如获得下星期的日期)提供了一些方法。瞬间可…

python气象_Python 在气象上的应用

Python 在气象上的应用0.7892019.03.15 23:19:31字数 913阅读 1,024为什么选择python功能齐全的编程语言,真正面向对象喜欢可读的代码出版质量图绘制轻松读/写netcdf和grib数据轻松使用Fortran / C / C 广泛的库支持数字和非数字工作科学计算1.Numpy  Numpy是pyth…