R学习之——R用于文本挖掘（tm包）

首先需要安装并加载tm包。

1、读取文本

x = readLines("222.txt")

2、建立语料库

 > r=Corpus(VectorSource(x))> rA corpus with 7012 text documents

3、语料库输出，保存到硬盘

> writeCorpus(r)

4、查看语料库

> print(r)
A corpus with 7012 text documents
> summary(r)
A corpus with 7012 text documentsThe metadata consists of 2 tag-value pairs and a data frame
Available tags are:create_date creator 
Available variables in the data frame are:MetaID

> inspect(r[2:2])
A corpus with 1 text document

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID

[[1]]
Female; Genital Neoplasms, Female/*therapy; Humans

> r[[2]]
Female; Genital Neoplasms, Female/*therapy; Humans

5、建立“文档-词”矩阵

> dtm = DocumentTermMatrix(r)
> head(dtm)
A document-term matrix (6 documents, 16381 terms)Non-/sparse entries: 110/98176
Sparsity           : 100%
Maximal term length: 81 
Weighting          : term frequency (tf)

6、查看“文档-词”矩阵

> inspect(dtm[1:2,1:4])

7、查找出现200次以上的词

> findFreqTerms(dtm,200)[1] "acute"          "adjuvant"       "advanced"       "after"         [5] "and"            "breast"         "cancer"         "cancer:"       [9] "carcinoma"      "cell"           "chemotherapy"   "clinical"      
[13] "colorectal"     "factor"         "for"            "from"          
[17] "group"          "growth"         "iii"            "leukemia"      
[21] "lung"           "lymphoma"       "metastatic"     "non-small-cell"
[25] "oncology"       "patients"       "phase"          "plus"          
[29] "prostate"       "randomized"     "receptor"       "response"      
[33] "results"        "risk"           "study"          "survival"      
[37] "the"            "therapy"        "treatment"      "trial"         
[41] "tumor"          "with"

7、移除出现次数较少的词

inspect(removeSparseTerms(dtm, 0.4))

8、查找和“stem”的相关系数在0.5以上的词

> findAssocs(dtm, "stem", 0.5)stem cells 1.00  0.61

9、计算文档相似度（用cosine计算距离）

> dist_dtm <- dissimilarity(dtm, method = 'cosine')
> head(dist_dtm)
[1] 1.0000000 0.7958759 0.8567770 0.9183503 0.9139337 0.9309934

10、聚类

> hc <- hclust(dist_dtm, method = 'ave')
> plot(hc,xlab='')

转载于:https://www.cnblogs.com/todoit/archive/2012/07/13/2589741.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/463564.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

R学习之——R用于文本挖掘（tm包）

相关文章

C#索引器(二)

C++中的定位放置new(placement new)

学了STM32要继续学习Linux吗？

win7域内桌面黑屏

在Javascript中实现伪哈希表

模板函数与特化函数

这样调试内核启动流程

iview实现多文件上传，前段到后台

ios 图片添加阴影

asp.net定时执行任务-解决应用池回收问题----转载

bool与string互转

Go语言之高级篇beego框架之参数配置与路由配置

C++ int转string以及源码

OpenXLive 0.9.9 SDK发布，增加对SNS的支持

Asp.Net MVC1.0正式版发布

EUREKA原理总结

Hadoop之Shell命令

linux下安装oracle 11g R2

学习：SQL Server的BUILTIN\Administrators用户

通俗理解数字签名，ssl数字证书和https