现实的情况是,我们大部分遇到的都是表格数据,在R语言里面叫数据框,数据来源一般不可能我们自己在程序开始前手动录入,正常的逻辑是从外面读取现成的数据,再预处理、建模什么的。根据经验,现在的数据来源主要是Excel,数据库,文本文档(csv)和剪贴板。今天就先把数据的导入解决一下,后面再来研究一下怎么处理这些数据。
【Excel读取】
这个最常用,但是在R里面第一次用的时候稍微有点点麻烦,需要安装java,然后配置一下环境变量,后面就可以正常使用了,下载地址如下,根据系统下载。
https://www.java.com/en/download/manual.jsp
后面就正常操作了,先切换到文件目录下面
setwd('E:/R/基础/data')
然后加载包,没有就自己安装一下
library(xlsx)library(rJava)library(xlsxjars)
然后读数据就行了
那个数字1表示读取第一个sheet,如果有多个字表的话
GDP2019
也可以设置SheetName来引用
GDP2019 sheetName="Sheet1", encoding = "UTF-8")
可以通过设置startRow,选择从第N行开始读数据
Srow10 sheetName="Sheet1", encoding = "UTF-8", startRow = 10)
也可以通过设置endRow,选择去读前N行
endrow10 sheetName="Sheet1", encoding = "UTF-8", endRow = 10)
【csv文件读取】
data_csv header = TRUE, sep = ",")
【剪贴板读取】
这个有意思,也是很实用的
clipdata
【Mysql读取】
这个是我用到最多的,因为这样是最智能化的,可以保证数据的质量。
library(RMySQL)
conn user = "root", password = "xxxxxxx", dbname = "plc", host="cdb-xxxxxx.cd.xxxxxx.com", port=1111)dbSendQuery(conn, "SET @@sql_mode=ANSI;")dbSendQuery(conn, "SET NAMES GBK")#如果汉字乱码,就运行这条命令
res " SELECT * FROM `2017区县人口` WHERE `所属市` = '德阳市' ")dat dat
End
◆ R语言分词_jiebaR包◆ R语言_TreeMap◆ R_脸谱图