目录
一、绘图
1.曲线图 curve() 函数
2.加参考线 abline()
3.条形图 barplot()
4.散点图 plot()
练习:
二、读取csv文件
1.表格数据
2.读入表格数据
3.分类变量频数统计
4.数值型变量的统计
三、调用自定义函数
一、绘图
1.曲线图 curve() 函数
用 curve() 函数制作 y = x2 函数的曲线图,curve() 函数第二、第 三自变量是绘图区间:
curve(x^2, -2, 2)
返回:
2.加参考线 abline()
类似地,sin(x) 函数曲线图用如下程序可制作, 用 abline() 函数添加参考线:
curve(sin(x), 0, 2*pi)
abline(h=0)
返回:
3.条形图 barplot()
假设有 10 个男生,7 个女生,如下程序绘制男生、女生人数的条形图:
barplot(c(" 男生"=10, " 女生"=7),
main=" 男女生人数")
返回:
4.散点图 plot()
plot() 函数做了散点图, plot() 函数第一个自变量是各个点的 横坐标值,第二个自变量是对应的纵坐标值:
plot(1:10, sqrt(1:10))
返回:
练习:
1. 画 exp(x) 在 (−2, 2) 区间的函数图形。
2. 画 ln(x) 在 (0.01, 10) 区间的函数图形。
二、读取csv文件
1.表格数据
统计用的输入数据典型样式是 Excel 表那样的表格数据。表格数据特点:每一 列应该是相同的类型(或者都是数值,或者都是文字,或者都是日期),每一列 应该有一个名字。
这样的表格数据,一般可以保存为.csv 格式:数据项之间用逗号分开,文件本 身是文本型的,可以用普通记事本程序查看和编辑。Excel 表可以用 “另存为” 命令保存为.csv 格式。常用的数据库管理系统一般也可以把表保存为.csv 格式。
2.读入表格数据
用 read.csv 可以把.csv 文件读入到 R 中:
tax.tab <- read.csv("data.csv", header=TRUE, as.is=TRUE)
print(head(tax.tab))
- 选项 header=TRUE 指明第一行作为变量名行,
- 选项 as.is=TRUE 说 明字符型列要原样读入而不是转换为因子 (factor)。
- 读入的变量 tax.tab 称为 一个数据框 (data.frame)。
- head() 函数返回数据框或向量的前几项。
- 比较大的表最好不要显示整个表,会使得前面的运行过程难以查看。
3.分类变量频数统计
用 table() 函数计算每个不同值的个数,称为频数 (frequency):
table(tax.tab[["变量1"]])
同样,其他的也可以这样统计,只需要更换 变量名 。
也可以用 table() 函数统计 “变量1” 和 “变量2” 交叉分类频数,如:
table(tax.tab[["变量1"]], tax.tab[["变量2"]])
还可以将上述,交叉分类频数画成表:
knitr::kable(table(tax.tab[["变量1"]], tax.tab[["变量2"]]) )
4.数值型变量的统计
数值型变量可以计算各种不同的统计量, 如平均值、标准差和各个分位数。 summary() 可以给出最小值、最大值、中位数、四分之一分位数、四分之三分 位数和平均值。如
summary(tax.tab[["变量1"]])
统计函数以一个数值型向量为自变量,包括 sum(求和), mean(平均值), var(样 本方差), sd(样本标准差), min(最小值), max(最大值), range(最小值和最大值) 等。如
mean(tax.tab[["变量1"]]) #均值
sd(tax.tab[["变量1"]]) #标准差
如果数据中有缺失值,可以删去缺失值后计算统计量,这时在 mean, sd 等函数中加na.rm=TRUE 选项。
三、调用自定义函数
只需要用 source() 函数可以运行保存在一个文本文件中的源程序,即可调用该源程序中的的自定义函数:
比如,如下内容保存在文件 ssq.r 中:
sum.of.squares <- function(x){sum(x^2)
}
然后用如下 source() 命令运行源程序:
source("ssq.r")
运行后就可以调用自定义函数 sum.of.squares() 了。
sum.of.squares(1:5)
返回: