20-矩阵与数组
一、矩阵的定义
矩阵(Matrix)是一个按照长方阵列排列的复数或实数集。向量是一维的,而矩阵是二维的,需要有行和列。
R中,矩阵是有维数的向量,但元素必须拥有相同的模式,此和向量一致。
例:x<-1:20
构造4行5列的矩阵:
m<-matrix(x,nrow=4,ncol=5) 或m<-matrix(1:20,4,5)
矩阵默认按列分配,即上述结果为:
1 5 9 13 17
2 6 10 14 18
3 7 11 15 19
4 8 12 16 20
matrix(1:20,4,byrow=T)此按行分布,即输出结果如下(若为F则按列分布)
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
二、数组
x<-1:20
①dim(x) <- c(2,2,5) x此时变为三维数组
②构造数组:
dim1 <-c(“A1”,”A2”)
dim2<-c(“B1”,”B2”,”B3”)
dim3<-c(“C1”,”C2”,”C3”,”C4”)
Z <-array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))
③Titanic为R中内置数据集的数组
三、矩阵的索引
构造矩阵m<-matrix(1:20,4,5,byrow=T),即为
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
m[1,2] 即为2
m[1,c(2,3,4)] 第1行,2,3,4,列的数据
m[c(2:4),c(2,3)] 输出矩阵一个子集
m[2, ] 输出第2行数据
m[ ,2] 输出第2列数据
m[2] 默认输出第2行第1列的数,即6
m[-1,2] 即去除第1行,再取第2列
m+1,m*2 表示每个元素都乘以2
m+m 两个矩阵相加时,对应位置相加
若n <-matrix(1:20,5,4) ,则n+m会报错
colSums(m) 计算每一列的和
rowSums(m) 计算每一列的和
若构造m<-matrix(1:9,3,3) t<-matrix(2:10,3,3)
m*t 对应位置相乘,为矩阵内积
m %*% t 矩阵外积
diag(m) 返回对角线位置的值,即1,5,9
t(m) 将矩阵m转置,即行列互换
其他章节内容可以看我的个人微信公众号:全哥的学习生涯
21-列表
列表即一些对象的有序集合,可以存储若干向量、矩阵、数据框,甚至其他列表的组合。
① 在模式上与向量相似,都是一维数据集合
② 向量只能存储一种数据类型,列表中的对象则可以是R中的任何数据结构,甚至列表本身。
R内置数据集state.center即列表数据
创建列表:list()
③ 列表的访问
mlist<-list(a,b,c,d)
mlist[1] 即输出向量a
一次访问多个列表元素: mlist[c(1,4)]
也可用名称访问列表,即state.center[c(“x”,”y”)]
state.center $ x 访问列表的另一种形式
mlist[[1]] 此时的输出结果变为元素本身类型
class(mlist[1]); class(mlist[[1])) 可测试元素类型
若给列表赋值,比如如上两个中括号才可以
Mlist[[5]] <-删除列表元素
其他章节内容可以看我的个人微信公众号:全哥的学习生涯
22-数据框
一、数据框的概念
数据框是一种表格式数据结构,数据集通常是由是由数据构成的一个矩形数组,行表观测,列表变量。(记录与字段/事例与属性)
数据框实际上是一个列表,列表中的元素是向量,这些向量构成数据框的列,每一列必须具有相同长度,所以数据框是矩形结构,且数据框的列必须命名。数据框并不是矩阵,因为矩阵要求元素属性必须相同。
即:
(1) 数据框形状上很像矩阵
(2) 数据框是比较规则的列表
(3) 矩阵必须为同一数据类型
(4) 数据框每一列必须为同一类型,每一列则不必
R内置数据集iris,mtcars,rock即为数据框
创建数据框:state<-data.frame(state.name,state.abb,state.region,state.x77)
二、数据框的访问
state[1] 输出第1列数据
state[c(2,4)] 输出2,4列数据
state[-c(2,4)] 去除2,4列数据后再输出其他数据
利用行和列的名字也可以取出对应的行列
state[ ,”state.abb”]
plot(women$height,women$weight) 输出散点图
lm(weight ~height,data=women) 线性回归
attach(mtcars) 直接加载数据框的内容,之后直接敲列名即可,不用加$
rownames(mtcars) colnames(mtcars) 取行名与列名
with(mtcars,{mgg}) 取mtcars中的mgg列
其他章节内容可以看我的个人微信公众号:全哥的学习生涯
23-因子
① R中的变量可以分为:名义型变量(相互间独立,无顺序差别)、有序型变量(相互间有联系,但又并非连续型数值)、连续型变量
② 在R中连续型变量和有序型变量统称为因子,factor,这些分类变量的可能值称为一个水平level,例如good,better,best都称为一个level,由这些水平值构成的向量就称为因子(整个集合才称为因子),mtcars$cyl即为一个因子
③ 因子的最大作用是进行数据分类,计算频率与频数
④ 因子的应用:计算频数、独立性检验、相关性检验、方差分析、主成分分析、因子分析等等
⑤ table(mtcars$cyl) 可用于频数统计,因子即cyl,而因子的level为4,6,8
⑥ f <- factor(c(“red”,”yellow”,”green”)) 即因子类型的数据
⑦ plot(factor(mtcars$cyl)) 输出条形图
注意:向量输出散点图,而因子输出条形图
⑧ state.division、state.region为因子类型的数据