1、数据框的概念和特点
数据框是二维的表格形式数据结构,是R语言中最常用的数据结构之一。有如下特点:
(1)异质性:各列不同的数据类型
(2)命名索引:每列都有一个名称
(3)可扩展性:包含任意数量的行和列
(4)缺失值处理:提高代码得效率
多种特点使数据框在数据和分析复杂数据时非常有效和方便。
2、创建数据框
(1)手动创建数据框
使用data.frame()函数,可以通过列名和数据向量创建数据框。
每个列名后面紧跟着一个数据向量,每个数据向量表示数据框中的一列。
# 使用data.frame()创建数据框
df<-data.frame(Region=c('North','North','South','South','North','South'),Crop=c('Wheat','Rice','Corn','Wheat','Rice','Corn'),Production=c(50000,80000,70000,55000,85000,72000),Area=c(10000,12000,15000,11000,13000,16000)
)
print(df)# 在这个示例中,我们创建了一个包含区域、作物、产量和面积的数据框
# Region、Corp、Production、Area是列名,后面的向量是数据
(2)从外部读入数据框
用read.table()、read.csv()函数读入外部文件的表格数据,也将可以数据框的形式保存在R中。
# 假设我们有一个crop_data.csv的CSV文件,其中包含了相同数据(区域、作物、产量和面积)# 从csv文件创建数据框
df<-read.csv("crop_data.csv")
# 显示数据
print(df)# 使用read.csv()函数从CSV文件读取数据时,默认会将文件的第一行作为列名,其余行作为数据
3、数据框的基本属性
数据框具有多种基本属性可以用于查看和处理数据,包括纬度、列名、数据类型、列数、行数、摘要信息等。
# 查看数据框的维度
dim(df)# 查看数据框的列名
names(df)# 查看数据框的数据类型
str(df)# 查看数据框的摘要
summary(df)
2、数据框的基本操作
在R语言中,可以使用不同的索引方式对数据框中的数据进行访问、索引和切片。
# 使用行列索引获取数据框中的单个元素
element<-df[2,3] # 获取第2行、第3列的元素
print(element)# 使用行列索引获取数据框中的子集(第1到第3行,第2列)
subset_df<-df[1:3,2]
print(subset_df)# 使用列名索引获取数据框中的单列
column<-df$Crop # 获取Crop列
print(column)# 使用列名索引获取数据框中的多列子集
subset_df<-df[,c("Crop","Area")]
print(subset_df)