DataFrame结构
DataFrame 一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。其结构图示意图,如下所示:
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
data: 输入的数据,可以是 ndarray,series,list,dict,标量以及一个 DataFrame
index: 行标签,如果没有传递 index 值,则默认行标签是 RangeIndex(0, 1, 2, …, n),n 代表 data 的元素个数。
columns: 列标签,如果没有传递 columns 值,则默认列标签是 RangeIndex(0, 1, 2, …, n)。
dtype: 要强制的数据类型。只允许使用一种数据类型。如果没有,自行推断
copy: 从输入复制数据。对于dict数据,copy=True,重新复制一份。对于DataFrame或ndarray输入,类似于copy=False,使用的是试图
data = [1,2,3,4,5]#普通列表创建
df = pd.DataFrame(data)
print(df)
# 列表中每个元素代表一行数据
data = [['xiaowang',20],['Lily',30],['Anne',40]]#嵌套列表,有点像字典,其实与字典不同,就是列表中的元素是列表
# 未分配列标签
df = pd.DataFrame(data)
print(df)
data = [['xiaowang', 20, "男", 5000],['Lily', 30, "男", 8000],['Anne', 40, "女", 10000]]
# 分配列标签
df = pd.DataFrame(data,columns=['Name','Age',"gender", "salary"], dtype=int)
# int满足某列特征,会自动使用, 不满足,则自动识别
print(df)
尽量别用dtype,不知道为什么,经常报错
可以在之后用astype调整
df['salary'] = df['salary'].astype(int)
#列表嵌套字典
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
#df = pd.DataFrame(data)
df = pd.DataFrame(data, index=['first', 'second'])print(df)
列操作
data = {'Name':['关羽', '刘备', '张飞', '曹操'],'Age':[28,34,29,42]}
# 定义行标签
index = ["rank1", "rank2", "rank3", "rank4"]
# 通过字典创建DataFrame
df = pd.DataFrame(data, index=index)
print(df)
print("=========df['Name']:取得Name列===============")
print(df['Name'])
print("=========df['Age']:取得Age列===============")
print(df['Age'])
# 注意列不是能使用切片选取多列
print("=========df不能使用切片选取多列===============")
print(df['Name': 'Age']) # 空DataFrame
df[1] # 会报错
在这一点上与series不同,列索引不能用位置索引
还可以使用 insert() 方法插入新的列
df.insert(loc, column, value, allow_duplicates=False)
loc : 整型,插入索引,必须验证0<=loc<=len(列)
column : 插入列的标签,类型可以是(字符串/数字/散列对象)
value : 数值,Series或者数组
allow_duplicates : 允许重复,可以有相同的列标签数据,默认为False
info=[['王杰',18],['李杰',19],['刘杰',17]]
df=pd.DataFrame(info,columns=['name','age'])
print(df)
#注意是column参数
#数值1代表插入到columns列表的索引位置 :loc : 整型,插入索引,必须验证0<=loc<=len(列)
df.insert(1,column='score',value=[91,90,75])
print("=====df.insert插入数据:=======")
print(df)
# 可以添加重复列标签数据
df.insert(1,column='score',value=[80,70,90],allow_duplicates=True)
print(df)
通过 del 和 pop() 都能够删除 DataFrame 中的数据列,pop有返回值
import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)
#使用del删除
del df['one']
print("=======del df['one']=========")
print(df)
#使用pop方法删除
res_pop = df.pop('two')
print("=======df.pop('two')=========")
print(df)
print("=======res_pop = df.pop('two')=========")
print(res_pop)
# 标签为b的行到标签为d的行, 对应标签为one的列
df.loc['b':'d',"one"] # 注意使用行标签切片,包含结束的行
loc使用的是标签
iloc使用的是位置索引
两者不能混用,比如在loc中使用位置索引,或者在iloc中使用标签索引
1.列表/元组出发:—>表示的一行一行数据
1.列表嵌套列表:[[‘xiaowang’,20],[‘Lily’,30],[‘Anne’,40]]
((‘xiaowang’,20),(‘Lily’,30),(‘Anne’,40))
– 使用默认的列表标签
2.列表嵌套字典:[{‘a’: 1, ‘b’: 2},{‘a’: 5, ‘b’: 10, ‘c’: 20}]
({‘a’: 1, ‘b’: 2},{‘a’: 5, ‘b’: 10, ‘c’: 20})
— 使用字典的key作为标签
2.字典出发: ----> 表示一列一列数据
1.字典对应值是列表:{‘Name’:[‘关羽’, ‘刘备’, ‘张飞’, ‘曹操’],‘Age’:[28,34,29,42]}
– 行使用默认标签
2. 字典对应值是Series
{‘one’ : pd.Series([1, 2, 3], index=[‘a’, ‘b’, ‘c’]),
‘two’ : pd.Series([1, 2, 3, 4], index=[‘a’, ‘b’, ‘c’, ‘d’])}
– 行和列都是设置的标签,并且还可以指定列的数据类型4
操作:
1.列操作
1).取(查)
- df[“列标签”] — 单列数据
- df[[“列标签1”,“列标签2”]] - 多列数据
注意:①.不能使用位置下标②.不能使用标签切片2).添加:df["新列标签"] = 值 序列或Seriesinsert(loc<位置>,column<列名>,value<值>)- loc取值范围:0<=loc<=len(列)3).删除: del :python原始的删除操作,直接就销毁pop : 也销毁,不同在于有返回值,返回值是需要删除的内容4).改:df["源列标签"] = 值2.行操作1).取(查)loc: 使用行标签df.loc["行标签"] ---单行df.loc[["行标签1"],["行标签2"]] - 多行iloc:使用行标签位置索引df.loc[位置索引] ---单行df.loc[[位置索引1],[位置索引2]]还可以使用切片:df.iloc[位置索引1:位置索引3] ---切片,不包含结束行注意:不能行标签和行位置索引 混用2)增加:行追加:append1).追加字典-注意添加ignore_index=True,或者将字典转化为Series并且设置name参数2).追加列表 如果list是一维的,则以列的形式追加如果list是二维的,则以行的形式追加如果list是三维的,只添加一个值删除:drop("行标签") 和 Series一样操作-注意:标签找不到会被报错- 默认不改变源数据
3.DataFrame属性和常用函数
a_l = [[10],[20]]
df3 = df.append(a_l) # 需要添加
print(df3)
和下面相同
a_l = [10,20]df3 = df.append(a_l) # 需要添加
print(df3)
三维数组加入时,将它看作二维数组加入,因此只加入一个值
s = [[[1,2,3,4]]]
df.append(s)
[1,2,3,4]将这个看作一个元素并插入
您可以使用行索引标签,从 DataFrame 中删除某一行数据。如果索引标签存在重复,那么它们将被一起删除。
常用属性和方法汇总
名称 属性&方法描述
T 行和列转置。
axes 返回一个仅以行轴标签和列轴标签为成员的列表。
dtypes 返回每列数据的数据类型。
empty DataFrame中没有数据或者任意坐标轴的长度为0,则返回True
columns 返回DataFrame所有列标签
shape 返回一个元组,获取行数和列数,表示了 DataFrame 维度。
size DataFrame中的元素数量。
values 使用 numpy 数组表示 DataFrame 中的元素值。
head() 返回前 n 行数据。
tail() 返回后 n 行数据。
rename() rename(columns=字典) ,修改列名
info() 可以显示信息,例如行数/列数,总内存使用量,每列的数据类型以及不缺少值的元素数
sort_index() 默认根据行标签对所有行排序,或根据列标签对所有列排序,或根据指定某列或某几列对行排序。
sort_values() 既可以根据列数据,也可根据行数据排序
info()函数
用于打印DataFrame的简要摘要,显示有关DataFrame的信息,包括索引的数据类型dtype和列的数据类型dtype,非空值的数量和内存使用情况。
df. sort_index()
sort_index(axis=0, ascending=True, inplace=False)
注意:df.sort_index()可以完成和df.sort_values()完全相同的功能,但python更推荐用只用df.sort_index()对“根据行标签”和“根据列标签”排序,其他排序方式用df.sort_values()。
axis:0按照行名排序;1按照列名排序
ascending:默认True升序排列;False降序排列
inplace:默认False,否则排序之后的数据直接替换原来的数据
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')
作用:既可以根据列数据,也可根据行数据排序。
注意:必须指定by参数,即必须指定哪几行或哪几列;无法根据index名和columns名排序(由.sort_index()执行)
by:str or list of str;如果axis=0,那么by=“列名”;如果axis=1,那么by=“行名”。
axis:{0 or ‘index’, 1 or ‘columns’}, default 0,默认按照列排序,即纵向排序;如果为1,则是横向排序。
ascending:布尔型,True则升序,如果by=[‘列名1’,‘列名2’],则该参数可以是[True, False],即第一字段升序,第二个降序。
inplace:布尔型,是否用排序后的数据框替换现有的数据框。
na_position:{‘first’, ‘last’}, default ‘last’,默认缺失值排在最后面。