DataFrame是什么?
DataFrame 是一种用于处理和分析数据的二维标签数据结构。它类似于Excel中的电子表格或数据库中的表格,由行和列组成。每个列可以是不同的数据类型(如整数、浮点数、字符串等),并且可以进行各种数据操作,如过滤、聚合和可视化。
特点
- 二维结构:DataFrame 是一个二维数据结构,可以包含多种不同的数据类型(如数值、字符串、布尔值等)。
- 标签索引:每个轴(行和列)都有标签(即索引),这使得 DataFrame 在数据选择和操作时非常灵活。
- 对齐操作:DataFrame 在算术运算时会自动对齐数据,确保相同标签的数据对齐进行运算。
创建DataFrame
import pandas as pd# 从字典创建DataFrame
data = {"name": ["Alice", "Bob", "Crestina", "john"],"age": [12, 32, 38, 22],"city": ["云南", "广西", "香港", "香港"]
}
df = pd.DataFrame(data)
print(df)
常用操作
print("--------------查看:返回前几条数据-----------------")
print(df.head())print("--------------查看:返回后几条数据-----------------")
print(df.tail())print("--------------查看:数据结构-----------------")
print(df.info())print("--------------查看:数据的统计信息-----------------")
print(df.describe())print("--------------选择:单列-----------------")
print(df["name"])print("--------------选择:多列-----------------")
print(df[["name", "age"]])print("--------------选择:按标签选择行-----------------")
print(df.loc[0])print("--------------选择:按位置选择行-----------------")
print(df.iloc[1])print("--------------过滤:年龄大于20-----------------")
print(df[df["age"] > 20])print("--------------操作:添加列-----------------")
df["id"] = ["5", "6", "7", "9"]
print(df)print("--------------操作:删除列-----------------")
df.drop("id", axis=1, inplace=True)
print(df)print("--------------清理:删除缺失值-----------------")
df["id"] = ["5", "6", np.nan, np.nan]
print(df)print("--------------清理:行中有NAN,则删除整行-----------------")
# print(df.dropna(axis= 0))print("--------------清理:列中有NAN,则删除整列-----------------")
# print(df.dropna(axis= 1))print("--------------清理:填充NAN-----------------")
print(df.fillna("0"))print("--------------聚合:数据聚合(按city分组,计算平均值)-----------------")
print(df.groupby("city").mean())