下载包
导入包
数据读写
import polars as pl
from datetime import datetimedf = pl.DataFrame({"integer": [1, 2, 3],"date": [datetime(2022, 1, 1),datetime(2022, 1, 2),datetime(2022, 1, 3),],"float": [4.0, 5.0, 6.0],}
)
print(df)
df.write_csv("output.csv")
df_csv = pl.read_csv("output.csv")
print(df_csv)
df_csv = pl.read_csv("output.csv", try_parse_dates=True)
print(df_csv)
增
增加列
删除
查找
head() 函数用于返回 DataFrame 中的前 n 行数据,默认为 5 行。
示例代码:
import polars as pldf = pl.read_csv('data.csv')
print(df.head())
3.filter()
filter() 函数用于根据指定的条件筛选 DataFrame 中的行数据。
示例代码:
import polars as pldf = pl.read_csv('data.csv')
filtered_df = df.filter(pl.col('age') > 18)#找age大于18的数据
print(filtered_df)
查找一列元素
.col
.col 是 Polars 库中用于选择 DataFrame 中的一列数据的方法,它返回一个 Series 对象。在 Polars 中,DataFrame 对象由多个 Series 对象组成,每个 Series 对象表示一列数据。
示例代码:
import polars as pldf = pl.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],'age': [20, 30, 25],'gender': ['F', 'M', 'M']
})age_col = df.col('age')
print(age_col)
sort()
sort() 函数用于根据指定的列对 DataFrame 中的数据进行排序操作。
示例代码:
import polars as pldf = pl.read_csv('data.csv')
sorted_df = df.sort(by='age')
print(sorted_df)
1. 选择和筛选数据
若要从 DataFrame 中选择特定列,可以使用 select()
该方法。下面是一个示例:
import polars as pl# Load diamond data from a CSV file
df = pl.read_csv('https://raw.githubusercontent.com/pycaret/pycaret/master/datasets/diamond.csv')# Select specific columns: carat, cut, and price
selected_df = df.select(['Carat Weight', 'Cut', 'Price'])# show selected_df head
selected_df.head()
修改
fill_null()
fill_null() 函数用于将 DataFrame 中的空值填充为指定的值。
import polars as pl
df = pl.read_csv('data.csv')
filled_df = df.fill_null(0)#用0填充空值
print(filled_df)
遍历
条件查询
创建dataframe
pl.DataFrame
pl.DataFrame 是 Polars 库中用于创建 DataFrame 对象的类。DataFrame 是一种二维表格数据结构,其中每一列可以是不同的数据类型,类似于 Excel 表格或者 SQL 中的数据表。
示例代码:
import polars as pldata = {'name': ['Alice', 'Bob', 'Charlie'],'age': [20, 30, 25],'gender': ['F', 'M', 'M']
}df = pl.DataFrame(data)
print(df)
连接
join()
join() 函数用于将两个 DataFrame 中的数据根据指定的列进行连接操作。
示例代码:
import polars as pl
df1 = pl.read_csv('data1.csv')
df2 = pl.read_csv('data2.csv')
joined_df = df1.join(df2, on='id')
print(joined_df)
透视表-聚合函数
5.groupby()
groupby() 函数用于对 DataFrame 中的数据进行分组,并对分组后的数据进行聚合操作。
示例代码:
import polars as pl
df = pl.read_csv('data.csv')
grouped_df = df.groupby('gender').agg({'age': ['min', 'max', 'mean'], 'salary': 'sum'})
print(grouped_df)
.pivot
df.pivot(index='left', columns='center', values='right', aggregate_function='sum')
合并-填充
投影
4.select()
select() 函数用于选择 DataFrame 中的列数据。
示例代码:
import polars as pldf = pl.read_csv('data.csv')
selected_df = df.select(['name', 'age'])#返回列名为name和age的列数据
print(selected_df)