NumPy 和 Pandas 是 Python 中用于科学计算和数据分析的两个重要库。
Pandas:
1. 概述:
Pandas 是用于数据处理和分析的库,建立在 NumPy 的基础上,提供了高级的数据结构和数据操作工具。Pandas 的两个主要数据结构是 Series
和 DataFrame
。
2. 主要特点:
Series
:类似一维数组,带有标签的数据结构。DataFrame
:二维表格数据结构,类似数据库表。- 数据清洗:提供了丰富的函数来处理缺失数据和重复数据。
- 数据分组和聚合:支持灵活的分组和聚合操作。
- 时间序列处理:特别适用于处理时间序列数据。
- 数据导入和导出:支持多种格式,如 CSV、Excel、SQL 数据库等。
3. 使用示例:
import pandas as pd# 创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])# 创建 DataFrame
df = pd.DataFrame({'A': 1.0,'B': pd.Timestamp('20220101'),'C': pd.Series(1, index=list(range(4)), dtype='float32'),'D': np.array([3] * 4, dtype='int32'),'E': pd.Categorical(["test", "train", "test", "train"]),'F': 'foo'
})# 数据选择和操作
df['A'] = df['A'] * 2
subset = df[['A', 'B']]
filtered_data = df[df['A'] > 2]# 数据分组和聚合
grouped = df.groupby('E').sum()# 数据导入和导出
df.to_csv('example.csv', index=False)
loaded_data = pd.read_csv('example.csv')
NumPy 和 Pandas 在科学计算和数据分析领域发挥着关键作用,它们的功能互补,可以很好地结合使用。NumPy 提供了数值计算和数组操作的基础,而 Pandas 则提供了更高级的数据结构和分析工具,方便处理和分析结构化数据。