开源的 Python 数据分析库Pandas 简介

         阅读本文之前请参阅-----如何系统的自学python

        Pandas 是一个开源的 Python 数据分析库,它提供了高性能、易用的数据结构和数据分析工具。Pandas 特别适合处理表格数据,例如时间序列数据、异构数据等。以下是对 Pandas 的简明扼要的介绍,包括一些基本的概念和操作示例。

        Pandas 的核心数据结构

1. **Series**:一维的带标签数组,可以存储任何数据类型(整数、字符串、浮点数、Python 对象等)。
2. **DataFrame**:二维的表格型数据结构,具有灵活的行索引和可变的列名。DataFrame 可以被看作是一个由 Series 组成的字典。

        安装 Pandas

在 Python 环境中,你可以使用 pip 来安装 Pandas:


pip install pandas

        创建 Series

创建一个 Series 非常简单,你只需要传递一个列表或数组给 Series 构造器,并为它指定一个索引。


import pandas as pd# 创建一个 Series
s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s)

输出:


a    1
b    3
c    5
d    7
e    9
dtype: int64
 

        创建 DataFrame

DataFrame 可以通过多种方式创建,例如从一个字典、一个列表的列表、一个 Series 的字典等。

```python
# 创建一个 DataFrame
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],'Age': [24, 27, 22],'Salary': [85000, 92000, 60000]
})
print(df)

输出:


       Name  Age  Salary
0    Alice   24   85000
1      Bob   27   92000
2  Charlie   22   60000
 

        数据访问

在 Pandas 中,你可以使用多种方式来访问数据。


# 访问单个值
print(df.loc[0, 'Name'])  # 输出:Alice# 访问多行多列
print(df.loc[0:1, ['Name', 'Age']])# 访问列
print(df['Name'])# 访问行
print(df.loc[0])# 使用条件访问数据
print(df[df['Age'] > 25])

        数据操作

Pandas 提供了丰富的数据操作功能,包括排序、筛选、合并、分组等。


# 排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)# 筛选
df_filtered = df[df['Salary'] > 70000]
print(df_filtered)# 合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
df_merged = pd.merge(df1, df2, on='A')
print(df_merged)# 分组
grouped = df.groupby('Name')['Salary'].mean()
print(grouped)

        数据清洗

Pandas 提供了多种数据清洗工具,例如处理缺失值、重复值等。


# 处理缺失值
df['Missing'] = [1, 2, None, 4]
df_cleaned = df.dropna()  # 删除包含缺失值的行
print(df_cleaned)# 处理重复值
df['Duplicate'] = [1, 1, 2, 2]
df_unique = df.drop_duplicates()  # 删除重复的行
print(df_unique)

        数据聚合

Pandas 允许你对数据进行聚合操作,例如计算总和、平均值、最大值、最小值等。


# 聚合操作
print(df.sum())  # 计算每列的总和
print(df.mean())  # 计算每列的平均值
print(df.max())  # 计算每列的最大值
print(df.min())  # 计算每列的最小值

        时间序列分析

Pandas 在处理时间序列数据方面非常强大,它提供了许多用于日期和时间的工具。


# 创建时间序列数据
dates = pd.date_range('20230101', periods=3)
ts = pd.Series([1.5, -1.2, 2.8], index=dates)
print(ts)# 时间序列操作
print(ts.resample('D').mean())  # 按天聚合数据

        结论

        Pandas 是一个功能强大的数据分析库,它提供了丰富的数据结构和数据分析工具。通过使用 Pandas,你可以轻松地进行数据清洗、处理、分析和可视化。无论是数据科学家、数据分析师还是数据工程师,Pandas 都是 Python 生态系统中不可或缺的一部分。掌握 Pandas 的基本用法,将极大地提高你的数据处理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/707931.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot实现旅游路线规划系统项目【项目源码+论文说明】

基于springboot实现旅游路线规划系统演示 摘要 随着互联网的飞速发展以及旅游产业的逐渐升温,越来越多人通过互联网获取更多的旅游信息,包括参考旅游文纪等内容。通过参考旅游博主推荐的旅游景点和规划线路,参考计划着自己的旅行&#xff0c…

【《高性能 MySQL》摘录】第 8 章 优化服务器设置

文章目录 8.1 MySQL 配置的工作原理8.1.1 语法、作用域和动态性8.1.2 设置变量的副作用8.1.3 入门8.1.4 通过基准测试迭代优化 8.2 什么不该做8.3 创建MySQL配置文件8.3.1 检查 MySQL 服务器状态变量 8.4 配置内存使用8.4.1 MySQL 可以使用多少内存8.4.2 每个连接需要的内存8.4…

STL常见容器(list容器)---C++

STL常见容器目录: 6.list容器6.1 list基本概念6.2 list构造函数6.3 list 赋值和交换6.4 list 大小操作6.5 list 插入和删除6.6 list 数据存取6.7 list 反转和排序6.8自定义排序案例 6.list容器 6.1 list基本概念 功能: 将数据进行链式存储; …

Flutter输入框换行后自适应高度

Flutter输入框换行后输入框高度随之增加 效果 设计思想 通过TextEditingController在build中监听输入框,输入内容后计算输入框高度然后自定义适合的值,并且改变外部容器高度达到自适应高度的目的 参考代码 //以下代码中的值只适用于案例,…

MyBatis 学习(一)之 MyBatis 概述

目录 1 MyBatis 介绍 2 MyBatis 的重要组件 3 MyBatis 执行流程 4 参考文档 1 MyBatis 介绍 MyBatis 是一个半自动化的 ORM (Object-Relational Mapping,对象关系映射)持久层框架,它允许开发者通过 XML 或注解将对象与数据库中…

docker的简介--安装--操作命令

1.docker的简介 1.1docker是什么 用一句话来说docker就是一个新一代虚拟化技术 Docker是一种开源的平台,用于开发、交付和运行应用程序。它允许开发人员将应用程序和它们的依赖打包在一个容器中,然后部署到任何支持Docker的环境中。Docker的主要特点包括…

【React架构 - Scheduler中的MessageChannel】

前序 我们都知道JS代码是在浏览器5个进程(下面有介绍)中渲染进程中的Js引擎线程执行的,其他还有GUI渲染线程、定时器线程等,而页面的布局和绘制是在GUI线程中完成的,这些线程之间是互斥的,所以在执行Js的同时会阻塞页面的渲染绘制…

android应用开发基础知识,安卓面试2020

第一章:设计思想与代码质量优化 1、设计思想六大原则 2、三大设计模式 3、数据结构 4、算法 第二章:程序性能优化 1、启动速度和执行效率优化 2、布局检测与优化 3、内存优化 4、耗电优化 5、网络传输与数据存储优化 6、APK大小优化 7、屏幕适配 8、…

用Java语言创建的Spring Boot项目中,如何传递List集合呢?

前言: 在上篇文章中,用Java语言创建的Spring Boot项目中,如何传递数组呢??-CSDN博客,我们了解到Spring Boot项目中如何传递数组,但是,对于同类型的List集合,我们又该如何…

Centos7:自动化配置vim | suoders信任列表添加普通用户

Centos7:自动化配置vim | suoders信任列表添加普通用户 vim 配置原理sudoers系统可信任列表中添加普通用户自动化配置vim vim 配置原理 在目录/etc下有一个vimrc文件,该文件是系统中公共的vim配置文件,对所有用户都成立。  而在每个普通用户…

【Kafka系列 06】Kafka Producer源码解析

温馨提示:本文基于 Kafka 2.3.1 版本。 一、Kafka Producer 原理图 生产者的 API 使用还是比较简单,创建一个 ProducerRecord 对象(这个对象包含目标主题和要发送的内容,当然还可以指定键以及分区),然后调…

poi 设置允许西文在单词中间换行

说明本文是CSDN-问答模块,题主提问。问题描述:poi 设置允许西文在单词中间换行 一、问题描述 poi 设置允许西文在单词中间换行? // 创建一个新的文档XWPFDocument document = new XWPFDocument();// 创建段落XWPFParagraph firstParagraph = document.createParagraph();fir…

2022《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记2

A. Implementation Details 3D Distillation. 我们基于PyTorch实现。为了提取,我们使用Adam[26]作为优化器,初始学习率为1e−4,并训练100个epochs。对于MinkowskiNet,我们对ScanNet和Matterport3D实验使用2cm的体素大小,对nuScenes使用5cm的体素尺寸。对于室内数据集,我…

RTSPServer推流服务

RTSPServer推流服务 1.开发原因 由于项目需要使用,虽然有现成的RTSPServer推流服务,由于是闭源代码,无法查看了解内部的逻辑处理流程,所以急需要一套较为稳定并可以使用的推流服务,并且从网上看大部分的RTSPServer推流…

IntelliJ IDEA 常用快捷键和下载链接

下载链接(windows) 下载 IntelliJ IDEA – 领先的 Java 和 Kotlin IDE 编码时: 跳转到引用方法的地方 (有多个引用时会出现下拉列表) ctrl鼠标左键 跳转后回到原来的地方 …

LeetCode 2120.执行所有后缀指令

现有一个 n x n 大小的网格,左上角单元格坐标 (0, 0) ,右下角单元格坐标 (n - 1, n - 1) 。给你整数 n 和一个整数数组 startPos ,其中 startPos [startrow, startcol] 表示机器人最开始在坐标为 (startrow, startcol) 的单元格上。 另给你…

后端程序员入门react笔记(六)- 讲透Promise与Fetch

js声明变量的三种方式 我们通常使用 var let 和const来声明js的变量,但是这三者有什么区别呢? var的变量可以是全局的或者函数作用域,而let和const只能是块级作用域var和let可以重新赋值,而const是不允许重新赋值的,…

【王道数据结构】【chapter7查找】【P285t5】

线性表中各节点的检索概率不等时,可用如下策略提高顺序检索的效率;若找到指定的结点,则将该结点和其前驱结点(若存在)交换,使得经常被访问的结点尽量位于表的前端。试设计在顺序结构和链式结构的线性表盘上…

python中集合(Set)和列表(List)性能比较

文章目录 引言1. Set和List2. 性能对比3. 总结 引言 在当今的软件开发过程中,Python 已经成为了一种极为流行的编程语言,得益于其简洁的语法和强大的库支持。在 Python 中,列表(List)和集合(Set&#xff0…

敏捷开发中如何写好用户故事?

什么是用户故事? 用户故事(user story)是一个用来确认用户和用户需求的简短描述,作为什么用户,希望如何,这样做的目的或者价值何在。用户故事在软件研发中又被描述为需求。用户故事通常的格式为&#xff1…