开源的 Python 数据分析库Pandas 简介

         阅读本文之前请参阅-----如何系统的自学python

        Pandas 是一个开源的 Python 数据分析库,它提供了高性能、易用的数据结构和数据分析工具。Pandas 特别适合处理表格数据,例如时间序列数据、异构数据等。以下是对 Pandas 的简明扼要的介绍,包括一些基本的概念和操作示例。

        Pandas 的核心数据结构

1. **Series**:一维的带标签数组,可以存储任何数据类型(整数、字符串、浮点数、Python 对象等)。
2. **DataFrame**:二维的表格型数据结构,具有灵活的行索引和可变的列名。DataFrame 可以被看作是一个由 Series 组成的字典。

        安装 Pandas

在 Python 环境中,你可以使用 pip 来安装 Pandas:


pip install pandas

        创建 Series

创建一个 Series 非常简单,你只需要传递一个列表或数组给 Series 构造器,并为它指定一个索引。


import pandas as pd# 创建一个 Series
s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s)

输出:


a    1
b    3
c    5
d    7
e    9
dtype: int64
 

        创建 DataFrame

DataFrame 可以通过多种方式创建,例如从一个字典、一个列表的列表、一个 Series 的字典等。

```python
# 创建一个 DataFrame
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],'Age': [24, 27, 22],'Salary': [85000, 92000, 60000]
})
print(df)

输出:


       Name  Age  Salary
0    Alice   24   85000
1      Bob   27   92000
2  Charlie   22   60000
 

        数据访问

在 Pandas 中,你可以使用多种方式来访问数据。


# 访问单个值
print(df.loc[0, 'Name'])  # 输出:Alice# 访问多行多列
print(df.loc[0:1, ['Name', 'Age']])# 访问列
print(df['Name'])# 访问行
print(df.loc[0])# 使用条件访问数据
print(df[df['Age'] > 25])

        数据操作

Pandas 提供了丰富的数据操作功能,包括排序、筛选、合并、分组等。


# 排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)# 筛选
df_filtered = df[df['Salary'] > 70000]
print(df_filtered)# 合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
df_merged = pd.merge(df1, df2, on='A')
print(df_merged)# 分组
grouped = df.groupby('Name')['Salary'].mean()
print(grouped)

        数据清洗

Pandas 提供了多种数据清洗工具,例如处理缺失值、重复值等。


# 处理缺失值
df['Missing'] = [1, 2, None, 4]
df_cleaned = df.dropna()  # 删除包含缺失值的行
print(df_cleaned)# 处理重复值
df['Duplicate'] = [1, 1, 2, 2]
df_unique = df.drop_duplicates()  # 删除重复的行
print(df_unique)

        数据聚合

Pandas 允许你对数据进行聚合操作,例如计算总和、平均值、最大值、最小值等。


# 聚合操作
print(df.sum())  # 计算每列的总和
print(df.mean())  # 计算每列的平均值
print(df.max())  # 计算每列的最大值
print(df.min())  # 计算每列的最小值

        时间序列分析

Pandas 在处理时间序列数据方面非常强大,它提供了许多用于日期和时间的工具。


# 创建时间序列数据
dates = pd.date_range('20230101', periods=3)
ts = pd.Series([1.5, -1.2, 2.8], index=dates)
print(ts)# 时间序列操作
print(ts.resample('D').mean())  # 按天聚合数据

        结论

        Pandas 是一个功能强大的数据分析库,它提供了丰富的数据结构和数据分析工具。通过使用 Pandas,你可以轻松地进行数据清洗、处理、分析和可视化。无论是数据科学家、数据分析师还是数据工程师,Pandas 都是 Python 生态系统中不可或缺的一部分。掌握 Pandas 的基本用法,将极大地提高你的数据处理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/707931.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot实现旅游路线规划系统项目【项目源码+论文说明】

基于springboot实现旅游路线规划系统演示 摘要 随着互联网的飞速发展以及旅游产业的逐渐升温,越来越多人通过互联网获取更多的旅游信息,包括参考旅游文纪等内容。通过参考旅游博主推荐的旅游景点和规划线路,参考计划着自己的旅行&#xff0c…

【《高性能 MySQL》摘录】第 8 章 优化服务器设置

文章目录 8.1 MySQL 配置的工作原理8.1.1 语法、作用域和动态性8.1.2 设置变量的副作用8.1.3 入门8.1.4 通过基准测试迭代优化 8.2 什么不该做8.3 创建MySQL配置文件8.3.1 检查 MySQL 服务器状态变量 8.4 配置内存使用8.4.1 MySQL 可以使用多少内存8.4.2 每个连接需要的内存8.4…

STL常见容器(list容器)---C++

STL常见容器目录: 6.list容器6.1 list基本概念6.2 list构造函数6.3 list 赋值和交换6.4 list 大小操作6.5 list 插入和删除6.6 list 数据存取6.7 list 反转和排序6.8自定义排序案例 6.list容器 6.1 list基本概念 功能: 将数据进行链式存储; …

Flutter输入框换行后自适应高度

Flutter输入框换行后输入框高度随之增加 效果 设计思想 通过TextEditingController在build中监听输入框,输入内容后计算输入框高度然后自定义适合的值,并且改变外部容器高度达到自适应高度的目的 参考代码 //以下代码中的值只适用于案例,…

MyBatis 学习(一)之 MyBatis 概述

目录 1 MyBatis 介绍 2 MyBatis 的重要组件 3 MyBatis 执行流程 4 参考文档 1 MyBatis 介绍 MyBatis 是一个半自动化的 ORM (Object-Relational Mapping,对象关系映射)持久层框架,它允许开发者通过 XML 或注解将对象与数据库中…

docker的简介--安装--操作命令

1.docker的简介 1.1docker是什么 用一句话来说docker就是一个新一代虚拟化技术 Docker是一种开源的平台,用于开发、交付和运行应用程序。它允许开发人员将应用程序和它们的依赖打包在一个容器中,然后部署到任何支持Docker的环境中。Docker的主要特点包括…

【React架构 - Scheduler中的MessageChannel】

前序 我们都知道JS代码是在浏览器5个进程(下面有介绍)中渲染进程中的Js引擎线程执行的,其他还有GUI渲染线程、定时器线程等,而页面的布局和绘制是在GUI线程中完成的,这些线程之间是互斥的,所以在执行Js的同时会阻塞页面的渲染绘制…

android应用开发基础知识,安卓面试2020

第一章:设计思想与代码质量优化 1、设计思想六大原则 2、三大设计模式 3、数据结构 4、算法 第二章:程序性能优化 1、启动速度和执行效率优化 2、布局检测与优化 3、内存优化 4、耗电优化 5、网络传输与数据存储优化 6、APK大小优化 7、屏幕适配 8、…

用Java语言创建的Spring Boot项目中,如何传递List集合呢?

前言: 在上篇文章中,用Java语言创建的Spring Boot项目中,如何传递数组呢??-CSDN博客,我们了解到Spring Boot项目中如何传递数组,但是,对于同类型的List集合,我们又该如何…

高频更新使用sse好还是WebSocket

在实现高频更新的系统时,选择Server-Sent Events (SSE)还是WebSocket主要取决于应用的具体需求、数据传输的方向性、以及实现的复杂性。 一.Server-Sent Events (SSE) SSE是一种允许服务器向客户端发送更新的技术,但不允许客户端向服务器发送消息&…

Centos7:自动化配置vim | suoders信任列表添加普通用户

Centos7:自动化配置vim | suoders信任列表添加普通用户 vim 配置原理sudoers系统可信任列表中添加普通用户自动化配置vim vim 配置原理 在目录/etc下有一个vimrc文件,该文件是系统中公共的vim配置文件,对所有用户都成立。  而在每个普通用户…

【Kafka系列 06】Kafka Producer源码解析

温馨提示:本文基于 Kafka 2.3.1 版本。 一、Kafka Producer 原理图 生产者的 API 使用还是比较简单,创建一个 ProducerRecord 对象(这个对象包含目标主题和要发送的内容,当然还可以指定键以及分区),然后调…

Git 分布式版本控制系统

Git是一个分布式版本控制系统,可以记录项目文件的变动并管理项目的不同版本。以下是Git的基本概念和使用方式: 仓库(Repository):Git用仓库来存储项目文件。仓库可以是本地仓库,也可以是远程仓库&#xff0…

poi 设置允许西文在单词中间换行

说明本文是CSDN-问答模块,题主提问。问题描述:poi 设置允许西文在单词中间换行 一、问题描述 poi 设置允许西文在单词中间换行? // 创建一个新的文档XWPFDocument document = new XWPFDocument();// 创建段落XWPFParagraph firstParagraph = document.createParagraph();fir…

2022《OpenScene: 3D Scene Understanding with Open Vocabularies》阅读笔记2

A. Implementation Details 3D Distillation. 我们基于PyTorch实现。为了提取,我们使用Adam[26]作为优化器,初始学习率为1e−4,并训练100个epochs。对于MinkowskiNet,我们对ScanNet和Matterport3D实验使用2cm的体素大小,对nuScenes使用5cm的体素尺寸。对于室内数据集,我…

RTSPServer推流服务

RTSPServer推流服务 1.开发原因 由于项目需要使用,虽然有现成的RTSPServer推流服务,由于是闭源代码,无法查看了解内部的逻辑处理流程,所以急需要一套较为稳定并可以使用的推流服务,并且从网上看大部分的RTSPServer推流…

Java 18中简单 Web 服务器

从 Java 18 开始,我们可以访问JEP 408中引入的简单 Web 服务器。我们可以通过命令行工具和 API 访问其功能。 简单 Web 服务器提供了一个提供静态文件服务的基本 Web 服务器。它被描述为对于测试、原型设计和教育很有用。该服务器有意使其设置和运行非常简单&#…

Azure DevOps和Jira比较

最近需要对管理工具调研,客户现在使用范围较广的就是Azure DevOps,使用的是一个免费版本,需要对工具自身的特长和客户的使用情况,进行一个调研。 查了一下资料,还有客户现在的使用情况,做一个总结。 两者…

IntelliJ IDEA 常用快捷键和下载链接

下载链接(windows) 下载 IntelliJ IDEA – 领先的 Java 和 Kotlin IDE 编码时: 跳转到引用方法的地方 (有多个引用时会出现下拉列表) ctrl鼠标左键 跳转后回到原来的地方 …

vscode windows 免密登录 powershell.sh

Linux 生成秘钥 ssh-keygenwindows powershell.sh $HOST_IP"zhang192.168.1.1" $PUBPATH"$HOME\.ssh\id_rsa.pub" $KEY(Get-Content "$PUBPATH" | Out-String); ssh "$HOST_IP" "mkdir -p ~/.ssh && chmod 700 ~/.ssh …