python数据分析:介绍pandas库的数据类型Series和DataFrame

图片

安装pandas

pip install pandas -i https://mirrors.aliyun.com/pypi/simple/

使用pandas

直接导入即可 import pandas as pd

pandas的数据结构

pandas提供了两种主要的数据结构:Series 和 DataFrame,类似于python提供list列表,dict字典,tuple元组等数据类型用于存储数据。

1. Series

Series 是一种一维的数组(类似于 Python 的列表),可以存储任何数据类型(整数、字符串、浮点数、Python对象等)。Series 是一种带有标签的数据结构,每个数据点都有一个索引。

图片

创建 Series

创建的series结构,默认索引从0开始(像list的索引一样),但是可以指定索引。

1)从列表创建Series

import pandas as pd data = [1,2,3,4,5] s = pd.Series(data) print(s)

图片

2)从字典创建 Series,键作为索引

 
import pandas as pd data_dict = {'a':1,'b':2,'c':3} s = pd.Series(data_dict) print(s)

图片

3)指定索引创建Series

 
import pandas as pddata = [1,2,3,4,5] s = pd.Series(data, index=['a','b','c','d','e'])print(s)

图片

Series的基本属性

  • values:返回 Series 中的数据值。
  • index:返回 Series 中的索引。
  • dtype:返回 Series 中数据的数据类型。
  • name:返回或设置 Series 的名称。

举例:定义一个series接口数据并指定索引和名称

data =[[1, 2, 3], [4, 5,6]]s = pd.Series(data, name='一维数组',index=['a','b'])print(f'值:{s.values}')print(f'索引:{s.index}')print(f'数据类型 {s.dtype}')print(f'名称 {s.name}')

图片

2. DataFrame

DataFrame 是一个二维的表格数据结构,具有标记的轴(行和列)。其中每一列相当于一个Series。

图片

创建 DataFrame

和Series结构一样默认索引从0开始,当然也可以指定索引。

1)从字典创建 DataFrame,字典的键是列名

import pandas as pddata_dict = {'name': ['lilei','lili','wanglei'],'age': [25,30,35],'city': ['shanghai','shenzhen','nanjing']} df = pd.DataFrame(data_dict)print(df)

图片

2)从列表的列表创建DataFrame

data = [ ['lilei',25], ['lili',30], ['wanglei',35] ] df = pd.DataFrame(data, columns=['Name','Age']) print(df)

图片

3)从Numpy 数组创建DataFrame并指定列名和索引

import numpy as np data = np.array([[1, 2], [3, 4], [5, 6]]) df = pd.DataFrame(data, columns=['A','B'],index=['a','b','c'])print(df)

图片

Series和DataFrame数据的常用函数和功能

1)head(n):返回前 n 个元素,默认返回前5个

图片

2)tail(n):返回后 n 个元素,默认返回后5个

图片

3)unique():返回 Series 中的唯一值(去掉重复的值)

图片

4)isnull():返回一个布尔 Series,指示每个值是否为 NaN

图片

5)dropna():删除所有 NaN值(numpy.nan)或者None值,返回一个新的数据

图片

举例:定义一个series结构数据,打印下上面方法获取的数据​​​​​​​

data = [1,2,3,4,5,[6,7],[8],None,{'a':10}] s = pd.Series(data) print(f'前3个元素\n{s.head(3)}') print(f'后3个元素\n{s.tail(3)}') print(f'判断是否为null\n{s.isnull()}')

图片

举例:定义一个series结构数据,打印删除NaN值后的数据​​​​​​​

import numpy as np data = [1,2,3,4,5,None,np.nan] s = pd.Series(data) new_s =s.dropna() print(f'删除NaN值\n{new_s}')

图片

举例:定义一个series结构数据,打印去重后的数据​​​​​​​

data=[1,2,3,4,5,4,5,6]s=pd.Series(data)print(f'唯一值{s.unique()}')

图片

6)to_dict函数:将DataFrame数据转换为字典

字典的键和值对应的是列名和列值

举例:读取csv文件内容,并转换为字典​​​​​​​

import pandas as pd dataframe = pd.read_csv("1.csv")print(dataframe)#将DataFrame数据格式转换为字典print(dataframe.to_dict())

结果如下:

图片

7)选择列数据

import pandas as pd 
dataframe = pd.read_csv("1.csv")
  • 选择某一列数据

print(dataframe[‘Name’])#选择Nmae这一列print(dataframe.age)#选择Age这一列#通过Ioc函数选择Name这一列print(dataframe.loc[:,['Name']])

图片

返回的某一列的数据类型是一个Series类型,对某列数据可以做循环打印该列的值。

for i in dataframe.Name:print(i)
  • 选择多列

#选择Nmae,age这两列print(dataframe[['Name','age']]) 
#通过loc()函数选择Name和age两列print(dataframe.loc[:,['Name','age']])

8)选择行数据

使用方式类似于list的切片操作​​​​​​​

print(dataframe[0:3])#取前3行数据print(dataframe[-4:-2])#取倒数第4行和第5行print(dataframe[0:10:2])#取前10行中每2行取1个

通过iIoc函数获取多行数据

print(dataframe.iloc[:10,:])#取前10行数据

9)选择指定的行和列数据

通过Ioc函数取某些行和列数据​​​​​​​

print(dataframe.loc[0:3,['Name']])print(dataframe.loc[0:3,['Name','age']])

10)按条件选择

举例:筛选age列大于25的数据

print(dataframe[dataframe.age > 25])

举例:筛选性别为男的数据

print(dataframe[dataframe.sex =='man'])

举例: 筛选索引等于0的数据

print(dataframe[dataframe.index == 0])

举例:筛选性别为男并age大于25的数据

print(dataframe[(dataframe.sex =='man') & (dataframe.age > 25)])

举例:筛选年龄大于25的Name这一列的数据

print(dataframe[dataframe.age > 25].loc[:,['Name']])

11)sort_values函数:使用该函数进行排序

图片

参数介绍

  • by:传入单个字符串或字符串列表(1个或者多个列名),表示按照列名进行排序。
  • axis:默认为0。0表示按列的值排序,1表示按行的值排序;一般不使用
  • ascending:布尔值或布尔值列表,默认为True。True表示升序排序,False表示降序排序。如果是一个列表,则列表中的每个元素对应by参数中每个列的排序顺序。
  • inplace:布尔值,默认为False。如果为True,则直接修改原DataFrame并返回None;如果为False,则返回一个新的排序后的DataFrame副本。
  • kind:排序算法的选择,默认为'quicksort'。其他选项包括'mergesort'和'heapsort'。对于大数据集,'quicksort'通常是最快的,但不一定是最稳定的。
  • na_position:{'first', 'last'},默认为'last'。表示缺失值(NaN)应该被放在排序后的数组的开始还是结束。
  • ignore_index:布尔值,默认为False。如果为True,则结果DataFrame的索引将被重置为默认的整数索引。

测试代码:

1)按列排序(升序)

print(dataframe.sort_values(by='Name'))
print(dataframe.sort_values(by=['Name','age']))


2)按列排序(倒序)

print(dataframe.sort_values(by='age',ascending=False))

3)不同列排列顺序不同(比如第一列正序,第二列倒序)

print(dataframe.sort_values(by=['Name','age'],ascending=[True,False]))

12)insert函数:插入列数据

插入某一列数据,参数j介绍:

  • loc: 传入整数,代表插入在第几列(0代表第1列)

  • column:列名

  • value:每列的值(单个值表示每一行值相同;传入列表,列表中的元素对应每一行的值)

  • allow_duplicates:为True表示允许列名重复,否则不允许

图片

测试代码:​​​​​​​

dataframe.insert(2,'area','China')dataframe.insert(3,'area',['China','America','korea','japan','China','America','korea','japan'],allow_duplicates=True)print(dataframe)

结果:

图片

共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”

-----指水滴不断地滴,可以滴穿石头;

-----比喻坚持不懈,集细微的力量也能成就难能的功劳。

----感谢读者的阅读和学习,谢谢大家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/64585.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GMSSL的不同python版本

链接1(推荐) 这个使用的库,是gm ssl 3.1.1。为什么推荐?因为这个有C源码。 GitHub - GmSSL/GmSSL-Python: Python binding to the GmSSL library 链接2 这个使用的库,是gmssl 3.2.2。搜索3.2.2,找不到相…

Python:枚举(包含例题字符计数,反倍数,洁净数,扫雷)

一.枚举是什么 枚举:通过逐个尝试所有可能的值或组合来解决问题的方法。 将问题空间划分为一系列离散的状态,并通过遍历这些状态来寻找解决方案。 二.枚举流程 1.确定解空间(一维,二维等) 2.确定空间边界&#xff…

计算机网络 八股青春版

什么是HTTP?HTTP和HTTPS的区别 HTTP HTTP是超文本运输协议,是一种无状态(每次请求都是独立的)的应用层协议。用于在客户端和服务器之间传输超文本数据(如HTML文件)。默认端口是80数据以明文形式传输&#…

域名和服务器是什么?域名和服务器是什么关系?

在互联网的生态系统中,域名和服务器是两个至关重要的组成部分。它们共同构成了我们访问网站和使用在线服务的基础。那么域名和服务器是什么?域名和服务器是什么关系? 1、域名的概念 域名是互联网中用于标识特定地址的一种文字形式。它是用户访问网站时输入的易记…

设计模式之 abstract factory

适用场景 一个系统要独立于它的产品的创建、组合和表示时。一个系统要由多个产品系列中的一个来配置时。当你要强调一系列相关的产品对象的设计以便进行联合使用时。当你提供一个产品类库,而只想显示它们的接口而不是实现时 架构演示 首先client这个东西可以接触到…

linux-----数据库

Linux下数据库概述 数据库类型: 关系型数据库(RDBMS):如MySQL、PostgreSQL、Oracle等。这些数据库以表格的形式存储数据,表格之间通过关系(如主键 - 外键关系)相互关联。关系型数据库支持复杂的…

鸿蒙学习笔记:用户登录界面

文章目录 1. 提出任务2. 完成任务2.1 创建鸿蒙项目2.2 准备图片资源2.3 编写首页代码2.4 启动应用 3. 实战小结 1. 提出任务 本次任务聚焦于运用 ArkUI 打造用户登录界面。需呈现特定元素:一张图片增添视觉感,两个分别用于账号与密码的文本输入框&#…

[python SQLAlchemy数据库操作入门]-02.交易数据实体类建立

哈喽,大家好,我是木头左! 为了顺利地使用SQLAlchemy进行股票交易数据的处理,首先需要搭建一个合适的开发环境。这包括安装必要的软件包以及配置相关的依赖项。 安装Python及虚拟环境 下载并安装Python(推荐使用最新版)。创建一个新的虚拟环境以避免依赖冲突。python -m …

RunCam WiFiLink连接手机图传测试

RunCam WiFiLink中文手册从这里下载 一、摄像头端 1.连接天线(易忘) 2.打开摄像头前面的盖子(易忘) 3.接上直流电源,红线为正,黑线为负 4.直流电源设置电压为14v,电流为3.15A, 通…

通过阿里云 Milvus 和 LangChain 快速构建 LLM 问答系统

背景介绍 阿里云向量检索 Milvus 版是一款云上全托管服务,确保了与开源Milvus的100%兼容性,并支持无缝迁移。在开源版本的基础上增强了可扩展性,能提供大规模 AI 向量数据的相似性检索服务。相比于自建,目前阿里云Milvus具备易用…

云原生是什么

云原生是一种构建和运行应用程序的方法,它充分利用了云计算的优势。它不仅仅是指在云上运行应用程序,更重要的是指应用程序的设计、开发、部署和运维方式都充分考虑了云环境的特性,从而能够更好地利用云的弹性、可扩展性和灵活性。 更详细地…

LeetCode刷题day29——动态规划(完全背包)

LeetCode刷题day29——动态规划(完全背包) 377. 组合总和 Ⅳ分析: 57. 爬楼梯(第八期模拟笔试)题目描述输入描述输出描述输入示例输出示例提示信息 分析: 322. 零钱兑换分析: 279. 完全平方数分…

多个Echart遍历生成 / 词图云

echart官网 安装 如果版本报错推荐安装以下版本 npm install echarts4.8.0 --savenpm uninstall echarts//这个是卸载命令以下安装成功后是局部引入:多个Echart遍历生成 vue3echart单个页面多个图表循环渲染展示:<template><div class"main"><div …

LabVIEW伸缩臂参数监控系统

LabVIEW开发伸缩臂越野叉车参数监控系统主要应用于工程机械中的越野叉车&#xff0c;以提高车辆的作业效率和故障诊断能力。系统通过PEAK CAN硬件接口和LabVIEW软件平台实现对叉车作业参数的实时监控和故障分析&#xff0c;具有良好的实用性和推广价值。 系统组成 系统主要由P…

【FFmpeg】解封装 ① ( 封装与解封装流程 | 解封装函数简介 | 查找码流标号和码流参数信息 | 使用 MediaInfo 分析视频文件 )

文章目录 一、解封装1、封装与解封装流程2、解封装 常用函数 二、解封装函数简介1、avformat_alloc_context 函数2、avformat_free_context 函数3、avformat_open_input 函数4、avformat_close_input 函数5、avformat_find_stream_info 函数6、av_read_frame 函数7、avformat_s…

windows 自旋锁的实现

VOID KxAcquireSpinLock ( __inout PKSPIN_LOCK SpinLock) {//设置SpinLock指定位,并返回原值//如果原值为0,表示没有上锁,直接返回//如果原值为1,表示已经上锁,进入函数if (InterlockedBitTestAndSet64((LONG64 *)SpinLock, 0)){KxWaitForSpinLockAndAcquire(SpinLock);}retur…

YOLOv8目标检测——详细记录使用ONNX Runtime进行推理部署C++/Python实现

概述 在之前博客中有介绍YOLOv8从环境安装到训练的完整过程&#xff0c;本节主要介绍ONNX Runtime的原理以及使用其进行推理加速&#xff0c;使用Python、C两种编程语言来实现。 https://blog.csdn.net/MariLN/article/details/143924548?spm1001.2014.3001.5501 1. ONNX Ru…

python学opencv|读取图像(十六)修改HSV图像HSV值

【1】引言 前序学习进程中&#xff0c;我们已经掌握了对HSV通道和BGR通道的拆分和合并&#xff0c;并通过自由组合的形式&#xff0c;获得了和初始图像完全不一样的新图像&#xff0c;相关文章可以参考下述链接&#xff1a; python学opencv|读取图像&#xff08;十四&#xf…

【进阶编程】MVC和MVVM实现前后端分离的实现

在 WPF 开发中&#xff0c;通常使用 MVVM&#xff08;Model-View-ViewModel&#xff09;架构来分离视图和业务逻辑&#xff0c;但在某些情况下&#xff0c;你可能希望将 MVC&#xff08;Model-View-Controller&#xff09;模式与 MVVM 结合使用。这种结合有时是为了兼顾不同的架…

CEF127 编译指南 MacOS 篇 - 编译 CEF(六)

1. 引言 经过前面的准备工作&#xff0c;我们已经完成了所有必要的环境配置。本文将详细介绍如何在 macOS 系统上编译 CEF127。通过正确的编译命令和参数配置&#xff0c;我们将完成 CEF 的构建工作&#xff0c;最终生成可用的二进制文件。 2. 编译前准备 2.1 确认环境变量 …