python pandas dataframe基本使用整理

dataframe是一种表格型的数据存储结构,可以看作是几个serie的集合。dataframe既有行索引,也有列索引。
以下代码环境为google colab/jupyter notebook。
接下来就对dataframe的基本使用进行整理。
dataframe也从属于pandas模块,因此还是老规矩,先import pandas。

import pandas as pd
import numpy as np

1. dataframe的创建

dataframe的创建有很多方法,下面列举了几种主要的创建方法。

a. 通过numpy ndarray创建dataframe

在创建dataframe时,可以自定义行索引index和列索引columns。

arr = np.random.randn(6,4)
index_rows = pd.date_range('today', periods=6)
index_columns = ['A','B','C','D']
dataframe1 =
pd.DataFrame(arr,index=index_rows,columns=index_columns)
dataframe1

运行结果:
在这里插入图片描述

b. 通过字典dictionary创建dataframe

data = {'country': ['China','Japan','France'],'capital': ['Beijing','Tokyo','Paris'],'population' : [1400000000, 16000000, 60000000]}
index = np.array([1,2,3])
dataframe2 = pd.DataFrame(data,index=index)
dataframe2
# 字典中每个键对应每一列的列标

运行结果:
在这里插入图片描述

2.dataframe的基本操作

a.使用head/tail取dataframe中前n行或后n行

dataframe2.head(2) #使用head取dataframe中的前n行

运行结果 :
在这里插入图片描述

dataframe2.tail(2) #使用tail取dataframe中的后n行

运行结果:
在这里插入图片描述

b. 获取dataframe的统计学属性

dataframe2.describe()

运行结果 :
在这里插入图片描述

c. 翻转dataframe的行与列

dataframe2.T

运行结果 :

在这里插入图片描述

d. 排序

dataframe2.sort_values(by='population') # 升序排列 对一整行都进行移动变换

运行结果 :
在这里插入图片描述

e. 切片

dataframe2[0:2] # [0,2)包括前不包括后,例子中就是输出第0行和第1行

运行结果 :
在这里插入图片描述

f. 通过列名tag查询

dataframe2[['country','population']]  #只显示country和population两列,如果想要存储在另外一个dataframe中只需要用赋值语句

运行结果 :
在这里插入图片描述

g. 备份dataframe

使用dataframe的copy方法对dataframe进行备份。使用copy方法的好处是,两个dataframe是完全分开的,改变其中一个的任何属性都不会对另外一个dataframe造成影响。而如果使用赋值语句进行备份,两个dataframe实际是完全相连的,任意改变其中一个dataframe的属性都会对两者进行同时改变。
例如在下面的例子中,我们使用copy方法,备份dataframe2在dataframe3中并改变dataframe3的行索引,我们会发现dataframe2没有因此和dataframe3同步变化。

dataframe3 = dataframe2.copy()
dataframe3.index = ['a','b','c']
print(dataframe2)
print(dataframe3)

运行结果:
在这里插入图片描述
使用赋值语句进行备份,两个dataframe会进行同步变化。
例如这里我们使用赋值语句后,改变dataframe3的行索引,dataframe2的行索引也同步改变了。

dataframe3 = dataframe2
dataframe3.index = ['a','b','c']
print(dataframe2)

运行结果 :
在这里插入图片描述

h.使用loc对指定位置的数值进行操作

dataframe3.loc['c','population'] = np.nan #可以对指定位置的数值进行操作
dataframe3

运行结果 :
在这里插入图片描述

i. 对dataframe中未定义的值进行操作

df4.fillna(500000) # 给所有未定义的数值赋值

运行结果 :
在这里插入图片描述

df5 = dataframe3.copy()
df5.dropna(how='any') # 删除有nan未定义数值的一行

运行结果 :
在这里插入图片描述

df5 = dataframe3.copy().T # 如果我们transpose翻转这个dataframe 就会将population这一行整个删去
df5.dropna(how='any')

运行结果 :
在这里插入图片描述

3. dataframe的文件操作

dataframe可以对csv文件,xlsx文件,txt等文件进行读写操作。

dataframe3.to_csv('country_count.csv') # 将dataframe写入csv文件
# 可以在括号中使用绝对路径调整文件生成的位置 默认位置为当前文件夹下生成
df_country = pd.read_csv('country_count.csv',index_col=None) # 读取csv文件
dataframe3.to_excel('country_count.xlsx',sheet_name='sheet1')# 将dataframe写入excel表格
dataframe_fromexcel = pd.read_excel('country_count.xlsx',sheet_name='sheet1',index_col=None)# 读取excel表格

4. dataframe的可视化

%matplotlib inline
df = pd.DataFrame(np.random.randn(50,4),index=pd.date_range('today',periods=50),columns=['A','B','C','D'])
df.cumsum()
df.plot()

运行结果 :
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/386989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见开源分布式存储系统

对比说明 /文件系统 TFS FastDFS MogileFS MooseFS GlusterFS Ceph 开发语言 C C Perl C C C 开源协议 GPL V2 GPL V3 GPL GPL V3 GPL V3 LGPL 数据存储方式 块 文件/Trunk 文件 块 文件/块 对象/文件/块 集群节点通信协议 私有协议(T…

机器学习理论梳理1: PCA主成分分析

机器学习的理论部分学习知识点比较乱且杂。我这里通过几篇文章,简单总结一下自己对机器学习理论的理解,以防遗忘。第一篇文章主要概述了机器学习的基本任务以及一个常用的降维方法,主成分分析。 机器学习的基本任务 机器学习能实现许多不同…

NLP基础 : HMM 隐马尔可夫模型

Hidden Markov Model, HMM 隐马尔可夫模型,是一种描述隐性变量(状态)和显性变量(观测状态)之间关系的模型。该模型遵循两个假设,隐性状态i只取决于前一个隐性状态i-1,而与其他先前的隐形状态无关。观测状态也只取决于当前的隐形状态。因此我们…

关于秒杀系统优化方向

今天听了一节咕泡学院的公开课,有收获。 秒杀系统的特点: 1.限时;2.限量供应;3.并发量大;如何优化: 1.客户端数据缓存。 2.CDN加速。 3.nginx动静分离,静态资源缓存,负载均衡。 4.se…

RUNOOB python练习题1

用来练手的python 练习题,原链接 : python练习实例1 题干 : 有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少? import numpy as np cen np.array([1,2,3,4]) tens np.array([1,2,3,4])…

MySQL 亿级数据需求的优化思路(一),交易流水记录的查询

对MySQL的性能和亿级数据的处理方法思考,以及分库分表到底该如何做,在什么场景比较合适? 比如银行交易流水记录的查询 限盐少许,上实际实验过程,以下是在实验的过程中做一些操作,以及踩过的一些坑&#…

RUNOOB python练习题2

用来练手的python 练习题,原链接 : python练习实例2 题干 : 企业发放的奖金根据利润提成。利润(I)低于或等于10万元时,奖金可提10%;利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的…

MySQL 亿级数据需求的优化思路(二),100亿数据,1万字段属性的秒级检索

最近在研究亿级数据的时候,无意中看到了一个关于写58同城的文章 https://blog.csdn.net/admin1973/article/details/55251499?fromtimeline 其实上面讲的versionext的方式以及压缩json的思路,对于我来讲都可以看得懂,想得通,其…

RUNOOB python练习题3

用来练手的python 练习题,原链接 : python练习实例3 拿到题目就写了如下代码,思路是因为使用**0.5进行开平方操作时,python会将数据类型自动转换为float单精度浮点型。这里利用提取其整数部分,来判断这个数是否是完全平方数。 z…

使用git将项目上传到github(最简单方法)

使用git将项目上传到github(最简单方法) 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可&#xff1…

RUNOOB python练习题4

用来练手的python习题其四, 原题链接: python练习实例4 题干: 输入某年某月某日,判断这一天是这一年的第几天? 这个题目比较简单,只需要注意闰年和非闰年的区别就可以了。我这里使用numpy矩阵存储每个月的天数,之后用…

GitHub入门:如何上传与下载工程?

由于经常要在家写代码,所以需要有个能够方便访问代码管理工具。最近尝试了一下GitHub。经过了一翻纠结之后,基本上掌握了他的使用方式。 要使用GitHub需要首先在其网站上进行注册。其官方网站是https://github.com/。注册的流程在这里就不多少了&#x…

如何解决PIP命令不可用

今天想用PIP装一个python包,发现PIP报错,不是内部或外部命令。。。 遇事百度,有两种说法,一,没安装包,不管那么多命令执行了再说 在命令行输入:python -m ensurepip 将pip.exe文件下载下来 再pi…

RUNOOB python练习题5

用来练手的python 练习题其五,原链接 : python练习实例5 题干 : 输入三个整数x,y,z,请把这三个数由小到大输出。 又是非常简单的排序算法,只要使用numpy矩阵的排序方法或者使用python list的排序算法就可以轻松解决。 源代码如下 : import …

初步使用github,并上传下载文件

使用GitHub需要先注册GitHub的账号,登陆进去 然后开始创建项目 start a project 创建完成,开始生成公私钥,可以不必每次都要输密码 ssh-keygen -t rsa -C "mghxy123163.com" //填写email地址,然后一直“回车”ok 然后把公钥导入GitHub中的key里面去,也…

NOIP2000提高组复赛C 单词接龙

题目链接:https://ac.nowcoder.com/acm/contest/248/C 题目大意: 略 分析: 注意点:1.前缀和后缀的公共部分应该选最短的。2.如果两个字符串前缀和后缀的公共部分恰好是其中一个字符串,那么这两个字符串不能合并。 代码…

右键Git Bash Here不见了怎么办,手把手教你还原!

第一步,window R,输入regedit回车进入注册表 依次进入HKEY_CLASSES_ROOT —-》 Directory —-》Background —-》 shell 右键点击shell,选择新建,然后选择项,命名为 Git Bash Here,成功后进入桌面右键发现…

RUNOOB python练习题6 斐波那契数列

用来练手的python 练习题其六,原链接 : python练习实例6 题干 : 斐波那契数列 斐波那契数列可以说是很好的递归理解工具了,这里就用递归实现一下斐波那契数列。 源代码如下: # 返回fibonacci数列中某一项的数值 def Fibonacci(n):if n 1:return 1eli…

github windows客户端

方法/步骤 1 1. 首先到官网下载Github客户端 2 2. 点击上图红框的按钮开始下载客户端。 3 3. 双击下载好的客户端,开始安装。 4 双击之后出现一个框 5 之后等待一段时间,出现一个在线下载界面 6 4. 在线下载完成之后开始进行安装。安装完成之后…

赋值语句 变量的地址相关 : RUNOOB python练习题7

用来练手的python 练习题,原链接 : python练习实例7 练习实例7非常的简单也有意思。题干 : 将一个列表的数据复制到另一个列表中。 完成这个操作的代码非常简单,即使是我这样的初学者应该也是一语道破,赋值语句嘛。但这里我们就列举出几种不…