python pandas dataframe基本使用整理

dataframe是一种表格型的数据存储结构,可以看作是几个serie的集合。dataframe既有行索引,也有列索引。
以下代码环境为google colab/jupyter notebook。
接下来就对dataframe的基本使用进行整理。
dataframe也从属于pandas模块,因此还是老规矩,先import pandas。

import pandas as pd
import numpy as np

1. dataframe的创建

dataframe的创建有很多方法,下面列举了几种主要的创建方法。

a. 通过numpy ndarray创建dataframe

在创建dataframe时,可以自定义行索引index和列索引columns。

arr = np.random.randn(6,4)
index_rows = pd.date_range('today', periods=6)
index_columns = ['A','B','C','D']
dataframe1 =
pd.DataFrame(arr,index=index_rows,columns=index_columns)
dataframe1

运行结果:
在这里插入图片描述

b. 通过字典dictionary创建dataframe

data = {'country': ['China','Japan','France'],'capital': ['Beijing','Tokyo','Paris'],'population' : [1400000000, 16000000, 60000000]}
index = np.array([1,2,3])
dataframe2 = pd.DataFrame(data,index=index)
dataframe2
# 字典中每个键对应每一列的列标

运行结果:
在这里插入图片描述

2.dataframe的基本操作

a.使用head/tail取dataframe中前n行或后n行

dataframe2.head(2) #使用head取dataframe中的前n行

运行结果 :
在这里插入图片描述

dataframe2.tail(2) #使用tail取dataframe中的后n行

运行结果:
在这里插入图片描述

b. 获取dataframe的统计学属性

dataframe2.describe()

运行结果 :
在这里插入图片描述

c. 翻转dataframe的行与列

dataframe2.T

运行结果 :

在这里插入图片描述

d. 排序

dataframe2.sort_values(by='population') # 升序排列 对一整行都进行移动变换

运行结果 :
在这里插入图片描述

e. 切片

dataframe2[0:2] # [0,2)包括前不包括后,例子中就是输出第0行和第1行

运行结果 :
在这里插入图片描述

f. 通过列名tag查询

dataframe2[['country','population']]  #只显示country和population两列,如果想要存储在另外一个dataframe中只需要用赋值语句

运行结果 :
在这里插入图片描述

g. 备份dataframe

使用dataframe的copy方法对dataframe进行备份。使用copy方法的好处是,两个dataframe是完全分开的,改变其中一个的任何属性都不会对另外一个dataframe造成影响。而如果使用赋值语句进行备份,两个dataframe实际是完全相连的,任意改变其中一个dataframe的属性都会对两者进行同时改变。
例如在下面的例子中,我们使用copy方法,备份dataframe2在dataframe3中并改变dataframe3的行索引,我们会发现dataframe2没有因此和dataframe3同步变化。

dataframe3 = dataframe2.copy()
dataframe3.index = ['a','b','c']
print(dataframe2)
print(dataframe3)

运行结果:
在这里插入图片描述
使用赋值语句进行备份,两个dataframe会进行同步变化。
例如这里我们使用赋值语句后,改变dataframe3的行索引,dataframe2的行索引也同步改变了。

dataframe3 = dataframe2
dataframe3.index = ['a','b','c']
print(dataframe2)

运行结果 :
在这里插入图片描述

h.使用loc对指定位置的数值进行操作

dataframe3.loc['c','population'] = np.nan #可以对指定位置的数值进行操作
dataframe3

运行结果 :
在这里插入图片描述

i. 对dataframe中未定义的值进行操作

df4.fillna(500000) # 给所有未定义的数值赋值

运行结果 :
在这里插入图片描述

df5 = dataframe3.copy()
df5.dropna(how='any') # 删除有nan未定义数值的一行

运行结果 :
在这里插入图片描述

df5 = dataframe3.copy().T # 如果我们transpose翻转这个dataframe 就会将population这一行整个删去
df5.dropna(how='any')

运行结果 :
在这里插入图片描述

3. dataframe的文件操作

dataframe可以对csv文件,xlsx文件,txt等文件进行读写操作。

dataframe3.to_csv('country_count.csv') # 将dataframe写入csv文件
# 可以在括号中使用绝对路径调整文件生成的位置 默认位置为当前文件夹下生成
df_country = pd.read_csv('country_count.csv',index_col=None) # 读取csv文件
dataframe3.to_excel('country_count.xlsx',sheet_name='sheet1')# 将dataframe写入excel表格
dataframe_fromexcel = pd.read_excel('country_count.xlsx',sheet_name='sheet1',index_col=None)# 读取excel表格

4. dataframe的可视化

%matplotlib inline
df = pd.DataFrame(np.random.randn(50,4),index=pd.date_range('today',periods=50),columns=['A','B','C','D'])
df.cumsum()
df.plot()

运行结果 :
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/386989.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见开源分布式存储系统

对比说明 /文件系统 TFS FastDFS MogileFS MooseFS GlusterFS Ceph 开发语言 C C Perl C C C 开源协议 GPL V2 GPL V3 GPL GPL V3 GPL V3 LGPL 数据存储方式 块 文件/Trunk 文件 块 文件/块 对象/文件/块 集群节点通信协议 私有协议(T…

[十二省联考2019]皮配

题目链接 选一个派系和一个阵营可以唯一确定一名导师 因为每一个阵营里的导师都分别来自不同派系,所以k0时,对阵营的选择是不影响对派系的选择的 唯一的限制就是同城市的要在同一个阵营 所以以每个城市为物品,物品大小为该城市的人数&#xf…

机器学习理论梳理1: PCA主成分分析

机器学习的理论部分学习知识点比较乱且杂。我这里通过几篇文章,简单总结一下自己对机器学习理论的理解,以防遗忘。第一篇文章主要概述了机器学习的基本任务以及一个常用的降维方法,主成分分析。 机器学习的基本任务 机器学习能实现许多不同…

29 _react-router说明

一、SPA的理解 1.单页面web应用(single page web application ,SPA) 2.整个应用只有一个完整的页面 3.点击页面中的链接不会刷新页面,本身也不会向服务器发请求 4.当点击路由链接时,只会做页面的局部更新 5.数据都需要通过ajax请求获取,并在前…

Java程序员如何快速理解Kubernetes

我们希望微服务是可复制的,可替换的工作节点,这样可以轻松进行升级或降级,同时无需任何停机时间,并花费最少代价的管理。我们可以说我们希望他们成为我们的小黄人(minions)。本文我们将通过一个简单的例子来…

NLP基础 : HMM 隐马尔可夫模型

Hidden Markov Model, HMM 隐马尔可夫模型,是一种描述隐性变量(状态)和显性变量(观测状态)之间关系的模型。该模型遵循两个假设,隐性状态i只取决于前一个隐性状态i-1,而与其他先前的隐形状态无关。观测状态也只取决于当前的隐形状态。因此我们…

关于秒杀系统优化方向

今天听了一节咕泡学院的公开课,有收获。 秒杀系统的特点: 1.限时;2.限量供应;3.并发量大;如何优化: 1.客户端数据缓存。 2.CDN加速。 3.nginx动静分离,静态资源缓存,负载均衡。 4.se…

Mysql插入很慢,找到了稍微快点的方法

MYSQL批量插入数据库实现语句性能分析 假定我们的表结构如下 代码如下 CREATE TABLE example ( example_id INT NOT NULL, name VARCHAR( 50 ) NOT NULL, value VARCHAR( 50 ) NOT NULL, other_value VARCHAR( 50 ) NOT NULL ) 通常情况下单条插入的sql语句我们会这么写&…

Linux - 时间相关命令 - ntpdate, date, hwclock

1. 概述 最近也不知道写啥了, 把之前的老文档整理一下, 凑个数什么的配置时间这种工作, 偶尔还是要用一下主要描述 3 个命令的简单适用 ntpdatehwlock2. ntpdate 1. 概述 用于同步时钟的命令2. 机制 通常是有一个服务器对外提供时间客户端可以与时间服务器同步ntp 是他们之间交…

RUNOOB python练习题1

用来练手的python 练习题,原链接 : python练习实例1 题干 : 有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少? import numpy as np cen np.array([1,2,3,4]) tens np.array([1,2,3,4])…

mysql explain用法和结果的含义

explain显示了mysql如何使用索引来处理select语句以及连接表。可以帮助选择更好的索引和写出更优化的查询语句。 使用方法,在select语句前加上explain就可以了: 如: explain select surname,first_name form a,b where a.idb.id EXPLAIN列…

日志模块logging用法

一、常用日志记录场景及最佳解决方案: 日志记录方式 最佳记录日志方案 普通情况下,在控制台显示输出 print() 报告正常程序操作过程中发生的事件 logging.info()(或者更详细的logging.debug()) 发出有关特定事件的警告 warnings.warn()或者loggin…

MySQL 亿级数据需求的优化思路(一),交易流水记录的查询

对MySQL的性能和亿级数据的处理方法思考,以及分库分表到底该如何做,在什么场景比较合适? 比如银行交易流水记录的查询 限盐少许,上实际实验过程,以下是在实验的过程中做一些操作,以及踩过的一些坑&#…

RUNOOB python练习题2

用来练手的python 练习题,原链接 : python练习实例2 题干 : 企业发放的奖金根据利润提成。利润(I)低于或等于10万元时,奖金可提10%;利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的…

dubbo负载均衡策略和集群容错策略

dubbo负载均衡策略 random loadbalance 默认情况下,dubbo是random load balance随机调用实现负载均衡,可以对provider不同实例设置不同的权重,会按照权重来负载均衡,权重越大分配流量越高,一般就用这个默认的就可以了。…

MySQL 亿级数据需求的优化思路(二),100亿数据,1万字段属性的秒级检索

最近在研究亿级数据的时候,无意中看到了一个关于写58同城的文章 https://blog.csdn.net/admin1973/article/details/55251499?fromtimeline 其实上面讲的versionext的方式以及压缩json的思路,对于我来讲都可以看得懂,想得通,其…

RUNOOB python练习题3

用来练手的python 练习题,原链接 : python练习实例3 拿到题目就写了如下代码,思路是因为使用**0.5进行开平方操作时,python会将数据类型自动转换为float单精度浮点型。这里利用提取其整数部分,来判断这个数是否是完全平方数。 z…

使用git将项目上传到github(最简单方法)

使用git将项目上传到github(最简单方法) 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可&#xff1…

数据库 概念详解

数据库 概念详解 一、MySQL MySQL 事务 MySQL 锁 MySQL 二、Redis 三、MongoDB 四、Memcached 转载于:https://www.cnblogs.com/guozepingboke/p/10743648.html

RUNOOB python练习题4

用来练手的python习题其四, 原题链接: python练习实例4 题干: 输入某年某月某日,判断这一天是这一年的第几天? 这个题目比较简单,只需要注意闰年和非闰年的区别就可以了。我这里使用numpy矩阵存储每个月的天数,之后用…