Python Pandas –操作

Pandas support very useful operations which are illustrated below,

熊猫支持非常有用的操作,如下所示,

Consider the below dataFrame,

考虑下面的dataFrame,

import numpy as np
import pandas as pd
df = pd.DataFrame({
'col1': [1, 2, 3, 4],
'col2': [444, 555, 666, 444],
'col3': ['abc', 'def', 'ghi', 'xyz']
})
print(df.head())
'''
Output:
col1  col2 col3
0     1   444  abc
1     2   555  def
2     3   666  ghi
3     4   444  xyz
'''

在数据框中查找唯一值 (Finding unique values in a data frame)

In order to find unique values from columns,

为了从列中找到唯一值,

# returns numpy array of all unique  values
print(df['col2'].unique() )
# Output: array([444, 555, 666])
# returns length / number of unique values 
# in a numpy array
print(df['col2'].nunique())
# Output: 3
# if we want the table of the unique values
# and how many times they show up
print(df['col2'].value_counts() )
'''
Output:
444    2
555    1
666    1
Name: col2, dtype: int64
'''

从数据框中选择数据 (Selecting data from a data frame)

Consider the dataFrame,

考虑一下dataFrame,

Using the conditional selection, we could select data as follows,

使用条件选择,我们可以选择以下数据,

print(df['col1']>2)
'''
Output:
0    False
1    False
2     True
3     True
Name: col1, dtype: bool
'''
print(df[(df['col1']>2)])
'''
Output:
col1  col2 col3
2     3   666  ghi
3     4   444  xyz
'''
print(df[df['col1']>2 & (df['col2']==44)])
'''
Output:
col1  col2 col3
0     1   444  abc
1     2   555  def
2     3   666  ghi
3     4   444  xyz
'''

应用方法 (Applied Methods)

Consider a simple method,

考虑一个简单的方法,

def times2(x):
return x*2

We already are aware that we can grab a column and call a built-in function off of it. Such as below,

我们已经知道我们可以抓住一列并从中调用一个内置函数。 如下

print(df['col1'].sum())
# Output: 10

Now, in order to apply the custom function, such as one defined above (times2), pandas provide an option to do that as well, as explained below,

现在,为了应用自定义功能(例如上面定义的时间(times2)),熊猫也提供了执行此功能的选项,如下所述,

print(df['col2'].apply(times2))
'''
Output:
0     888
1    1110
2    1332
3     888
Name: col2, dtype: int64
'''

Apply built-in functions,

应用内置功能,

print(df['col3'].apply(len))
'''
Output:
0    3
1    3
2    3
3    3
Name: col3, dtype: int64
'''

Apply method will be more powerful, when combined with lambda expressions. For instance,

与lambda表达式结合使用时,apply方法将更强大。 例如,

print(df['col2'].apply(lambda x: x*2))
'''
Output:
0     888
1    1110
2    1332
3     888
Name: col2, dtype: int64
'''

更多操作 (Some more operations)

# returns the columns names
print(df.columns) 
# Output: Index(['col1', 'col2', 'col3'], dtype='object')
#since this is a rangeindex, it actually reports 
# start, stop and step values too
print(df.index)
# Output: RangeIndex(start=0, stop=4, step=1)
# sort by column
print(df.sort_values('col2'))
'''
Output:
col1  col2 col3
0     1   444  abc
3     4   444  xyz
1     2   555  def
2     3   666  ghi
'''

In the above result, note that the index values doesn't change, this is to ensure that the values is retained.

在上面的结果中,请注意索引值不会更改,这是为了确保保留这些值。

isnull

一片空白

# isnull
print(df.isnull())
'''
Output
col1   col2   col3
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
'''

The isnull() will return a dataframe of booleans indicating whether or not the value was null or not. In the above, we get a boolean of all false because we have nulls in our dataframe.

notull()将返回一个布尔值数据框,指示该值是否为null。 在上面的代码中,由于我们的数据帧中包含null,因此我们得到的布尔值均为false。

Drop NAN values

降低NAN值

print(df.dropna())
'''
Output:
col1  col2 col3
0     1   444  abc
1     2   555  def
2     3   666  ghi
3     4   444  xyz
'''

Fill NAN values with custom values

用自定义值填充NAN值

df = pd.DataFrame({
'col1': [1, 2, 3, np.nan],
'col2': [np.nan, 555, 666, 444],
'col3': ['abc', 'def', 'ghi', 'xyz']
})
print(df)
'''
Output:
col1   col2 col3
0   1.0    NaN  abc
1   2.0  555.0  def
2   3.0  666.0  ghi
3   NaN  444.0  xyz
'''
print(df.fillna('FILL'))
'''
Output:
col1  col2 col3
0     1  FILL  abc
1     2   555  def
2     3   666  ghi
3  FILL   444  xyz
'''

Usage of pivot table

数据透视表的用法

This methodology will be familiar for the Advanced Excel users. Consider a new dataFrame,

Advanced Excel用户将熟悉这种方法。 考虑一个新的dataFrame,

data = {
'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
'B': ['one', 'one', 'two', 'two', 'one', 'one'],
'C': ['x', 'y', 'x', 'y', 'x', 'y'],
'D': [1, 3, 2, 5, 4, 1]
}
df = pd.DataFrame(data)
print(df)
'''
Output:
A    B  C  D
0  foo  one  x  1
1  foo  one  y  3
2  foo  two  x  2
3  bar  two  y  5
4  bar  one  x  4
5  bar  one  y  1
'''

The pivot table, creates a multi index dataFrame. The pivot table takes three main arguments, the values, the index and the columns.

数据透视表创建一个多索引dataFrame。 数据透视表采用三个主要参数,即值,索引和列。

print(df.pivot_table(values='D',index=['A', 'B'],columns=['C']))
'''
Output:
C        x    y
A    B            
bar one  4.0  1.0
two  NaN  5.0
foo one  1.0  3.0
two  2.0  NaN
'''

翻译自: https://www.includehelp.com/python/python-pandas-operations.aspx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/540760.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有道词典总显示无法连接服务器,有道词典无法联网提示网络已断开该怎么办

人们使用电脑时候最不想看到的事情之一就是上不了网了,无论是工作还是玩游戏时候都很不爽。电脑能正常上网,但是有道词典始终无法联网。这是怎么回事呢?下面一起看看!方法步骤1、我是win8的系统。有道词典无法联网后,我在网上查了一下方法&a…

ajax+lazyload时lazyload失效问题及解决

最近写公司的项目的时候遇到一个关于图片加载的问题,所做的页面是一个商城的商品列表页,其中需要显示商品图片,名称等信息,因为商品列表可能会很长,所以其中图片需要滑到可以显示的区域再进行加载。 首先我的图片加载插…

手游pubg mobile服务器正在维护,PUBG Mobile Download Failed怎么解决

《PUBG Mobile》国际服出现下载失败的情况,你将会收到“Download Failed”提示,你就需要按照下述的方法去解决该问题。注意:如果下载不了 请复制浏览器上的链接 https:/http://pic.81857.netownloads.gradle.orghttp://pic.81857.netistribut…

Python自动化运维之常用模块—logging

在现实生活中,记录日志非常重要。银行转账时会有转账记录;如果有出现什么问题,人们可以通过日志数据来搞清楚到底发生了什么。 对于系统开发、调试以及运行,记录日志都是同样的重要。如果没有日志记录,程序崩溃时你…

Sys.WORD_SIZE Julia中的常量

Julia| Sys.WORD_SIZE常数 (Julia | Sys.WORD_SIZE Constant) Sys.WORD_SIZE is a constant of the Int64 type in Julia programming language, it is used to get the standard word size of the current system. Sys.WORD_SIZE是Julia编程语言中Int64类型的常量,…

ftp服务器如何配置多个文件夹,ftp服务器如何配置多个文件夹

ftp服务器如何配置多个文件夹 内容精选换一换Model File:模型文件。单击右侧的文件夹图标,在后台服务器sample所在路径(工程目录/run/out/test_data/model)选择需要转化的模型对应的*.prototxt文件,并上传。Weight File:权重文件。请自行从https://obs-m…

scala 方法调用_Scala中的方法调用

scala 方法调用Scala方法调用 (Scala Method Invocation) Method invocation is the legal and correct technique to call a method in Scala programming language. The methods of a class are usually accessed by using two methods. 方法调用是用Scala编程语言调用方法的…

docker lnmp php

使用 Docker 构建 LNMP 环境https://segmentfault.com/a/1190000008833012Docker 快速上手指南https://segmentfault.com/a/1190000008822648#articleHeader44

根据分类id找出父类id

2019独角兽企业重金招聘Python工程师标准>>> 数组格式要求 id > pid $columns [ 1 > 0, 10 > 1, 200 > 10 ]; public function getP($columns,$pid) { 模拟 $pid 200; $arr $columns; while($arr[$pid]) { …

不稳定学习器适合做基分类器_分类稳定性

不稳定学习器适合做基分类器什么是分类? (What is sorting?) It means to arrange data elements in increasing or decreasing order. There are many algorithms to do so like mergesort, quicksort, counting sort etc but there are pros and cons of each al…

JavaScript基础学习--05自定义属性、索引值

Demos&#xff1a; https://github.com/jiangheyan/JavaScriptBase 一、自定义属性1、读写操作<input abc"123" type"button" value"按钮" />//读写&#xff1a; var aBtn document.getElementsByTagName(input); aBtn[0].abc 456; 2、…

有线电视pcr是什么意思_有线电视的完整形式是什么?

有线电视pcr是什么意思有线电视&#xff1a;社区访问电视 (CATV: Community Access Television) CATV is an abbreviation of "Community Access Television". CATV是“社区访问电视”的缩写 。 It is also known as Public Access Television, which is a type of …

桶分类 算法_桶分类算法

桶分类 算法桶分类 (Bucket Sort) Bucket sort is a sorting technique in which array is partitioned into the buckets. By this, each bucket will be sorted individually, by using some another sorting algorithm such as insertion sort. This sorting technique assu…

百度之星初赛(A)——T5

今夕何夕 Problem Description今天是2017年8月6日&#xff0c;农历闰六月十五。 小度独自凭栏&#xff0c;望着一轮圆月&#xff0c;发出了“今夕何夕&#xff0c;见此良人”的寂寞感慨。 为了排遣郁结&#xff0c;它决定思考一个数学问题&#xff1a;接下来最近的哪一年里的同…

mycat 不得不说的缘分

1&#xff0c;愕然回首。它在灯火阑珊处关于mysql集群中间件。曾经写在应用程序里面&#xff0c;由开发者实现&#xff0c;在配置文件中面写多个数据源&#xff0c;写库一个数据源&#xff0c;读库一个数据源&#xff0c;笨拙不高效&#xff0c;由于程序猿的差异化。效果并非特…

python创建空元组_用Python创建空元组

python创建空元组Python | 空元组 (Python | empty tuple) In python, we can also create a tuple without having any element. An empty tuple is created using a pair of round brackets, (). 在python中&#xff0c;我们也可以创建一个没有任何元素的元组 。 使用一对圆括…

共享马扎的火爆,原来是一场营销!

如今&#xff0c;人们的生活仿佛已经被“共享化”&#xff1a;上班有共享单车、睡觉有共享床铺、商场有共享充电宝、去机场有共享巴士……好像除了男女朋友是自己的&#xff0c;其他都要共享了&#xff01;哎&#xff0c;不对&#xff01;前些日子&#xff0c;竟然还真有了共享…

什么是CDP(连续数据保护)?

CDP&#xff1a;连续数据保护 (CDP: Continuous Data Protection) CDP is an abbreviation of "Continuous Data Protection". It is also called as a real-time backup, is a system of data storage that backs up data in an organization or enterprise on a sy…

Git实战(二)原理

上次的博文Git实战&#xff08;一&#xff09;版本号控制概述中我们简介了一下版本号控制系统的概念&#xff0c;重点对版本号控制的三种类型进行了分析和对照&#xff0c;从本篇博文開始我们进入Git的世界&#xff0c;首先介绍一下Git实现版本号控制的原理。 Git与SVN等其它版…

什么是html的混杂模式_HTML的完整形式是什么?

什么是html的混杂模式HTML&#xff1a;超文本标记语言 (HTML: Hyper Text Markup Language) HTML is an abbreviation of Hypertext markup language. Hypertext markup language is a text based standard markup language used to create web pages and design documents whi…