python做excel数据分析统计服_Python也能做到Excel那样,条件统计轻松解决工作需求...

902397dda144ad3487e61d91cffbcdf131ad852e.jpeg?token=8c17602d9d9dad5bcc8bc4bed4768868&s=F21C7E8657A3D8E45A2B826E03007078

此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd

转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)

经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

Excel 中除了 Vlookup 函数,一系列条件统计函数(sumif、countif、maxif)就用得最多,毕竟在 Excel 中进行数据统计是常见需求。

今天我们来看看在 pandas 中如何做到条件统计。

本文使用泰坦尼克号沉船事件的乘客名单作为例子:

18d8bc3eb13533fad448c9d9818a3c1a40345b2d.jpeg?token=489752ef08d3b500f6bb2614d4e6ff23&s=0190CD32979149C2425530DB000050B0

pclass:船舱等级survived:是否生还fare:票价sex:性别home.dest:住址需求1:性别统计

"男女分别有多少人?"

这需要我们在Excel中有很多方式完成,比如透视表或函数公式,下面简单列出函数公式的做法:

b8389b504fc2d562062ac6faf84851ea76c66c61.jpeg?token=7a71e0d2d34a585dfa98bdaabb3b8e8a&s=01B85D32C5266D201C758CCA000090B3

简单使用 countifs 即可这里不再单独使用 countif 了,管他是否只有一个条件,统一用 xxxifs 类函数即可

在pandas,不会有啥条件统计函数的,因为这就是先筛选,再统计:

d31b0ef41bd5ad6e67b86dc99e92f8deb6fd3c2a.jpeg?token=83cbc87045eaec9552b33667c50879dd&s=20B86D320B624D2042D468DA000080B2

行2:得到 性别 列是女性的 bool 列行3:df[cond] 就是女性的记录,简单通过 len 方法,即可得到记录数(人数)不过你可能会觉得这很麻烦,因为如果还要男性的人数,也需要执行一次差不多的代码。

实际上我们可以直接对性别列分组统计即可:

b17eca8065380cd7bd5cca9dbe1d6c31588281da.jpeg?token=eb4fe8d6385dd29cea8884ea284714ea&s=A5986C331B004C49586DE4DB0000C0B3

不多说了,代码语义简直与中文一样这里唯一不好的地方是,需要通过 size 方法获得每个分组的记录数需求2:不同的统计方法

刚刚是求人数,现在希望求出女性的平均票价。

以下是Excel的公式做法:

1b4c510fd9f9d72afbb6f1d5cb73e931369bbb83.jpeg?token=004620fe4969419005e24e7bada34547

那么 pandas 的做法呢?

想必聪明的你一定大概知道怎么做,pandas中求平均的是方法mean:

6f061d950a7b0208d1ad93257c8033d6562cc869.jpeg?token=ce6a6c34feeb2ccb31eb10ef7c847cfd&s=F098ED329FC048434E5C28DE000050B2

行3:同样语义非常清晰。.fare.mean() 恰好反映"票价的平均"同样,简单分组即可一次获得所有分组的统计信息:

562c11dfa9ec8a133750943fe85a508aa1ecc002.jpeg?token=79031d922e0942b21f855f2549893726&s=01186D321BC04C410A75A4DB0000C0B2

按 sex 分组,求 票价 的 平均需求3:非常规匹配

上面的条件都是完全符合,有时候我们需要统计有包含关系的条件。

"住址是New York 的人数"

Excel的xxifs类函数公式都能支持通配符:

738b4710b912c8fca0d3451fe35a5340d788219a.jpeg?token=20ef64bbd9a23b6a065d4ec691060a3e

前后用 * 包围内容,表示包含此内容即符合条件在pandas中,由于筛选与统计是独立分开的,因此只需要知道怎么筛选,那么此需求即可迎刃而解:

63d9f2d3572c11df159906417c7ea3d5f603c2e3.jpeg?token=0dd0d7b43ee106f599f6c0c1ca48324b&s=1098ED324D626D2044FD25DA000090B1

行2:由于 住址 列是字符串类列,使用 .str 可访问字符串类型列的各种方法contains 判断列中是否包含指定内容。如果本身内容是 nan(不存在值) ,那么直接赋值为 False如果我们只需要 住址 结尾是 NY 的人数?

Excel中由于用通配符,因此表达更直接:

8644ebf81a4c510f76d668e87e00e428d52aa595.jpeg?token=4539afe29743643b5deaea5642bcddd8&s=49203D72C135EB325C50E4CE0000A0B1

注意,没有修改公式,只是输入内容变成 *NY ,表示 NY 前面可以是任意内容在pandas这麻烦多了,这次不能使用contains方法:

c2fdfc039245d68803ec90bdbb9bbc1bd31b249f.jpeg?token=78c8cd03badf8d5dc40f8beacedad587&s=30926D324B26792240FC05DA000090B2

行2:使用 endswith 方法即可完成怎么与 Excel 的统计结果不一样!!

你会发现,Excel 的统计结果包含小写字母的 ny 结尾!

一次解决所有问题

以上 pandas 的做法主要有以下问题:

不能用通配符表达不同的文本规则,只能用不同的方法,我记不住这么多方法呀不能忽略大小写(实际上面的需求,pandas 的结果更合理)其实.str.contains方法本身就是使用正则表达式,我们可以直接用contains解决所有文本规则相关问题:

6159252dd42a2834eb6c977f44ec08ef14cebf5f.jpeg?token=3b8dcd4ca312e984a2171fb2f852295a&s=F5986D33CD664D2050FC35DE000090B2

行2: NY$ ,表示 NY 在结尾处参数 case = False ,不区分大小写pandas 用于文本匹配的还有 match 方法,此系列文章不再深入讲解了。更多高级应用方法,请关注 pandas 专栏 [带你玩转Python数据处理—pandas]

总结

本文重点:

构造 bool 列,是核心知识点Series.str.contains 用于文本规则条件匹配

如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/245561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java贪吃蛇_如何用Java还原童年回忆?在线教你完成贪吃蛇小游戏

今天我就从零开始来完成这个小游戏,完成的方式也是一步一步的添加功能这样的方式来实现。额,不好意思,放错了,重来第一步完成的功能:写一个界面大家见到的贪吃蛇小游戏,界面肯定是少不了的。因此&#xff0…

jtextpane设置不能选中_在Bridge cc中不能使用camera raw 的编辑功能,解决方法

有时我们在Bridge cc中想对raw文件进行处理,这时需要启动camera raw功能,可是当我们启用时却显示不能编辑,下面说下如何启动使用camera raw 的编辑功能1.打开一张raw格式文件,在文件菜单或者右键选择在camera raw中打开&#xff0…

android icon命名规则,安卓手机的APP图标尺寸规范和图标命名规范

安卓手机的APP图标尺寸规范和图标命名规范点击查看原文android图标包括:程序启动图标、底部菜单图标、弹出对话框顶部图标、长列表内部列表项图标、底部和底部tab标签图标。1、安卓程序启动图标尺寸:ldpi(120dpi)小屏幕mdpi(160dpi)中屏幕hdpi(240dpi)大…

opencv python教程简书_Python-OpenCV —— 基本操作一网打尽

OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库,可以运行在Linux、Windows、MacOS操作系统上。它轻量级而且高效——由一系列 C 函数和少量C类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处…

opengles 顶点数组 android,OpenGLES顶点属性、顶点数组和缓冲区对象

顶点属性数据可以用一个顶点数组对每个顶点指定,也可以将一个常量值用于一个图元的所有顶点OpenGLES支持最少16个顶点属性。准确查询顶点数量方法如下:GLint maxVertexAttribs;glGetIntegerv(GL_MAX_VERTEX_ATTRIBS, &maxVertexAttribs);一、指定顶点…

java 实体类 临时注解_JPA:Java持久层API--配置流程

一、JPA概述1.1 JPA是什么JPA (Java Persistence API) Java持久化API。是一套Sun公司 Java官方制定的ORM 方案,是规范,是标准 ,sun公司自己并没有实现 关注点: ORM ,标准 概念 (关键字&#xf…

android新架构,Android新架构组件 LifeCycles 简介

一、前言为了使开发者能尽快在 Android 平台上开发出高质量的项目,Android 官方推出了 Android Jetpack 项目,旨在从基础,架构,行为以及界面 4 大方面体系化地为我们提供组件级别的支持。当然,在实际开发过程中&#x…

领域驱动设计 pdf_什么是领域驱动设计?

什么是领域驱动设计?你可能使用领域驱动设计(DDD)开发了一些项目。你可能很满意, 使用领域模型来开发领域业务。并且得意地展示给你的同事看,他们会说“666”。但有的时候你使用领域模型你总觉得哪儿有点不对劲。你会嘀咕你可能遗漏了什么。 …

Android四级缓存,RecyclerView 源码四级缓存原理

入口我们从使用功能上去读取源码,通常的用法是这个样子-> 我们设置layoutmanager,GridLayouManager 继承LinearLayoutManager,所以我们就LinearLayoutManager 为基准查看rv.layoutManager GridLayoutManager(this,5)rv.addItemDecoration…

shell脚本发邮件内容html,[转]Shell脚本中发送html邮件的方法

作为运维人员,免不了要编写一些监控脚本,并将监控结果及时的发送出来。那么通过邮件发送是比较常用的一种通知方式了。通常的,如果需要发送的内容是简单的文本文件,那么使用/bin/mailx就可以了,但是如果想要发送更复杂…

HTML打开网页拒绝访问,192.168.1.1拒绝访问怎么办?

问:为什么设置路由器时,在浏览器中输入192.168.1.1,结果显示拒绝访问,这个问题怎么解决?答:如果是在设置路由器的时候,登录192.168.1.1被拒绝访问,多半是你自己操作有问题导致的&…

gitlab git clone 输入密码_gitlab1:部署gitlab

1、配置yum源vim /etc/yum.repos.d/gitlab-ce.repo复制以下内容:[gitlab-ce]nameGitlab CE Repositorybaseurlhttps://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el$releasever/gpgcheck0enabled12、更新本地yum缓存sudo yum makecache3、安装GitLab社区版sudo y…

python播放在线音乐_Python实现在线音乐播放器

最近这几天,学习了一下python,对于爬虫比较感兴趣,就做了一个简单的爬虫项目,使用Python的库Tkinsert做了一个界面,感觉这个库使用起来还是挺方便的,音乐的数据来自网易云音乐的一个接口,通过re…

golang如何打印float64的整数部分_2020-08-10:如何不用加减乘除求浮点数的2倍值?...

福哥答案2020-08-10:浮点数符号位阶码尾数,阶码加1就是浮点数的2倍值。代码用golang编写,如下:package test33_addimport ( "fmt" "math" "testing")/*//https://www.bbsmax.com/A/6pdDX7…

mysql varchar 非空判断_工资从1万到3万,你还差mysql数据库优化之系列三

查询性能的优化优化查询分析的步骤:1.应用查询是否检索超过需要的数据2.mysql服务器是否在分析超过需要的数据正确使用索引:1.like语句操作一般不使用%或_开头例如: select * from tableName where name like %cn;只能使用like aaa%;2.组合索引例如索引index index_name (a, b,…

etl数据抽取工具_数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别

什么是数据同步工具(ETL、ELT)数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。数据同步是大数据项目重要的一个环节。…

oracle数据库查表_Oracle面试问题-技术篇

这也许是你一直期待的文章,在关注这部分技术问题的同时,请务必阅读有关面试中有关个人的问题和解答。和猎萝卜小编来一起了解。这里的回答并不是十分全面,这些问题可以通过多个角度来进行解释,也许你不必在面试过程中给出完全详尽…

uniapp怎么调起摄像头拍视频_抖音视频怎么拍?我们总结了10个手机视频拍摄小技巧...

抖音的很多功能与小咖秀类似,但不同的是,抖音用户可以通过视频拍摄的快慢、视频编辑和特效等技术让作品更具创造性,而不是简单地对嘴型。抖音短视频的10个拍摄技巧,帮助你方便、快捷地制作出更加优质的短视频内容。1.远程控制暂停更方便抖音视频怎么拍?在拍摄时,如果…

jdk 安装_Jdk 安装使用教程

java 程序员的第一个程序 hello worldpublic class MyFirstJavaProgram {public static void main(String []args) {System.out.println("Hello World");}}1、下载jdk连接地址:https://docs.oracle.com/javase/8/docs/technotes/guides/install/install_o…

win10计算机管理字体糊,win10字体模糊如何解决

win10系统是一款优秀的消费级别的系统,深受大家广泛好评。但是有些网友在使用时也会出现一些问题,比如win10字体模糊。接下来,我就给大家介绍一下解决win10字体模糊的解决方法,赶紧来瞧瞧吧近来有不少网友询问win10字体模糊的解决…