pandas 更改单元格的值_懂Excel轻松入门Python数据分析包pandas(二十四):连续区域...

b8a66d41b1bae4af6283d0e83495d434.png

此系列文章收录在公众号中:数据大宇宙 > 数据处理 >E-pd

转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)

经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

本系列上一节已经介绍了最简单的 shift 方法应用,这一节将结合其他技巧,解决诸如"某城市一年最大连续没下雨天数"的问题。


Excel 中的实现方式直观简单

如下一份简单的记录表:

9a68cc3c3779e57f36797881d376ceb8.png
  • 需要根据这份数据,得到最长连续下雨天数是多少,是几号到几号
  • 上图红框是一部分符合条件的,其中最长的红框是需要的结果

按照惯例,先看看如果在 Excel 上是怎么得到结果:

cba9b03c66b960a26b7f29016fbae9d2.png
  • D列 到 G列 是辅助列
  • D列:是C列 的下位移列(不理解的看上期文章)
  • E列:对比 C列 与 D列 是否不一样
  • F列:对 E列 的结果数值化,True 为1,False 为0
  • G列:累计求和,上图可直接看到 G2 单元格的公式,不多说了
  • 注意看 G列 的内容,相当于根据 C列的内容,相同连续值被划分到一个独立的编号
  • 接下来只需要条件筛选+分组统计,即可简单求出结果

后面的条件筛选+分组不再用 Excel 操作了(因为操作比较麻烦)


8a7395acd0c632502ea4768a6b883097.png

pandas 中的对应实现

现在关键是怎么在 pandas 中完成上述 Excel 中的操作,实际非常简单:

2c06b0c1f59c2169342a3107bd9b9f1f.png
  • 行2:简单完成
  • df.下雨.shift() 相当于 Excel 操作中的 D列
  • (df.下雨.shift() != df.下雨) 相当于 Excel 操作中的 E列
  • .cumsum() 相当于 Excel 操作中的 G列

接下来是分组统计,pandas 的分组其实不需要把辅助列加到 DataFrame 上的:

8a8fcc3fc4456a182bf7f24b262d3d71.png
  • 行4:筛选下雨的行的条件
  • 行6:先对 df 过滤下雨的行,按 diff_nums 分组统计
  • 结果是一下子统计出各个连续下雨的天数与日期范围

结果是需要得到其中 count 列的最大值的行:

6dcc6757c5431290803cfbef1d61d3ba.png
  • 行8:使用 idxmax 得到最大值的行索引值
e7ac105af030fb51e4795c77d49f56e4.png

总结

本文重点:

  • Series.shift + cumsum ,能实现连续符合条件的区域编号
  • 此技巧能解决很多实际问题

需要源码的小伙伴请转发本文并私信我"python"

如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/504039.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

opencv python轻松入门_OpenCV轻松入门 面向Python

章OPENCV入门1 1.1如何使用1 1.2图像处理基本操作3 1.2.1读取图像3 1.2.2显示图像5 1.2.3保存图像9 1.3OpenCV贡献库10 第2章图像处理基础11 2.1图像的基本表示方法11 2.2像素处理15 2.3使用numpy.array访问像素23 2.4感兴趣区域(ROI)29 2.5通道操作32 2.5.1通道拆分32 2.5.2通…

产生式是蕴含式_独栋别墅~下沉式庭院设计

遇见美. 发现美创造美. 成就美有趣、有情奢享生活.创艺空间设计项目概述:这是一套婚房,从设计到装修完毕,历经三年。这是一生幸福开启的地方。一层为会客厅、室内花园、餐厅、茶室、老人房。原始房屋整体空间不够方正,空间利用率低…

在前端中如何在表格中最后一行加入输入框_UI设计进阶干货 — 如何制定UI规范...

APP为何要制定设计规范作为UI设计师,整理设计规范也是设计能力的一种体现。但很多小公司的设计师都觉得, 整个公司只有自己一个设计师, 所有的设计稿都是自己一个人做的, 风格肯定都是统一的, 所以没必要花那么长时间去做一个没有用的东西。但其实规范的本身并不是只…

如何用三元组表表示下列稀疏矩阵_盘一盘 Python 系列特别篇21之:SciPy 稀疏矩阵...

引言和稠密矩阵相比,稀疏矩阵的最大好处就是节省大量的内存空间来储存零。稀疏矩阵本质上还是矩阵,只不过多数位置是空的,那么存储所有的 0 非常浪费。稀疏矩阵的存储机制有很多种 (列出常用的五种):COO (Coordinate List Format)…

六西格玛dfss_向六西格玛质量水平进攻!

为提高设计质量,提升研发团队整体作战能力,2019年初,技术中心确定了大力推进先进质量管理方法DFSS(六西格玛设计)的工作目标。一年来,在DFSS小组的策划组织和通用黑带大师的倾力支持下 ,技术中心各区域工程师积极地学习…

python多进程和多线程使用场景_Python36 多线程、多进程的使用场景

多线程与多进程的使用场景 io 操作不占用CPU(从硬盘、从网络、从内存读数据都算io) 计算占用CPU(如11计算) python中的线程是假线程,不同线程之间的切换是需要耗费资源的,因为需要存储线程的上下文&#xf…

c字符串中包含双引号_必须知道的C语言知识细节:单引号和双引号正确用法

C语言中ACSII码字符单引号和双引号"在程序中经常出现,很简单,但却是十分重要的语法标点符号,初学者容易混淆使用。单引号在字符常量时使用,表示单个字符。例如:char c;c a;c 1;c A;当在单引号中出现两个及以上…

计算机组成原理哈工大期末_浅谈计算机组成原理(三)

1、第二章:存储系统通过下面的思维导图来依次分享「存储系统」里面重要知识点。2、第一节:存储器的结构1. 主存储器:简称主存,又称内存储器(内存),用来存放计算机运行期间所需的大量程序和数据,CPU可以直接…

常用的python测试脚本_详解Python的单元测试

如果你听说过“测试驱动开发”(TDD:Test-Driven Development),单元测试就不陌生。 单元测试是用来对一个模块、一个函数或者一个类来进行正确性检验的测试工作。 比如对函数abs(),我们可以编写出以下几个测试用例&…

网页中竖的目录怎么改成横的_怎么学习手绘插画?小白也能入门哦

怎么学习手绘插画?小白也能入门哦!在回答这个问题之前,我们先来认识一下什么插画?相信很多人对插画这个概念是很笼统的。插画在中国被人们俗称为插图。发展至今其应用范围很是广泛包括;出版物配图、卡通吉祥物、广告、…

python自动测试v_python下selenium自动化测试自我实践

周末实验自动化提交数据时,本来没打算写记录的,不过遇到一些问题,觉得可以提提。基本操作就不用写了,搜索过程中都发现了两个博客都出了seleniumpython的书,说明操作一搜一大把。 1. 等待页面加载完成 本来用的sleep()…

graphpad细胞增殖曲线_肿瘤干细胞?居然被这两个新加坡人轻松干掉了?

近日,著名医学期刊《自然•医学》上发表了一篇关于肿瘤干细胞的文章。来自新加坡的研究团队发现,人类非小细胞肺癌的肿瘤干细胞需要大量的蛋氨酸,以维持自身组蛋白的甲基化,这对于肿瘤干细胞的生长和致瘤作用至关重要。同时&#…

isight参数优化理论与实例详解_案例1(ISIGHT集成ADAMS CAR方法实现)

本文字数1304字25图,建议阅读时间7分钟强调一下是ISIGHT,不是INSIGHTINSIGHT是ADAMS内置的一个试验设计模块,它提供了一组统计工具,用于分析仿真结果,辅助优化和改进系统ISIGHT是功能强大的计算机辅助优化平台&#xf…

修改图片src_【学习园地】企业SRC搭建

xSRC-企业SRC搭建腾讯xSRC 开源版是腾讯安全应急响应中心(TSRC)面向合作伙伴推出的安全应急响应中心(SRC)建站软件,软件源代码开放,可支持合作伙伴轻松构建SRC平台,省去大量开发运维工作,并支持个性化功能及页面设置,企…

2 数据源配置_论多数据源(读写分离)的实现方案

好的,作为一个合格的bug生产者,我们直接进入主题,多数据源和读写分离实现方案。首先多数据源和读写分离什么时候我们才需要呢?多数据源:一个单体项目过于复杂,需要操作多个业务库的时候,就需要多…

pythonsort函数时间复杂度_合并排序算法——时间复杂度详解和python代码实现

递归形式递归形式是算法中常用到的一种构造思路。递归允许函数或过程对自身进行调用,是对算法中重复过程的高度概括,从本质层面进行刻画,避免算法书写中过多的嵌套循环和分支语法。因此,是对算法结构很大的简化。递归形式实际可以…

docker安装gitlab_docker 安装部署gitlab

下载镜像并且启动//下载镜像(镜像较大,如果网速不行可以切换阿里云镜像仓库) docker pull gitlab/gitlab-ce:latest //启动镜像 docker run --name gitlab -d -p 18080:80 -p 1443:443 -p 2222:22 -v /data/gitlab/config:/etc/gitlab -v /data/gitlab/logs:/var/lo…

easyexcel导出百万级数据_百万级别数据Excel导出优化

这篇文章不是标题党,下文会通过一个仿真例子分析如何优化百万级别数据Excel导出。笔者负责维护的一个数据查询和数据导出服务是一个相对远古的单点应用,在上一次云迁移之后扩展为双节点部署,但是发现了服务经常因为大数据量的数据导出频繁Ful…

运行catia_CATIA清除错误目录及防串链接

清除错误目录大家好今天我来教大家如何清除CATIA错误目录,由于我们在日常工作中经常会互相发送数据,而CATIA的缓存功能通常会记录这些文件的路径,所以我们打开别人发的数据时在桌面的右下角通常会有警告的提醒,那我们如何来清除缓…

python 键盘输入数字_九宫格键盘输入

九宫格键盘输入 Letter Combinations of a Phone Number 给定一个数字字符串,返回数字可能代表的所有可能的字母组合。 数字到字母的映射(就像九宫格电话按钮一样)如下图。 Given a digit string, return all possible letter combinations t…