异常值处理 - iterrows()对 DataFrame 进行遍历,并修改遍历中的异常值 - Python代码

先要有一个很简单的被命名为 data 的表:

 第三列是一个名曰周杰伦的人历年来每个月的月薪,其中2016年月薪10万,纵观他历年来的月薪基本不超过3万(显然他不是我的偶像胖伦),因此对于这个人来说月薪10万是有些异常的。

有些人可能会说,这不简单?直接:【 data[monthly_pay] [data[monthly_pay] >= 10] = null 】就好了啊,可是你忘记了,周杰伦挣不了10万,可是库克完全没压力啊。你这么一句python运行下去,表里关于库克的月薪数据都要被删掉了。

那么,怎么识别到这个10万的数据,进而修改它呢?

我们采用每年和去年的月薪相比的方式,即:若今年的月薪超过去年的 2 倍,且去年的月薪在 5 万以下的,我们将修改今年的月薪为去年月薪的 2 倍值。

首先需要用 iterrows() 遍历这个表,找出异常值,然后修改就好了,下面是 python 代码:

# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
from pandas import DataFrame,Seriesdatafile = u'D:\\pythondata\\learn\\iterrows.xlsx'
data = pd.read_excel(datafile)
data = DataFrame(data)#首先将每一年对应的去年的月薪生成一列新的数据,匹配到最后一列
data_q1 = data[['name', 'year', 'monthly_pay']].copy()
data_q1['year'] = data['year']+1
data_q1.rename(columns={'monthly_pay':'monthly_pay_q1'}, inplace = True)
data = pd.merge(data, data_q1, how='left', left_on=['name','year'], right_on=['name','year'])for index,row in data.iterrows():if ((row['monthly_pay']) >= (2 * (row['monthly_pay_q1']))) & (row['monthly_pay_q1']<= 5):data.at[index, 'monthly_pay'] = (2 * (data.at[index,'monthly_pay_q1'])).astype(int)
data = data[['name', 'year', 'monthly_pay']]

更改后的data表:

iterrows()返回值为元组(index,row) ,for循环定义了两个变量,index, row,那么返回的元组(index,row),index=index,row=row。如果for循环中只定义一个变量 row ,则 row 就是整个元组。论方便的话还是定义两个变量吧。

很简单的功能对吧,代码也很简单,大神们就用不着了,新手们可以了解一下。

iterrows()的官网地址:

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.htm


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 44. 通配符匹配(DP)

1. 题目 给定一个字符串 (s) 和一个字符模式 (p) &#xff0c;实现一个支持 ? 和 * 的通配符匹配。 ? 可以匹配任何单个字符。* 可以匹配任意字符串&#xff08;包括空字符串&#xff09;。 两个字符串完全匹配才算匹配成功。 说明: s 可能为空&#xff0c;且只包含从 a-…

HtmlAgilityPack/xpath

【转载】HTML解析利器HtmlAgilityPack在网上发现了一个.NET下的HTML解析类库HtmlAgilityPack。HtmlAgilityPack是一个支持用XPath来解析HTML的类库&#xff0c;在花了一点时间学习了解HtmlAgilityPack的API和XPath之后&#xff0c;周公就做了一个简单的工具完成了这个功能&…

特征计算 -获取本周,本月初,本月末,上月同日,本季,本年初,本年末的日期 - (Python、MySQL、Oracle)

数据预处理的过程中&#xff0c;往往需要计算当前日期往前推12个月&#xff08;或者本周&#xff0c;本月&#xff0c;本季&#xff0c;本年&#xff09;中间发生的事情&#xff0c; 因此这里贴上相关处理的代码&#xff1a; Python代码&#xff1a; import datetime from d…

LeetCode 966. 元音拼写检查器(哈希)

1. 题目 在给定单词列表 wordlist 的情况下&#xff0c;我们希望实现一个拼写检查器&#xff0c;将查询单词转换为正确的单词。 对于给定的查询单词 query&#xff0c;拼写检查器将会处理两类拼写错误&#xff1a; 大小写&#xff1a;如果查询匹配单词列表中的某个单词&…

MVVM更容易内存泄露吗?

由于MVVM是把View, ViewModel, Model紧紧绑定在一起的模式&#xff0c;特别视图和视图模型通过实现观察者模式双向绑定和NotifyPropertyChanged事件&#xff0c;似乎更加容易造成内存泄露/内存不释放。网上也有这种说法。真的是这样的吗&#xff1f;我们来实际测试一下。 实际测…

分组统计 - 不同时间颗粒度下,按照秒、分、时、日、周、月、季度、年 GROUP BY 分组统计 - (MySQL)

数据处理时&#xff0c;经常需要&#xff1a;统计不同时间粒度下的数据分布情况。 例如&#xff0c;网站每天&#xff08;or每小时&#xff09;的访问量&#xff0c;周杰伦每年&#xff08;or每季度 or每月&#xff09;的收入等。 首先有一个表叫&#xff1a;table_test&…

LeetCode 971. 翻转二叉树以匹配先序遍历(DFS)

1. 题目 给定一个有 N 个节点的二叉树&#xff0c;每个节点都有一个不同于其他节点且处于 {1, …, N} 中的值。 通过交换节点的左子节点和右子节点&#xff0c;可以翻转该二叉树中的节点。 考虑从根节点开始的先序遍历报告的 N 值序列。将这一 N 值序列称为树的行程。 &…

初学Struts遇到的坑爹问题

主要页面 Action: LoginAction.java //用于处理登陆这个事件 FromBean: LoginForm.java //存储Login.jsp中传过来的表单内容 JSP:Login.jsp //登陆页面&#xff0c;提交到login.do XML配置文件&#xff1a;struts-config.xml&#xff0c;web.x…

缺失值处理 - 获取一段时间内所有日期的列表 - (Python、MySQL)

有的时候做数据清洗的时候 &#xff0c; 如果表中数据在某一天没有记录&#xff0c;但是业务要求不能有缺失日期&#xff0c;那么就需要我们将这些缺失日期补上。这个前提就是我们先要有一张包含所有日期的列表&#xff08;作为左表&#xff09;&#xff0c;供我们进行匹配&…

[Kaggle] Digit Recognizer 手写数字识别

文章目录1. Baseline KNN2. Try SVCDigit Recognizer 练习地址 相关博文&#xff1a;[Hands On ML] 3. 分类&#xff08;MNIST手写数字预测&#xff09; 1. Baseline KNN 读取数据 import pandas as pd train pd.read_csv(train.csv) X_test pd.read_csv(test.csv)特征、…

C#中的类型转换大总结

使用C#一个最常见的问题便是各种类型间的转换。我们知道&#xff0c;C#中的类型分为值类型和引用类型两大类。但是&#xff0c;有关它们间各自转换的细节描述在网上很少得到详细的回答。现在&#xff0c;我结合搜索到的部分资料整理如下&#xff1a; 1&#xff0c;问题 c#中类型…

DataFrame字符串之分割split()、清洗drop()、合并concat()、重新建立索引reset_index() - (Python)

数据建模之前&#xff0c;我们从数据部门拿到数据&#xff0c;但是这些数据的格式往往并不是我们可以直接使用的&#xff0c;比如下面表中的数据&#xff08;左&#xff1a;原数据格式&#xff09;。 原数据格式id自成一列&#xff0c;这个很好&#xff0c;但是标签和标签的置…

LeetCode 97. 交错字符串(DP)

1. 题目 给定三个字符串 s1, s2, s3, 验证 s3 是否是由 s1 和 s2 交错组成的。 示例 1: 输入: s1 "aabcc", s2 "dbbca", s3 "aadbbcbcac" 输出: true示例 2: 输入: s1 "aabcc", s2 "dbbca", s3 "aadbbbaccc&qu…

浅谈 JavaScript 编程语言的编码规范--转载

原文&#xff1a;http://www.ibm.com/developerworks/cn/web/1008_wangdd_jscodingrule/ 对于熟悉 C/C 或 Java 语言的工程师来说&#xff0c;JavaScript 显得灵活&#xff0c;简单易懂&#xff0c;对代码的格式的要求也相对松散。很容易学习&#xff0c;并运用到自己的代码中。…

Power BI 数据分析可视化软件入门教程

入 门 l Power BI 的引导学习 什么是Power BI&#xff1f; Power BI 是软件服务、应用和连接器的集合&#xff0c;它们协同工作以将相关数据来源转换为连贯的视觉逼真的交互式见解。 Power BI 简单且快速&#xff0c;能够从 Excel 电子表格或本地数据库创建快速见解。同…

分组统计 - DataFrame.groupby() 所见的各种用法 - Python代码

目录 所见 1 &#xff1a;日常用法 所见 2 &#xff1a;解决groupby.sum() 后层级索引levels上移的问题 所见 3 &#xff1a;解决groupby.apply() 后层级索引levels上移的问题 所见 4 &#xff1a;groupby函数的分组结果保存成DataFrame groupby的函数定义&#xff1a; Da…

LeetCode 1486. 数组异或操作

1. 题目 给你两个整数&#xff0c;n 和 start 。 数组 nums 定义为&#xff1a;nums[i] start 2*i&#xff08;下标从 0 开始&#xff09;且 n nums.length 。 请返回 nums 中所有元素按位异或&#xff08;XOR&#xff09;后得到的结果。 示例 1&#xff1a; 输入&#…

C 内存管理详解

程序员们经常编写内存管理程序&#xff0c;往往提心吊胆。如果不想触雷&#xff0c;唯一的解决办法就是发现所有潜伏的地雷并且排除它们&#xff0c;躲是躲不了的。本文的内容比一般教科书的要深入得多&#xff0c;读者需细心阅读&#xff0c;做到真正地通晓内存管理。   1、…

对照表 - 用心整理了一批国内省份、城市、县城的对照表,用于匹配,拿走不谢

采集的数据中&#xff0c;企业注册地址往往都是城市名&#xff0c;如果你想知道这些企业分布的省份&#xff0c;那么就需要这样一张对照表。 文件存储位置&#xff1a; 百度网盘链接: https://pan.baidu.com/s/1T8aobyzXRRvDQ0NjcEBCUw 提取码: cm7g 以下是文件中的前 100 …

js 获取url的get传值函数

最进在做瞎干项目时用到的&#xff0c;发上了备用&#xff0c;主要是用的正则匹配&#xff01; function getvl(name) {var reg new RegExp("(^|\\?|&)" name "([^&]*)(\\s|&|$)", "i");if (reg.test(location.href)) return unes…