特征计算 - 遍历求值提速 6 万倍 lambda...if...else(if...else...) +map() 对比 iterrows() - Python代码

Python 进行 DataFrame 数据处理的过程中,需要判断某一列中的值(条件),然后对其他两列或三列进行求和(均值/最值)等运算,并把运算结果存储在新的一列中。干说可能觉得比较晕,我们来看一个例子:

下表 data_base 中,预测区间这一列共有 1/2/3/4 类值,现需要生成新列预测概率,新列的计算规则为:

  • 预测区间=1,则求分类概率_1分类概率_2的均值;
  • 预测区间=2/3,则求分类概率_1分类概率_2分类概率_3的均值;
  • 预测区间=4,则为分类概率_1的值;

 需求应该说清楚了,下面我们来看看根据上述计算规则,传统的代码怎么写。

传统代码思路:

iterrows() 遍历 data_base 表,使用 for ... if ... elif ...计算预测概率的值,

import time
start_1 =time.clock()#记录代码开始运行时间data_base[u'预测概率_1'] = 0#赋初始值for index,row in data_base.iterrows():if (row['预测区间'] == 1):data_base.loc[index, '预测概率_1'] = ((data_base.loc[index, '分类概率_1'] + data_base.loc[index, '分类概率_2'])/2).astype(float)elif (row['预测区间'] == 2) | (row['预测区间'] == 3):data_base.loc[index, '预测概率_1'] = ((data_base.loc[index, '分类概率_1'] + data_base.loc[index, '分类概率_2']+data_base.loc[index, '分类概率_3'])/3).astype(float)elif (row['预测区间'] == 4):data_base.loc[index, '预测概率_1'] = ((data_base.loc[index, '分类概率_1'])).astype(float)end_1 = time.clock()#记录代码结束运行时间
print('Running time: %s Seconds'%(end_1-start_1))#输出耗时

输出:Running time: 539.8234579883166 Seconds

 一万四千行数据,运行了将近十分钟...........


下面来看看比他快 6 万倍的代码(思路:lambda...if...else(if...else...) 定义计算规则,然后使用 map() 函数做映射):

start_2 =time.clock()a = data_base[u'预测区间'].tolist()
x = data_base[u'分类概率_1'].tolist()
y = data_base[u'分类概率_2'].tolist()
z = data_base[u'分类概率_3'].tolist()b = list(map(lambda a, x, y, z: (x+y+z)/3 if (a==2)|(a==3) else ((x+y)/2 if a==1 else(x if a==4 else 0)),a, x, y, z))
b = pd.DataFrame(b, columns=['预测概率_2'])#转化成dataframe格式
data_base = pd.concat([data_base, b['预测概率_2']], axis = 1, join='outer', sort=False)end_2 = time.clock()
print('Running time: %s Seconds'%(end_2-start_2))

输出:Running time: 0.009003164524415297 Seconds

539.823 / 0.009 ~~ 60000 (这可不就是快了 6 万倍嘛!哈哈......)


下面我们看看求的结果是否一样,不管代码快了多少,如果算错了那就没有任何意义:

data_base_out = data_base[['级别', '行业', '年份', '预测区间','分类概率_1', '分类概率_2', '分类概率_3','预测概率_1','预测概率_2']]
data_base_out.head()

对比后两列,一致!?

抽查一些值,根据计算规则手动算一算 ,对比表中代码给出的值,一致!?

完美~~~


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

写写最近吧,关于读研、找工作

刚刚又被朋友问到为什么要选择读研的问题了。已经好多好多人问过我这样的问题,我何尝不想问问自己到底为什么要读研呢。前段时间,每天在睡觉之前都我要想出无数个理由劝服自己要坚持读研,而每天早上第一件事又是再问自己为什么要读研。 我觉得…

非线性回归 - 案例按步骤详解 -(SPSS建模)

在上一篇时间序列的文章中,偶然发现另一份数据的整体趋势很符合非线性回归关系,那么就顺势写一篇非线性回归案例的文章吧。 准备工作:SPSS - 中文版 SPSS 22.0 软件下载与安装教程 - 【附产品授权许可码,永久免费】 数据解释&am…

LeetCode 609. 在系统中查找重复文件(哈希)

1. 题目 给定一个目录信息列表,包括目录路径,以及该目录中的所有包含内容的文件,您需要找到文件系统中的所有重复文件组的路径。 一组重复的文件至少包括二个具有完全相同内容的文件。 输入列表中的单个目录信息字符串的格式如下&#xff1…

邮件服务器之POP3协议分析

第1章. POP3概述 POP3全称为Post Office Protocol version3,即邮局协议第3版。它被用户代理用来邮件服务器取得邮件。POP3采用的也是C/S通信 模型,对应的RFC文 档为RFC1939。 该协议非常简单,所以我们只重点介绍其通信过程,而相关…

Python 画图常用颜色 - 单色、渐变色、混色 - 够用

单色 装了seaborn扩展的话,在字典seaborn.xkcd_rgb中包含所有的xkcd crowdsourced color names。如下: plt.plot([1,2], lw4, cseaborn.xkcd_rgb[baby poop green]) 虽然觉得上面的已经够用了,但是还是备份一下这个最全的吧。 渐变色&…

[scikit-learn 机器学习] 2. 简单线性回归

文章目录1. 简单线性回归2. 评价模型本文为 scikit-learn机器学习(第2版)学习笔记1. 简单线性回归 import numpy as np import matplotlib.pyplot as pltX np.array([[6],[8],[10],[14],[18]]) y np.array([7,9,13,17.5,18]) plt.title("pizza …

Python 画图常用点的形状,Matplotlib 设置参数marker的值 - o + - ★☆►◁ - 够用

markertype含义“.”point点“,”pixel像素“o”circle圆“v”triangle_down下三角“^”triangle_up上三角“<”triangle_left左三角“>”triangle_right右三角“1”tri_down类似奔驰的标志“2”tri_up类似奔驰的标志“3”tri_left类似奔驰的标志“4”tri_right类似奔驰的…

iphone静态库的加载和调试

一. iphone静态库的加载&#xff1a;使用静态库需要提供*.a库文件和*.h头文件。 1. 在xcode中Frameworks项上点击右键add->existing files选择*.a库文件 2. 在classse项上点击右键add->existing files选择*.h头文件 3. 在需要使用库文件的*.m文件中添加import “*.h” 二…

Matplotlib - 散点图 scatter() 所有用法详解

目录 基本用法 散点的大小不同&#xff08;根据点对应的数值&#xff09; 散点的颜色不同&#xff08;指定颜色或者渐变色&#xff09; 散点图和折线图是数据分析中最常用的两种图形&#xff0c;他们能够分析不同数值型特征间的关系。其中&#xff0c;散点图主要用于分析特征…

VC 6中使用不同调用规范的函数在符号文件里的表示方式

在以前老版本的C编译器里&#xff0c;编译器会为使用不同调用约定&#xff08;Calling Convention&#xff09;的函数生成不同的名称&#xff0c;不仅是连接程序会遵从这个命名规则&#xff0c;调试器也会遵守这个命名规则。因此在Visual Studio里调试使用老版本编译器编译出来…

Matplotlib - 折线图 plot() 所有用法详解

散点图和折线图是数据分析中最常用的两种图形。其中&#xff0c;折线图用于分析自变量和因变量之间的趋势关系&#xff0c;最适合用于显示随着时间而变化的连续数据&#xff0c;同时还可以看出数量的差异&#xff0c;增长情况。 Matplotlib 中绘制散点图的函数为 plot() &…

html 拍照旋转了90度_华为Mate X2概念图:可旋转正反三屏幕,单颗镜头在转轴上...

如果你是新朋友&#xff0c;请点击上方的蓝色字 关注 “高科技爱好者”&#xff0c;保证不会让你失望的.华为折叠手机的上市发售&#xff0c;引起了消费者的广泛关注&#xff0c;尤其是华为MateX系列手机的售价非常昂贵&#xff0c;同时出货量也比较少&#xff0c;所以外界都十…

[scikit-learn 机器学习] 3. K-近邻算法分类和回归

文章目录1. KNN模型2. KNN分类3. 使用sklearn KNN分类4. KNN回归本文为 scikit-learn机器学习&#xff08;第2版&#xff09;学习笔记K 近邻法&#xff08;K-Nearest Neighbor, K-NN&#xff09; 常用于 搜索和推荐系统。 1. KNN模型 确定距离度量方法&#xff08;如欧氏距离…

[转帖]关于Linux下的icotl函数

关于Linux下的icotl函数 最近接触android开发&#xff0c;因为有时间所以就关注了下android的源码&#xff0c;在跟踪源码过程中到最后都会遇到icotl函数&#xff0c;虽然在Symbian中曾经遇到过RSocket的icotl函数&#xff0c;但是当时没有细究&#xff0c;今天有时间就搜索了下…

Matplotlib - 柱状图、直方图、条形图 bar() barh() 所有用法详解

目录 基本用法 多个直方图并列显示 显示直方图上的数值 多个直方图堆叠显示 水平直方图 相较散点图和折线图&#xff0c;柱状图&#xff08;直方图、条形图&#xff09;、饼图、箱线图是另外 3 种数据分析常用的图形&#xff0c;主要用于分析数据内部的分布状态或分散状…

word里双横线怎么打_美人计 | 精致打工人秀智,教你内双怎么化

通勤妆千千万&#xff0c;大家画好才能算。国民初恋裴秀智搭档“南朋友”南柱赫&#xff0c;《启动了》这部剧让很多颜值控都纷纷沦陷了。起初奔着这两大主角看的&#xff0c;结果看着看着又被男二金宣虎圈了粉&#xff0c;在剧中裴秀智和金宣虎两小无猜的感情没能发展成爱情&a…

LeetCode 480. 滑动窗口中位数(大小堆升级版+set实现)

1. 题目 中位数是有序序列最中间的那个数。 如果序列的大小是偶数&#xff0c;则没有最中间的数&#xff1b;此时中位数是最中间的两个数的平均数。 例如&#xff1a; [2,3,4]&#xff0c;中位数是 3 [2,3]&#xff0c;中位数是 (2 3) / 2 2.5 给你一个数组 nums&#xff0…

Matplotlib - 饼图、环形图 pie() 多重饼图 subplots() 所有用法详解

目录 基本用法 饼图中突出显示某部分 环形图&#xff08;空心饼图&#xff09; 多重饼图&#xff0c;并添加分割线 相较散点图和折线图&#xff0c;柱状图、饼图、箱线图是另外 3 种数据分析常用的图形&#xff0c;主要用于分析数据内部的分布状态或分散状态。饼图主要用于…

USACO2.11 The Castle hdu1198

题意&#xff1a; 我们憨厚的USACO主人公农夫约翰(Farmer John)以无法想象的运气,在他生日那天收到了一份特别的礼物&#xff1a;一张“幸运爱尔兰”&#xff08;一种彩票&#xff09;。结果这张彩票让他获得了这次比赛唯一的奖品——坐落于爱尔兰郊外的一座梦幻般的城堡&#…

LeetCode 1072. 按列翻转得到最大值等行数(查找相同的模式,哈希计数)

1. 题目 给定由若干 0 和 1 组成的矩阵 matrix&#xff0c;从中选出任意数量的列并翻转其上的 每个 单元格。 翻转后&#xff0c;单元格的值从 0 变成 1&#xff0c;或者从 1 变为 0 。 返回经过一些翻转后&#xff0c;行上所有值都相等的最大行数。 示例 1&#xff1a; 输入…