pandas 遍历并修改_Pandas循环提速7万多倍!Python数据分析攻略

乾明 编译整理 
量子位 报道 | 公众号 QbitAI

用Python和Pandas进行数据分析,很快就会用到循环。

但在这其中,就算是较小的DataFrame,使用标准循环也比较耗时。

遇到较大的DataFrame时,需要的时间会更长,会让人更加头疼。

现在,有人忍不了了。他是一位来自德国的数据分析师,名叫Benedikt Droste。

他说,当自己花了大半个小时等待代码执行的时候,决定寻找速度更快的替代方案。

在给出的替代方案中,使用Numpy向量化,与使用标准循环相比,速度提升了71803倍。

50e6bb494c631590ad461e07be1e85af.png

他是怎么实现的?我们一起来看看~

标准循环处理3年足球赛数据:20.7秒

DataFrame是具有行和列的Pandas对象。如果使用循环,需要遍历整个对象。

Python不能利用任何内置函数,而且速度很慢。在Benedikt Droste的提供的示例中,是一个包含65列和1140行的Dataframe,包含了2016-2019赛季的足球赛结果。

需要解决的问题是:创建一个新的列,用于指示某个特定的队是否打了平局。可以这样开始:

def soc_loop(leaguedf,TEAM,):
    leaguedf['Draws'] = 99999
    for row in range(0, len(leaguedf)):
        if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) | \
            ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')):
            leaguedf['Draws'].iloc[row] = 'Draw'
        elif ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')) | \
            ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')):
            leaguedf['Draws'].iloc[row] = 'No_Draw'
        else:
            leaguedf['Draws'].iloc[row] = 'No_Game'

a1e2d1046f2dcfabd085703d589b639f.png

在这个案例中是阿森纳,在实现目标之前要确认阿森纳参加了哪些场比赛,是主队还是客队。但使用标准循环非常慢,执行时间为20.7秒。

那么,怎么才能更有效率?

Pandas 内置函数: iterrows ()ー快321倍

在第一个示例中,循环遍历了整个DataFrame。iterrows()为每一行返回一个Series,它以索引对的形式遍历DataFrame,以Series的形式遍历感兴趣的列。这使得它比标准循环更快:

def soc_iter(TEAM,home,away,ftr):
    #team, row['HomeTeam'], row['AwayTeam'], row['FTR']
    if [((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D'))]:
        result = 'Draw'
    elif [((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D'))]:
        result = 'No_Draw'
    else:
        result = 'No_Game'
    return result

23cdbfaeed4285abd9698736afa20805.png

代码运行时间为68毫秒,比标准循环快321倍。但是,许多人建议不要使用它,因为仍然有更快的选项,而且iterrows()不能跨行保存dtype。

这意味着,如果你在DataFrame dtypes上使用iterrows(),可以更改它,但这会导致很多问题。

一定要保存dtypes的话,你还可以使用itertuples()。这里我们不详细讨论 ,你可以在这里找到官方文件:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.itertuples.html

apply ()方法ー快811倍

apply 本身并不快,但与DataFrame结合使用时,它具有优势。这取决于 apply 表达式的内容。如果可以在 Cython 空间中执行,那么apply要快得多,这里的示例就是这种情况。

大家可以在Lambda函数中使用apply。所要做的就是指定这个轴。在本文的示例中,想要执行按列操作,要使用 axis 1:

fcb63f488be7c40298df9ed046488b17.png

这段代码甚至比之前的方法更快,完成时间为27毫秒。

Pandas向量化—快9280倍

此外,也可以利用向量化的优点来创建非常快的代码。

重点是避免像之前的示例中的Python级循环,并使用优化后的C语言代码,这将更有效地使用内存。只需要稍微修改一下函数:

def soc_iter(TEAM,home,away,ftr):
    df['Draws'] = 'No_Game'
    df.loc[((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D')), 'Draws'] = 'Draw'
    df.loc[((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D')), 'Draws'] = 'No_Draw'

现在,可以用 Pandas 列作为输入创建新列:

8c71e3dd414dcc330dece90d8957b7e4.png

在这种情况下,甚至不需要循环。所要做的就是调整函数的内容。现可以直接将Pandas 列传递给函数,从而获得巨大的速度增益。

Numpy向量化—快71803倍

在上面的示例中,将将Pandas 列传递给函数。通过添加.values,可以得到一个Numpy数组:

2f1865431f2bae7cb363eacc3473da43.png

因为引用了局部性的好处,Numpy数组的速度非常快,代码运行时间仅为0.305毫秒,比一开始使用的标准循环快71803倍。

谁更强一目了然

最后,Benedikt Droste对上述方案进行了总结。

他说,如果你使用Python、Pandas和Numpy进行数据分析,总会有改进代码的空间。

在对上述五种方法进行比较之后,哪个更快一目了然:

8a3e32ecd9434fd2e4bf193237d348d5.png

从这个图中,可以得出两个结论:

  • 1、如果要使用循环,则应始终选择apply方法。

  • 2、否则,使用向量化是最好的,因为它更快!

原文链接:https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06

直播 | 揭秘最强中文NLP预训练模型

ff9b100ab45b3daeeb1673e09d45ef09.png94904eef11d73c0f4805b49abd47d32d.png

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 ! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/344583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

spring消息队列_AmazonSQS和Spring用于消息传递队列

spring消息队列下一篇文章将演示如何将Spring JMS模板和DLMC与AmazonSQS API一起使用,以放置消息队列。 我为什么要使用Amazon SQS? 易于配置 跨平台支持 从您的自我冗余,连带和扩展方面的烦恼中赚钱。 为什么我不使用Amazon SQS&#x…

教程:用Java创建和验证JWT

“我喜欢编写身份验证和授权代码。” 〜从来没有Java开发人员。 厌倦了一次又一次地建立相同的登录屏幕? 尝试使用Okta API进行托管身份验证,授权和多因素身份验证。 Java对JWT(JSON Web令牌)的支持过去需要进行大量工作&#xf…

python用递归法写斐波那契_python实现斐波那契数列: 递归+备忘录法+动态规划实现...

1.为什么备忘录法和动态规划法:斐波那契是很多人入门递归思想的第一课,所以很多人都会最简单的一种递归写法,但是其实递归的过程,他的时间复杂度非常高,达到了O(2的n次方)这样的一个指数级别。先看最简单的&#xff1a…

【渝粤教育】电大中专电商运营实操 (2)_1作业 题库

1.电子商务最重要的是() A.商务 B.网站 C.货物 D.信息技术 正确 正确答案:左边查询 学生答案:A 2.目前菜鸟网络依赖大数据和云计算已实现了哪些功能() A.自动化仓库 B.智能发货 C.物流云加速 D.以上都正确 …

q7goodies事例_Java 8 Friday Goodies:java.io终于成功了!

q7goodies事例在Data Geekery ,我们喜欢Java。 而且,由于我们真的很喜欢jOOQ的流畅的API和查询DSL ,我们对Java 8将为我们的生态系统带来什么感到非常兴奋。 我们已经写了一些关于Java 8好东西的博客 ,现在我们觉得是时候开始一个…

python人脸识别环境搭建_Win10:Python3.6安装face_recognition人脸识别库

face_recognition简介face_recognition是Python的一个开源人脸识别库,支持Python 3.3和Python 2.7。引用官网介绍:Recognize and manipulate faces from Python or from the command line with the worlds simplest face recognition library.安装配置我…

【渝粤教育】电大中专电子商务网站建设与维护 (11)作业 题库

1.目前,阿里巴巴集团旗下主要交易市场不包括哪个( ) A.中国批发交易平台 B.全球批发交易平台 C.中国交易市场 D.国际交易市场 错误 正确答案:左边查询 学生答案:未作答 2.阿里巴巴是于1999年创立的( &#…

【渝粤教育】电大中专电子商务网站建设与维护 (9)作业 题库

1.阿里巴巴的创始人是( ) A.丁磊 B.马云 C.马化腾 D.李彦宏 错误 正确答案:左边查询 学生答案:未作答 2.阿里巴巴是于1999年创立的( )的网上贸易市场平台。 A.企业对企业 B.零售商对消费者 C.企业对零售商 …

AWS re:Invent 2018的5大公告

AWS re:Invent刚刚完成。 这是一个巨大的活动,在拉斯维加斯7家最大的酒店中,有50,000多名与会者,并发布了许多新服务。 无服务器通过新的lambda增强功能和更好的容器支持而继续引起人们的广泛关注。 AWS通过新的“ Outposts”功能…

【渝粤教育】电大中专药事管理与法规作业 题库

1.根据《执业药师职业资格制度规定》,取得药学类相关专业大专学历,报考执业药师考试,要求在药学或中药学岗位工作的年限为( )。 A.5年 B.4年 C.3年 D.6年 错误 正确答案:左边查询 学生答案:A 2.…

添加右键菜单_如何在Windows文件夹的右键菜单中添加“打开PowerShell”

原文:https://www.howtogeek.com/165268/how-to-add-open-powershell-here-to-the-context-menu-in-windows/如果您喜欢使用Windows PowerShell而不是命令提示符,那么您可能喜欢从右键单击Windows中的文件夹时得到的上下文菜单中直接访问它。以下是如何做…

【渝粤教育】电大中专计算机使用基础_1作业 题库

下列类型的软件中,功能没有任何限制且又不需要付费的是()。 A共享软件 B正版软件 C免费软件 D试用软件 错误 正确答案:左边查询 学生答案:B 2在常见的软件版本号中,Professional表示()。 A测试版 B专业版 C家庭版 D免费…

【渝粤教育】电大中专计算机职业素养_1作业 题库

1曾经的一项调查发现一些企业业绩不好,客户流失的最重要的原因是()。 A企业产品价格不好 B企业员工素养达不到要求 C企业产品质量问题 D企业管理问题 错误 正确答案:左边查询 学生答案:A 2职业素养是人类在社会活动中要…

github 公钥 私钥_理解公钥与私钥

一直都对公钥和私钥的概念不清不楚,以至于在 腾讯面试 被问到“如何在一个不安全的环境中实现安全的数据通信?”时,并没有答上来。今天查阅了一些资料,决定写一篇总结文章来加深自己的理解。一、公钥算法与私钥算法1、私钥算法私钥…

多云系统的授权

这是我目前正在致力于消耗SPIFFE( 安全生产身份框架 (Every Production Identity Framework For Everyone )在WSO2的Prabath Siriwardena先生的启发下,在Moratuwa大学的Gihan Dias教授的指导下,通过信任和身份验证在动…

【渝粤教育】电大中专跨境电子商务理论与实务 (28)作业 题库

1.跨境电子商务对接“中国制造”激活了“买卖全球”,而与跨境电商联合则成为“中国制造”在全球崛起的重要支点。该说法( ) A.正确 B.错误 错误 正确答案:左边查询 学生答案:B 2.京东海外购的运营模式是( &…

级联选择组件_如何开发一个 Antd 级联多选控件

本文也同步发在掘金上, https:// juejin.cn/post/69149942 41940750343 Intro 这篇文章将从零开始介绍如何开发一个 Antd 的级联多选选择器。先看效果: Github,Sandbox 阅读完这篇文章,不仅可以学会如何实现级联多选的功能,还可以顺便学会: 如何发布一个 Typescript 编写…

python安卓自动化测试工具有哪些_Android 手机自动化测试工具有哪几种?

如今自动化测试已经应用到每天的测试中。这不足为奇,因为自动化测试在测试过程中节约了时间,还能避免包括人为因素造成的测试错误和遗漏。自动化测试工具选择很多。一些是开源的,一些非常贵。一些自动化工具是几年前出的,一些才在市场上出来。…

通过Spring Integration消费Twitter Streaming API

1.概述 众所周知, Spring Integration具有用于与外部系统交互的大量连接器。 Twitter也不例外,而且很长一段时间以来,因为Spring Social一直是一个开箱即用的解决方案,Spring Integration利用该解决方案来连接到社交网络。 1.1Sp…

mysql5.6 1g内存_1G内存用MySQL5.6还是用MySQL5.5比较好

mysql的50版本和51版本的区别:一、5.0 增加了stored procedures、views、cursors、triggers、xa transactions的支持,增加了inforation_schema系统数据库。二、5.1 增加了event scheduler,partitioning,pluggable storage engine …