PyODPS开发中的最佳实践

摘要: PyODPS支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。

点此查看原文:http://click.aliyun.com/m/41091/

PyODPS 支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。

现在为了让大家能更好地使用 PyODPS,我们总结开发过程中的最佳实践,来让大家更高效地开发 PyODPS 程序。当然,希望大家能一起来帮助我们来完善总结。

注:公共云由于未支持 Python UDF,因此本文中提到的自定义函数功能包括 apply 和 map_reduce 等功能公共云用户均暂不可用。

除非数据量很小,否则不要试图进行本地数据处理

我们 PyODPS 提供了多种方便拉取数据到本地的操作,因此,很多用户会试图把数据拉取到本地处理,然后再上传到 ODPS 上。

很多时候,用户其实根本不清楚这种操作的低效,拉取到本地彻底丧失了 MaxCompute 的大规模并行能力。而有的用户仅仅是需要对单行数据应用一个 Python 函数,或者试图做一行变多行的操作,这些操作,用 PyODPS DataFrame 都能轻松完成,并且完全利用到了 MaxCompute 的并行计算能力。

比如说现在我有一份数据,都是 json 串,现在我想把 json 串按 key-value 对展开成一行。则可以写一个简单的函数。

In [12]: dfjson
0  {"a": 1, "b": 2}
1  {"c": 4, "b": 3}In [14]: from odps.df import outputIn [16]: @output(['k', 'v'], ['string', 'int'])...: def h(row):...:     import json...:     for k, v in json.loads(row.json).items():...:         yield k, v...:   In [21]: df.apply(h, axis=1)k  v
0  a  1
1  b  2
2  c  4
3  b  3

而这些操作,几乎全部都可以用 apply(axis=1)和 map_reduce 接口完成。

使用 pandas 计算后端进行高效本地 debug

PyODPS DataFrame 能够根据数据来源来决定如何执行,比如,通过 pandas DataFrame 创建的 PyODPS DataFrame 则可以使用 pandas 执行本地计算;而使用 MaxCompute 表创建的 DataFrame 则可以在 MaxCompute 上执行。 而这两种方式,除了初始化不同,后续代码完全一致,因此,我们可以利用这点来进行本地 debug。

所以我们可以写出如下的代码:

df = o.get_table('movielens_ratings').to_df()
DEBUG = True
if DEBUG:df = df[:100].to_pandas(wrap=True)

to_pandas 是将数据下载,根据 wrap 参数来决定是否返回 PyODPS DataFrame,如果是 True,则返回 PyODPS DataFrame;否则,返回 pandas DataFrame。

当我们把所有后续代码都编写完成,本地的测试速度就非常快,当测试结束后,我们就可以把 debug 改为 False,这样后续就能在 ODPS 上执行全量的计算。

使用本地调试还有个好处,就是能利用到 IDE 的如断点和单步调试自定义函数的功能。要知道,在 ODPS 上执行,是把函数序列化到远端去执行,所以本地是没法断点进入的。而使用本地进行调试时,则可以断点进入自定义函数,方便进行调试。

推荐大家使用 MaxCompute studio 来本地调试 PyODPS 程序。

利用 Python 语言特性来实现丰富的功能

编写 Python 函数

一个常见的例子就是,计算两点之间的距离,有多种计算方法,比如欧氏距离、曼哈顿距离等等,我们可以定义一系列函数,在计算时就可以根据具体情况调用相应的函数即可。

def euclidean_distance(from_x, from_y, to_x, to_y):return ((from_x - to_x) ** 2 + (from_y - to_y) ** 2).sqrt()def manhattan_distance(center_x, center_y, x, y):return (from_x - to_x).abs() + (from_y - to_y).abs()

调用则如下:

In [42]: dffrom_x    from_y      to_x      to_y
0  0.393094  0.427736  0.463035  0.105007
1  0.629571  0.364047  0.972390  0.081533
2  0.460626  0.530383  0.443177  0.706774
3  0.647776  0.192169  0.244621  0.447979
4  0.846044  0.153819  0.873813  0.257627
5  0.702269  0.363977  0.440960  0.639756
6  0.596976  0.978124  0.669283  0.936233
7  0.376831  0.461660  0.707208  0.216863
8  0.632239  0.519418  0.881574  0.972641
9  0.071466  0.294414  0.012949  0.368514In [43]: euclidean_distance(df.from_x, df.from_y, df.to_x, df.to_y).rename('distance')distance
0  0.330221
1  0.444229
2  0.177253
3  0.477465
4  0.107458
5  0.379916
6  0.083565
7  0.411187
8  0.517280
9  0.094420In [44]: manhattan_distance(df.from_x, df.from_y, df.to_x, df.to_y).rename('distance')distance
0  0.392670
1  0.625334
2  0.193841
3  0.658966
4  0.131577
5  0.537088
6  0.114198
7  0.575175
8  0.702558
9  0.132617

利用 Python 语言的条件和循环语句

一个常见的需求是,用户有大概30张表,需要合成一张表,这个时候如果写 SQL,需要写 union all 30张表,如果表的数量更多,会更让人崩溃。使用 PyODPS,只需要一句话就搞定了。

table_names = ['table1', ..., 'tableN']
dfs = [o.get_table(tn).to_df() for tn in table_names]
reduce(lambda x, y: x.union(y), dfs)

大功告成。稍微解释下,这里的 reduce 这句等价于:

df = dfs[0]
for other_df in dfs[1:]:df = df.union(other_df)

稍微扩展下,经常有一些 case 是这样,用户要计算的表保存在某个地方,比如说数据库,需要根据配置来对表的字段进行处理,然后对所有表进行 union 或者 join 操作。这个时候,用 SQL 实现可能是相当复杂的,但是用 DataFrame 进行处理会非常简单,而实际上我们就有用户用 PyODPS 解决了这样的问题。

尽量使用内建算子,而不是自定义函数

比如上文提到的欧氏距离的计算,实际上,计算的过程都是使用的 DataFrame 的内建算子,比如说指数和 sqrt 等操作,如果我们对一行数据应用自定义函数,则会发现,速度会慢很多。

In [54]: euclidean_distance(df.from_x, df.from_y, df.to_x, df.to_y).rename('distance').mean()
|==========================================|   1 /  1  (100.00%)         7s
0.5216082314224464In [55]: @output(['distance'], ['float'])...: def euclidean_distance2(row):...:     import math...:     return math.sqrt((row.from_x - row.to_x) ** 2 + (row.from_y - row.to_y) ** 2)...: In [56]: df.apply(euclidean_distance2, axis=1, reduce=True).mean()
|==========================================|   1 /  1  (100.00%)        27s
0.5216082314224464

可以看到,当我们对一行应用了自定义函数后,执行时间从7秒延长到了27秒,这个数据只是1百万行数据计算的结果,如果有更大的数据集,更复杂的操作,时间的差距可能会更长。

总结

利用 PyODPS,我们其实能挖掘更多更灵活、更高效操作 MaxCompute 数据的方式。最佳实践可以不光是我们提供的一些建议,如果你有更多好玩有用的实践,可以多多分享出来。

文档:http://pyodps.readthedocs.io/
代码:https://github.com/aliyun/aliyun-odps-python-sdk ,欢迎提 issue 和 merge request
钉钉群:11701793

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

flowable实战(一)flowable与spring boot集成

文章目录一、添加依赖pom.xml二、关掉认证和Mapper接口的扫描三、添加数据库连接池一、添加依赖pom.xml <dependency><groupId>org.flowable</groupId><artifactId>flowable-spring-boot-starter</artifactId><version>${flowable.version…

PyODPS 中使用 Python UDF

摘要&#xff1a; PyODPS 中使用 Python UDF 包含两方面&#xff0c;一个是直接使用&#xff0c;也就是在 MaxCompute SQL 中使用&#xff1b;一个是间接的方式&#xff0c;也就是 PyODPS DataFrame&#xff0c;这种方式你不需要直接写 Python UDF&#xff0c;而是写普通的 Pyt…

无服务器计算,如何节省时间和成本?

戳蓝字“CSDN云计算”关注我们哦&#xff01;译者 | 风车云马出品 | CSDN云计算&#xff08;ID&#xff1a;CSDNcould&#xff09;为了解决面临的业务问题&#xff0c;通常需要开发人员花费一定的时间编写完代码&#xff0c;再交由运维工程师确保正常的运行&#xff0c;整个过程…

gen文件下有两个R.java_android工程gen目录中R.java包名是怎么确定

新建一个工程&#xff0c;包名用的com.mythroad.adskiller, 后来觉得不好&#xff0c;又改成com.mythroad.adsinscepter,但是我发现gen下的R.java文件的包名还是原来的com.mythroad.adskiller。甚至手动新建了R.java,包名为com.mythroad.adsinscepter&#xff0c;我把com.mythr…

flowable实战(二)flowable流程模型管理接口

文章目录一、流程模型资源二、流程模型资源的部署&#xff1a;2.1. 流程资源xml部署&#xff1a;2.2. zip/bar打包&#xff0c;多个流程资源文件部署&#xff1a;2.3. Model部署三、部署有关的数据库表四、流程模型的常见管理接口4.1. 部署api4.2.验证部署4.3.获取所有部署api4…

玩转CocoaPods

摘要&#xff1a; 作者&#xff1a;阿里-移动云-大前端 CocoaPods作为iOS的依赖管理工具&#xff0c;已然成为iOS开发的标准工具&#xff08;官方给出的数据&#xff0c;超过42W个库和300W个App使用了CocoaPods&#xff09;。 本篇文章&#xff0c;非讲述CocoaPods的教学文章&a…

一张图看懂阿里云新发布的物联网设备上云神器——HiTSDB + IoT套件

近日&#xff0c;阿里云针对物联网企业遇到的设备认证困难、安全问题突出等问题&#xff0c;发布了HiTSDB IoT 套件的一体化解决方案&#xff0c;能够支持物联设备快速上云&#xff0c;高效设备管理&#xff0c;数据安全&#xff0c;低成本海量数据存储&#xff0c;实时掌握设备…

flowable实战(三)flowable流程实例管理接口

文章目录一、流程实例的管理接口常见功能&#xff1a;1.启动一个流程&#xff08;即创建一个流程实例&#xff09;2.本人发起的流程实例3.本人参与的流程实例4.挂起/激活流程实例5.提前终止流程实例&#xff08;或又叫撤销流程&#xff09;6.彻底删除流程实例7.流程图查看8.判断…

java jtable不可编辑_java – 使JTable单元不可编辑

当用户双击时,我试图使JTable的所有单元格都不可编辑.我已经阅读了很多论坛帖子,一般的共识是创建一个新的表模型类,扩展DefaultTableModel然后重写方法isCellEditable(int row,int column).我做了所有这些,现在当我运行我的程序(小程序)时,没有任何东西出现在单元格中.注意我这…

Spark精华问答 | 谈谈spark中的宽窄依赖

总的来说&#xff0c;Spark采用更先进的架构&#xff0c;使得灵活性、易用性、性能等方面都比Hadoop更有优势&#xff0c;有取代Hadoop的趋势&#xff0c;但其稳定性有待进一步提高。我总结&#xff0c;具体表现在如下几个方面。1Q&#xff1a;Spark RDD是什么&#xff1f;A&am…

阿里云产品头条(2017年12月刊)

摘要&#xff1a; 一、新产品发布1、云防火墙 商业化 发布云防火墙是一款云环境下的防火墙产品&#xff0c;首创了基于业务可视的结果&#xff0c;实现业务梳理和业务隔离的技术。适用于互联网&#xff0f;通用&#xff0f;游戏&#xff0f;金融&#xff0f;新零售&#xff0f;…

一张图解读阿里云数据管理DMS企业版

摘要&#xff1a; 阿里云数据管理DMS企业版&#xff0c;作为数据管理产品大家族里的新成员&#xff0c;于2017年11月开启公测&#xff0c;今年1月底正式发布商业化版本。 作为业界领先的面向企业的数据库DevOps解决方案&#xff0c;DMS企业版旨在帮助企业安全、高效的使用数据库…

flowable实战(四)flowable任务实例管理接口

文章目录1. 任务办理模式分两种1.1. 一种直接办理模式1.2. 一种需要签收后再办理2. 转办任务3. 委派任务与代办任务4. 待办任务列表5. 待办签收列表6. 抄送任务7. 终止任务&#xff08;这个功能放到流程实例中&#xff09;8. 催办任务9. 驳回10. 超时自动跳转完成11. 任务按业务…

架构设计之「 微服务入门 」

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 奎哥来源 | 不止思考微服务这几年不可谓不火&#xff0c;很多技术团队都开始在自己的项目上引入了微服务。一方面这些团队确实很好的推动了微服务的应用和发展&#xff0c;另一方面也可以看到一些盲目追技术热点的行为所带来…

Java语言中提供了三个日期类_Java语言学习(5)-Java中基础封装类(日期、时间类)...

日期和时间封装类1、 Data类Java日期和时间采用Data类。Data类在java.util包中。Data类构造函数&#xff1a;1) Data() 采用当前时间初始化对象&#xff1b;2) Data(long millisec) 采用1970年1月1日起时间毫秒数来初始化对象。Data类的方法&#xff1a;1) …

提升研发效率 保障数据安全——阿里云宣布数据管理DMS企业版正式商业化

摘要&#xff1a; 阿里云数据管理DMS企业版&#xff0c;作为数据管理产品大家族里的新成员&#xff0c;于2017年11月开启公测&#xff0c;今年1月底正式发布商业化版本。 作为业界领先的面向企业的数据库DevOps解决方案&#xff0c;DMS企业版旨在帮助企业安全、高效的使用数据库…

flowable实战(五)flowable驳回/退回上一步/退回到

一、驳回/退回上一步/退回到&#xff08;历史某一个节点&#xff09; 我们经常需要工作流中退回上一步&#xff0c;或者退回历史某一个节点。但由于流程的场景是很复杂的&#xff0c;回退有以下一些场景&#xff1a;1.串行路线上的退回&#xff1a;流程中没有任何网关&#xff…

全链路压测一招搞定,阿里云性能测试铂金版发布

摘要&#xff1a; 阿里云性能测试&#xff08;Performance Testing Service&#xff09;是卓越的SaaS性能测试平台&#xff0c;具备强大的分布式压测能力&#xff0c;可模拟海量用户的真实业务场景&#xff0c;让所有性能问题无所遁形。近日&#xff0c;PTS宣布推出了基于阿里双…

老司机教你分析日志:分析用户的地理位置信息

摘要&#xff1a; 地理位置的需求 通常我们分析用户的需求&#xff0c;了解到用户当前位置在哪里非常重要&#xff0c;例如&#xff0c;可以根据用户的地理位置&#xff0c;针对性的推广本地广告。 通常&#xff0c;我们可以在客户端获取定位权限来获取GPS信息。但是如果用户关…

java中的switch的规则_细细讲述Java技术开发的那些不为人知的规则

本文介绍的Java规则的说明分为3个主要级别&#xff0c;中级是平时开发用的比较多的级别&#xff0c;在今后将陆续写出其他的规则。遵守了这些规则可以提高程序的效率、使代码又更好的可读性等。一、在finally方法里关掉input或者output资源方法体里面定义了input或者output流的…