kafka python框架_为什么选择R而不是Python做ETL

d30f633a185ad0ab0d63efd3271f533f.png

导读:

1. 打破R慢的印象,ETL效率显著优于Python,堪比spark,clickhouse
2. 对比python中的datatable、pandas、dask、cuDF、modin,R中data.table以及spark、clickhouse
3. 探讨R中的ETL体系

ETL在数据工作中起着至关重要的作用,主要用途有两个:(1)数据生产(2)为探索性数据分析与数据建模服务。

做过建模的小伙伴都知道,70%甚至80%的工作都是在做数据清洗;又如,探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此,ETL效率在整个项目中起着举足轻重的作用。

而日常数据生产中,有时会牵扯到模型计算,一般以R、python为主,且1~100G左右的数据是常态。基于此,于是想对比下R、Python中ETL的效率。

目前已有研究

H2O团队一直在运行这个测试项目, 其中:

  • Python用到了:(py)datatable, pandas, dask, cuDF(moding.pandas在下文作者亲自测试了下);
  • R: data.table, dplyr;
  • julia: DataFrames.jl;
  • clickhouse;
  • spark

测试内容有groupby、join、sort等。测试数据长这样:

99dd63168cab1e1baeb2da4d5a63e149.png

废话不多说,先看部分结果的截图吧。

a1ddf48fe8cda969082c8e7ffdbf1ee5.png
5G数据

b7241407707b9edbb9b0bdae974a13f5.png
50G数据

详细报告见:https://url.cn/5qTWlNQ

上图截取的是复杂的groupby问题中对于5G与50G数据各ETL工具的用时情况,项目运行服务器的内存为128G,核数40。可以看到,无论是5G还是50G的数据,data.table的性能都在python之上,堪比spark、clickhouse。

modin.pandas vs data.table

modin.pandas与data.table测试结果如下,所用数据5G,数据格式如上。服务器为32G、8核,拉取Python3.6、R3.6.2两个docker分别测试。

1.读取

  • data.table用时89秒,内存峰值消耗7G
  • modin.pandas用时58秒,内存峰值消耗25G

本测试所用的是modin[ray],似乎modin.pandas一直有内存管理的问题,参考:

1.1 Fundamental memory leak in Modin:https://url.cn/5HlosKF
1.2 modin read big csv failed:https://url.cn/5cOdpVJ

2.分类汇总

测试内容:对于id3, id4两列分类汇总求v3的中位数与标准差

  • data.table用时10.5秒
data[, .(median_v3 = median(v3), sd_v3 = sd(v3)), by = .(id4, id5)]
  • modin用时174秒,由于modin暂不支持多列的groupby,实际上还是用的pandas的groupby
x.groupby([‘id4’,‘id5’]).agg({‘v3’: [‘median’,‘std’]})
UserWarning: DataFrame.groupby_on_multiple_columns defaulting to pandas implementation.

3.长宽表变换

测试内容:id1, id4不动,对id5横向展开,值为对v3求均值

  • data.table用时3.3秒
dcast.data.table(ans, id1 + id4 ~ id5, value.var = “v3”, fun.aggregate = mean)

R ETL开发框架

开发环境为docker版的Rstudio-server,rstudio本身为最好用的IDE之一,开发效率高,debug方便。

并且,rstudio-server为线上版本的rstudio,后台就是linux环境,前端为rstudio的ui,因此无需为开发环境与生产环境不一致而苦恼,更不会因为某些包只能linux使用而无法在windows使用而苦恼。

目前本人工作中负责一个项目的数据生产,大致流程如下。首先,用presto从hive中读取数据,从ADB读取数据,数据量在5G左右。中间涉及到PCA以及其他计算,最后入库mysql,该任务每天跑一次 。

一个可行的实施方案为Rpresto、RMysql提供I/O支持,data.table提供主体ETL,crontab提供调度服务。

下图是个简易版R的ETL框架,可处理G以下数据,

##################################################

cdab0ca3ad7e2435e87cf0d24dcd727f.png

2020年1月14号更新:关于应用场景,再次说明下,

G级别数据或以下,频率低(如们每天跑一次),涉及到模型计算
  1. 调度请用crontab,airflow;
  2. 涉及到消息队列请用kafka;
  3. 实时性高但数据量又大请用flink流计算;
  4. 大量消息队列,且每个都实时性要求高,且数据量大,请用kafka+flink,如实时推荐系统。

标*的部分为还没有测试过。

##################################################

对R和数据科学感兴趣的小伙伴,欢迎关注公众号:R语言工程化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/419904.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k型热电偶材料_电热汇分享热电偶测温元件符号、标准及参数详解

有人咨询电热汇问:热电偶测温元件符号、标准及参数是什么?今天来详细介绍一下。一、热电偶测温元件符号当导电物质处于温度时,其电子或空穴会随着温度梯度由高温区往低温区移动,由此产生的电荷堆积的现象称作热电效应,…

计算机ip地址配置参数,指定电脑的IP地址和DNS等参数配置方法

使用宽带路由器的话一般建议手工指定电脑的IP地址和DNS等参数,设置方法参考下文。如果你使用的是Windows 2000或Windows XP系统,请点击 “网上邻居”――> “本地连接”――>“属性”――>“Internet协议 (TCP/IP)属性”,将会看到如…

使用 ServiceStack 构建跨平台 Web 服务(转)

出处:http://www.cnblogs.com/shanyou/p/3348347.html 本文主要来自MSDN杂志《Building Cross-Platform Web Services with ServiceStack》,Windows Communication Foundation (WCF) 是一个相当优秀的服务框架,当我们讨论跨平台的服务的时候,…

框架详解_详解:python Web框架flask表单实现(建议收藏)

今天为大家带来的内容是:python框架flask表单实现详解文章内容主要介绍了python框架flask表单实现详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下!!!表单表单…

共享内存中使用指针_详解c++中字符指针数组的使用

之前有写过一篇叫c中动态数组的使用,今来看看c中的字符指针数组的使用。涛哥:c中的动态数组使用​zhuanlan.zhihu.com指针数组,就指向指针的指针,很早以前在说指针的时候说过,但后来发现很多人还是比较难以理解&#x…

软件测试用例项目写作,通用测试用例写作方法

测试用例工作过程软件测试用例设计和软件测试用例写作软件测试用例设计:从设计层面考虑(功能性、可用性、安全性等方面);软件测试用例写作:指的是软件测试用例的写作规范(格式、标识的命名规范等)软件测试用例设计设计出用例的内容&#xff0…

二叉树学习笔记--先序遍历

首先数据二叉树中数据存储如图,n代表节点为空 ,此时退出当前函数。 分解各个步骤如图,为了简化,将节点中的数据代表节点,先left执行,left执行前先输出数据,left执行时,right等待。此…

apache cgi 模块安装

apache安装,请参照:http://httpd.apache.org/docs/2.4/ 安装系统: Fedora release 21 (Twenty One) (x64) 版本:Server version: Apache/2.4.12 (Unix) 安装方式: 源码安装, 源文件目录: /home/web/docs/soft/httpd-2.4.12 安装目录: /usr/local/apache2 在安装apache 之后,…

eslint 无法格式化ts_vscode保存代码,自动按照eslint规范格式化代码设置

vscode保存代码,自动按照eslint规范格式化代码设置编辑器代码风格一致,是前端代码规范的一部分。我们现在前端绝大部分都在使用eslint,或者将要把代码改为eslint,那么此时我们怎么方便使用这个规范呢,下面我来介绍一下…

8个球放入3个盒子方式_8种土豆做法,好吃到根本停不下来!

石锅土豆鸡块鸡腿3,土豆1,青椒2洋葱一半,辣椒10g,肉桂5g八角2,生姜10克,大蒜15g1。将鸡腿洗净切成大块,切成薄片,切青椒,切洋葱片,姜片和蒜片去皮。2、在锅里…

计算机d盘被拒绝访问了怎么办,如果硬盘分区被拒绝访问或无法访问该怎么办?...

拒绝访问硬盘分区的原因可能是硬盘分区表已损坏,导致系统无法正确读取硬盘的分区信息,或者可能是某些软件(例如加密软件)已使用,并且磁盘权限已修改.Bit提供了几种解决方案,请参见下面的具体操作方法:修复方法一,使用硬…

c++电费管理系统_能耗管理系统

园区能源管理系统是专注于园区能耗在线监测以及能耗评估的综合能源管理系统。一、应用背景存在问题:园区建筑功能构成较为复杂,用能设备多,耗能量大,监管难度高。安全、舒适是首要考虑因素,维持这一效果需要消耗更多的…

泰拉瑞亚服务器怎么让玩家注册,上线10年,《泰拉瑞亚》为何变成了一款交友游戏?...

《泰拉瑞亚》这款游戏,最初于2011年5月16日在PC上发行,之后也陆续登录安卓和苹果手机端,如今已走过了十个年头。也许对于《泰拉瑞亚》部分人并不是很熟悉,但提起《我的世界》,相信大部分游戏爱好者都会有共同话题。而《泰拉瑞亚》就是被玩家戏称为横版的Minecraft,因为游戏给玩…

【链表+启发式合并】Bzoj1483 [HNOI2009] 梦幻布丁

Description N个布丁摆成一行,进行M次操作.每次将某个颜色的布丁全部变成另一种颜色的,然后再询问当前一共有多少段颜色.例如颜色分别为1,2,2,1的四个布丁一共有3段颜色. Input 第一行给出N,M表示布丁的个数和好友的操作次数. 第二行N个数A1,A2...An表示第i个布丁的颜色从第三行…

小程序秒杀活动服务器,微信小程序官方上线张大仙周年活动,人数太多把服务器弄崩溃了...

原标题:微信小程序官方上线张大仙周年活动,人数太多把服务器弄崩溃了说起如今人气最旺的《王者荣耀》主播,莫过于就是靠着一手“素质直播”走遍天下的张大仙了。之前由于一些合同上面的问题,张大仙被迫停播了一段时间,…

curl 怎么在xp下使用_Http Post 快速使用

点击上方蓝字可直接关注!方便下次阅读。如果对你有帮助,麻烦点个在看或点个赞,感谢~一直对http很陌生,这次借助libcurl分享一个快速使用http post的案例。平台:ubuntu16.04一、libcurl的安装1. Git上下载 master最新代…