python实现etl_为什么选择R而不是Python做ETL

导读:1. 打破R慢的印象,ETL效率显著优于Python,堪比spark,clickhouse

2. 对比python中的datatable、pandas、dask、cuDF、modin,R中data.table以及spark、clickhouse

3. 探讨R中的ETL体系

ETL在数据工作中起着至关重要的作用,主要用途有两个:(1)数据生产(2)为探索性数据分析与数据建模服务。

做过建模的小伙伴都知道,70%甚至80%的工作都是在做数据清洗;又如,探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此,ETL效率在整个项目中起着举足轻重的作用。

而日常数据生产中,有时会牵扯到模型计算,一般以R、python为主,且1~100G左右的数据是常态。基于此,于是想对比下R、Python中ETL的效率。

目前已有研究

H2O团队一直在运行这个测试项目, 其中:Python用到了:(py)datatable, pandas, dask, cuDF(moding.pandas在下文作者亲自测试了下);

R: data.table, dplyr;

julia: DataFrames.jl;

clickhouse;

spark

测试内容有groupby、join、sort等。测试数据长这样:

废话不多说,先看部分结果的截图吧。5G数据50G数据

上图截取的是复杂的groupby问题中对于5G与50G数据各ETL工具的用时情况,项目运行服务器的内存为128G,核数40。可以看到,无论是5G还是50G的数据,data.table的性能都在python之上,堪比spark、clickhouse。

modin.pandas vs data.table

modin.pandas与data.table测试结果如下,所用数据5G,数据格式如上。服务器为32G、8核,拉取Python3.6、R3.6.2两个docker分别测试。

1.读取data.table用时89秒,内存峰值消耗7G

modin.pandas用时58秒,内存峰值消耗25G

本测试所用的是modin[ray],似乎modin.pandas一直有内存管理的问题,参考:1.1 Fundamental memory leak in Modin:https://url.cn/5HlosKF

1.2 modin read big csv failed:https://url.cn/5cOdpVJ

2.分类汇总

测试内容:对于id3, id4两列分类汇总求v3的中位数与标准差data.table用时10.5秒data[, .(median_v3 = median(v3), sd_v3 = sd(v3)), by = .(id4, id5)]modin用时174秒,由于modin暂不支持多列的groupby,实际上还是用的pandas的groupbyx.groupby([‘id4’,‘id5’]).agg({‘v3’: [‘median’,‘std’]})

UserWarning: DataFrame.groupby_on_multiple_columns defaulting to pandas implementation.

3.长宽表变换

测试内容:id1, id4不动,对id5横向展开,值为对v3求均值data.table用时3.3秒dcast.data.table(ans, id1 + id4 ~ id5, value.var = “v3”, fun.aggregate = mean)

R ETL开发框架

开发环境为docker版的Rstudio-server,rstudio本身为最好用的IDE之一,开发效率高,debug方便。

并且,rstudio-server为线上版本的rstudio,后台就是linux环境,前端为rstudio的ui,因此无需为开发环境与生产环境不一致而苦恼,更不会因为某些包只能linux使用而无法在windows使用而苦恼。

目前本人工作中负责一个项目的数据生产,大致流程如下。首先,用presto从hive中读取数据,从ADB读取数据,数据量在5G左右。中间涉及到PCA以及其他计算,最后入库mysql,该任务每天跑一次 。

一个可行的实施方案为Rpresto、RMysql提供I/O支持,data.table提供主体ETL,crontab提供调度服务。

下图是个简易版R的ETL框架,可处理G以下数据,

##################################################

2020年1月14号更新:关于应用场景,再次说明下,G级别数据或以下,频率低(如们每天跑一次),涉及到模型计算调度请用crontab,airflow;

涉及到消息队列请用kafka;

实时性高但数据量又大请用flink流计算;

大量消息队列,且每个都实时性要求高,且数据量大,请用kafka+flink,如实时推荐系统。

标*的部分为还没有测试过。

##################################################

对R和数据科学感兴趣的小伙伴,欢迎关注公众号:R语言工程化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/472055.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1912. 设计电影租借系统(map+set)

文章目录1. 题目2. 解题1. 题目 你有一个电影租借公司和 n 个电影商店。 你想要实现一个电影租借系统,它支持查询、预订和返还电影的操作。 同时系统还能生成一份当前被借出电影的报告。 所有电影用二维整数数组 entries 表示,其中 entries[i] [shopi…

python第一周心得_python第一周心得-Go语言中文社区

Python 简介Python 作为一个近年备受好评的语言,它的一些优点让人无法忽视。Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。它的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号&am…

数据库总结

数据库只是一个工具 简写:SSMS 全拼:SQL Server Management Studio 服务器名称: 数据库服务所在的电脑的ip地址 通过".(本台)","lacal(本地)"登陆 点击电脑开始→ 运行→ cmd→ net start mssqlserver 服务器的启动 net stop mssqlserve…

python中接口测试垃圾数据如何清理_巧用PyUnit中unittest特性解决接口测试产生脏数据问题...

巧用PyUnit中unittest特性解决接口测试产生脏数据问题一、背景测试数据创建后需要对其删除,不然可能产生脏数据,对开发和测试、生产环境造成一定影响。其接口框架是基于Python,API规范基于REST。二、产生原因(1)改进前:清除资源的…

关于html标签元素的data-*属性

关于这个主题的文章和博客其实已经非常多了,这里并非要重复造轮子,只是看到一些例子稍微有点麻烦,其实也很简单,但是对于一个刚刚入门的人,w3c的例子甚至可能看不懂,这里列出一个最简单不过的小案例以供参考…

使用预训练模型进行句对分类(Paddle、PyTorch)

文章目录1. Paddle2. PyTorch3. 提交结果分别使用两种框架,加载预训练模型,对句对进行分类 数据下载:千言数据集:文本相似度 1. Paddle 可以使用 paddlenlp 直接加载预训练模型,比较方便 # %% # 比赛地址 # https…

python将元祖设为整形_python基础(5)---整型、字符串、列表、元组、字典内置方法和文件操作介绍...

对于python而言,一切事物都是对象,对象是基于类创建的,对象继承了类的属性,方法等特性1.int首先,我们来查看下int包含了哪些函数#python3.xdir(int)#[__abs__, __add__, __and__, __bool__, __ceil__, __class__, __de…

mysql1033错误存储引擎_MySQL Innodb存储引擎因为缓存配置出现的错误

引用100920 10:50:21 mysqld_safe Starting mysqld daemon with databases from /byread/dataInnoDB: The InnoDB memory heap is disabledInnoDB: Mutexes and rw_locks use GCC atomic builtinsInnoDB: mmap(11010048000 bytes) failed; errno 12InnoDB: Fatal error: cannot…

《你的灯亮着吗》 读书笔记三

紧接《你的灯亮着吗》读书笔记二 4、这是谁的问题? 当别人可以妥善解决自己的问题时,不要越俎代庖,如果这是他们的麻烦,就让它成为他们的麻烦,如果一个人处于解决问题的位置,却并不受问题困扰,那…

LeetCode 1913. 两个数对之间的最大乘积差

文章目录1. 题目2. 解题1. 题目 两个数对 (a, b) 和 (c, d) 之间的 乘积差 定义为 (a * b) - (c * d) 。 例如,(5, 6) 和 (2, 7) 之间的乘积差是 (5 * 6) - (2 * 7) 16 。 给你一个整数数组 nums ,选出四个 不同的 下标 w、x、y 和 z ,使数…

PHP和MySQL开发WordPress_wordpress是什么开发的

wordpress是什么开发的?WordPress是一个以PHP和MySQL为平台的自由开源的博客软件和内容管理系统。WordPress具有插件架构和模板系统。截至2018年4月,排名前1000万的网站超过30.6%使用WordPress。WordPress是最受欢迎的网站内容管理系统。WordPress是目前…

python 数据平滑_数据平滑方法的原理和应用

一、简介在实际的工程应用中,经常会遇到初始结果噪声太多的问题,比如信号强度抖动的太厉害,比如视频流中的bbox抖动的太厉害,比如光谱信号抖动的太厉害等等,这时候就需要一些简单的滑动平均算法。滑动平均其实是一个很…

LeetCode 1920. 基于排列构建数组

文章目录1. 题目2. 解题1. 题目 给你一个 从 0 开始的排列 nums&#xff08;下标也从 0 开始&#xff09;。 请你构建一个 同样长度 的数组 ans &#xff0c;其中&#xff0c;对于每个 i&#xff08;0 < i < nums.length&#xff09;&#xff0c;都满足 ans[i] nums[nu…

程序员职业生涯的11个阶段程序人生

程序员的职业生涯是一段充满起伏的有趣经历。考虑到其陡峭的学习曲线&#xff0c;完全可以预见你将经历挫折、启蒙、骄傲自大这几个时期&#xff0c;以及穿插其间的各种心路历程。在这篇文章中让我们轻松一下&#xff0c;在作者诙谐的语言中来回顾这11个阶段&#xff1a; 阶段1…

unity python_Unity引擎内嵌python

Unity脚本using System.Collections;using System;using System.Collections.Generic;using UnityEngine;using System.Diagnostics; //需要添加这个名词空间&#xff0c;调用DataReceivedEventArgpublic class LoadPython : MonoBehaviour{string sArguments "UnityLoad…

LeetCode 1922. 统计好数字的数目(快速幂)

文章目录1. 题目2. 解题1. 题目 我们称一个数字字符串是 好数字 当它满足&#xff08;下标从 0 开始&#xff09;偶数 下标处的数字为 偶数 且 奇数 下标处的数字为 质数 &#xff08;2&#xff0c;3&#xff0c;5 或 7&#xff09;。 比方说&#xff0c;“2582” 是好数字&a…

《人性的弱点》

卡耐基-《人性的弱点》&#xff0c;讲做人要平和、真诚&#xff0c;沟通的成功在于尽量避免争辩&#xff0c;最常见的情况是在争辩中取得了胜利却失去了成功的机会。这本书适合长时间的品味&#xff0c;以至自觉地养成良好的习惯以及卓越的品格。没有什么励志书是可以让你一下子…

crc java_java实现CRC16 MODBUS校验算法

/*** 查表法计算CRC16校验**paramdata 需要计算的字节数组*/public static String getCRC3(byte[] data) {byte[] crc16_h {(byte) 0x00, (byte) 0xC1, (byte) 0x81, (byte) 0x40, (byte) 0x01, (byte) 0xC0, (byte) 0x80, (byte) 0x41, (byte) 0x01, (byte) 0xC0, (byte) 0x80…

python图片隐写_CTF 图像隐写Python脚本处理

CTF中经常会遇到很多图片的隐写题目需要使用脚本来解题&#xff0c;最常用到的就是使用python中的PIL库&#xff0c;所以如果要更好的解出图片隐写相关处理的题目&#xff0c;掌握好这个库的使用是必要的。本期就来给大家介绍下这个库的基本使用和几道图片题目的解题思路。0x00…

LeetCode 1933. 判断字符串是否可分解为值均等的子串

文章目录1. 题目2. 解题1. 题目 一个字符串的所有字符都是一样的&#xff0c;被称作等值字符串。 举例&#xff0c;"1111" 和 "33" 就是等值字符串。 相比之下&#xff0c;"123"就不是等值字符串。 规则&#xff1a;给出一个数字字符串s&…