6工程文件夹作用_data_dragon数据工程小工具收集

11d7c0dff5d3d6ad8d02732fd07a7921.png

最近在GitHub上创建了一个新工程,收集个人在数据工程工作的小工具集合,命名为data_dragon (数据一条龙)。取这个名字的是希望这些脚本或代码能够复用,端到端地减少临时数据处理的时间。

最近因为工作上的一些变化,写作节奏有点被打乱,已经有2个月没有更新文章了。这次刚好将最近创建的小工程做个介绍。首先这个工程都是些零散的代码脚本,目前上传了3个,有Python,有Bash shell。后期,可能还有用sed写的HLR上的IMSI处理脚本,Java写的Hive UDF……总之,就是一些在实际工作中为了避免重复劳动的临时代码。

放在线上,就是为了方便以后遇到相同的问题可以重用,该工程的代码地址是https://github.com/camash/data_dragon。

工程中,每一个文件夹都是一个独立的小工具,用于解决一个独立的问题。目前,已经上传的三个脚本分别用于“快速生成Azkaban任务调度的DAG”,“hive同步数据到ES索引”以及“传输大量SFTP文件以及检查”。以下,分别对上传的三个脚本做简要介绍。

generate_azkaban_flow

作用

在Excel中配置任务依赖关系,然后使用shell脚本快速生成Azkaban的job文件。

使用方法

  • 创建文件 在Excel或者其它表格软件中,按如下结构创建
编号任务名称任务调用脚本依赖
000start_kettle
001test/home/hadoop/test/kettle/all/test.sh resource000_start_kettle
002end_job/home/hadoop/test/kettle/all/end_job.sh000_start_kettle, 001_test
  • 执行转换 复制到文本文件中,保存为tsv文件,比如test.txt。然后执行shell脚本。
bash ./gen_azkaban_flow.sh test.txt

执行之后在文件所在路径内会生成以编号_任务名称.job的Azkaban任务文件。文件数量等同于tsv文件中的行数。

ls -1 *.job
000_start_kettle.job
001_test.job
002_end_job.job
  • job文件内容

主要包含执行项和依赖项,依赖项就是最终生成任务DAG的边。同时,这个脚本中默认会给执行命令加入执行日期参数,若不需要可以通过修改shell命令实现。

$ cat 002_end_job.job 
type=command
dependencies=000_start_kettle, 001_test
command=/bin/bash /home/hadoop/test/kettle/all/end_job.sh '${azkaban.flow.start.year}${azkaban.flow.start.month}${azkaban.flow.start.day}'

使用总结

可以通过先在表格中规则的梳理任务流,避免了任务太多时直接写job文件容易遗漏的情况。梳理完成之后,使用该脚本一次性生成所有的job,秒秒钟完成。

hive_to_elasticsearch

作用

将Hive表中的数据导入到Elasticsearch的索引中。

使用方法

脚本是通过Python3编写的,因此使用Python3调用即可。

python3 hive_records_to_es.py

其中,Hive地址和Elasticsearch的地址放在connection.cfg文件中,样例如下:

[hive]
host = 192.168.1.4
port = 10000
user = hadoop
[es]
es_url_1 = http://192.168.1.6:7200/
es_url_2 = http://192.168.1.7:7200/
es_url_3 = http://192.168.1.8:7200/

另外,表名和索引名在脚本中是静态赋值,后期需要动态传入。

scp_copy_and_check

作用

从远程SFTP同步文件指定文件夹下的所有文件至本地的指定路径。在传输前后,可以对源和目标系统上的文件数量进行校验(也可以支持其它校验和方式)。同时在传输前,对源的文件数量可以设置一定阈值,数量过少直接报异常退出程序。

使用方法

脚本是使用bash shell进行编写的,需要传入日期参数来确认文件夹的路径,参数格式为YYYYMMDD。若不传入参数,则会取执行日期做为默认参数。调用方式如下:

bash scp_log_file.sh 20200916

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/397200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

暑假第十七测

题解&#xff1a; 第一题 #include<bits/stdc.h> using namespace std; #define ll long long const int M 1e5 10; ll a[M], b[M], ans; priority_queue <ll, vector<ll> , greater<ll> > Q; int main(){freopen("buy.in","r",…

Nginx搭建flv视频点播服务器

Nginx搭建flv视频点播服务器前一段时间使用Nginx搭建的多媒体服务器只能在缓冲过的时间区域内拖放, 而不能拖放到未缓冲的地方. 这就带来了一个问题: 如果视频限速的速率很小, 那么客户端观看视频时肯定不流畅, 而且用户不能向前拖放, 用户体验很不好. 如果视频限速的速率很大或…

编码拾遗

1 #!/usr/bin/env python32 #-*- coding:utf-8 -*-3 4 Administrator 5 2018/8/16 6 7 8 # fopen("demo","r",encoding"utf8")9 # dataf.read() 10 # print(data) 11 # f.close() 12 13 14 # print("沈哲子") 15 16 s"中国&qu…

mybatis 不生效 参数_Mybatis-日志配置

日志Mybatis 的内置日志工厂提供日志功能&#xff0c;内置日志工厂将日志交给以下其中一种工具作代理&#xff1a;SLF4JApache Commons LoggingLog4j 2Log4jJDK loggingMyBatis 内置日志工厂基于运行时自省机制选择合适的日志工具。它会使用第一个查找得到的工具(按上文列举的顺…

PS通过滤色实现简单的图片拼合

素材如下&#xff1a; 素材一&#xff1a; 雪山 素材二&#xff1a; 月亮 效果&#xff1a; 实现步骤 1、在PS中打开雪山素材一 2、将月亮素材直接拖入雪山所在的图层中 3、锁定置入素材的高宽比&#xff08;点击一下链状按钮&#xff09; 4、调整月亮到合适大小合适位置 5、…

预处理:主成分分析与白化

主成分分析 引言 主成分分析&#xff08;PCA&#xff09;是一种能够极大提升无监督特征学习速度的数据降维算法。更重要的是&#xff0c;理解PCA算法&#xff0c;对实现白化算法有很大的帮助&#xff0c;很多算法都先用白化算法作预处理步骤。 假设你使用图像来训练算法&#x…

swagger 修改dto注解_Web服务开发:Spring集成Swagger,3步自动生成API文档

目录&#xff1a;1&#xff0c;Spring Boot集成Swagger2&#xff0c;Swagger接口文档页面3&#xff0c;常见问题和解决方法在Sping开发REST接口服务时&#xff0c;API文档是不可缺少的一个重要部分。Swagger框架定义了完整的REST接口文档规范&#xff0c;提供了强大的页面测试功…

WPF自定义控件之列表滑动特效 PowerListBox

列表控件是应用程序中常见的控件之一&#xff0c;对其做一些绚丽的视觉特效&#xff0c;可以让软件增色不少。 本人网上看过一个视频&#xff0c;是windows phone 7系统上的一个App的列表滚动效果&#xff0c;效果非常炫 现在在WPF上用ListBox重现此效果 首先我们来分析一下&am…

CnosDB如何确保多步操作的最终一致性?

背景 在时序数据库中&#xff0c;资源的操作是一个复杂且关键的任务。这些操作通常涉及到多个步骤&#xff0c;每个步骤都可能会失败&#xff0c;导致资源处于不一致的状态。例如&#xff0c;一个用户可能想要在CnosDB集群中删除一个租户&#xff0c;这个操作可能需要删除租户…

颈椎前路caspar撑开器_“骨质增生”导致的颈椎病怎么破?

来源&#xff1a;《脊柱外科微创手术精要》作者&#xff1a;中日友好医院 邹海波此文是区别于颈椎间盘软性突出诊治一文&#xff0c;主要针对“骨质增生”导致的颈椎病(Spondylosis)进行介绍。传统的颈椎前路手术主要为颈椎病而设计。一度认为对颈椎病采用前路手术的主要好处在…

Struts2整合Freemarker生成静态页面

2019独角兽企业重金招聘Python工程师标准>>> 这是生成静态页面的预览&#xff1a; 其对应的模板文件&#xff1a; <table style"text-align:center;FONT-SIZE: 11pt; WIDTH: 600px; FONT-FAMILY: 宋体; BORDER-COLLAPSE: collapse" borderColor#3399ff…

快速幂、矩阵快速幂、快速乘法

快速幂 快速幂是我们经常用到的一种算法&#xff0c;快速幂顾名思义就是快速的幂运算。我们在很多题目中都会遇到幂运算&#xff0c;但是在指数很大的时候&#xff0c;我们如果用for或者是pow就会超时&#xff0c;这时候就用到了快速幂。 快速幂的原理就是&#xff0c;当求b^p的…

vue 前端显示图片加token_手摸手,带你用vue撸后台 系列二(登录权限篇)

完整项目地址&#xff1a;vue-element-adminhttps://github.com/PanJiaChen/vue-element-admin前言拖更有点严重&#xff0c;过了半个月才写了第二篇教程。无奈自己是一个业务猿&#xff0c;每天被我司的产品虐的死去活来&#xff0c;之前又病了一下休息了几天&#xff0c;大家…

注释工具_苹果已购丨Notability丨功能强大而简单易用的笔记及PDF注释工具

点击上方“天泽黑科技”右上角“...”点选“设为星标”点击加星★ 贴近你心 ❤今天给大家购买效率类排行第3名的 Notability &#xff01;大家在桌面 App store 登陆我的账号&#xff0c;搜索下载即可&#xff01;荣获 iPad、iPhone 和 Mac 的 Apple「编」爱新 App 殊荣&#x…

第四章 大网高级   NSSA

STUB、完全stub、NSSA、完全nssa实验要求&#xff1a;1、配置IP地址2、配置OSPF多区域3、配置 stub 末梢区域4、配置完全stub末梢区域5、配置 nssa 非纯末梢区域6、配置完全nssa非纯末梢区域7、配置两种协议相互注入重分发8、实现全网互通一、配置OSPF多区域二、配置rip v2三、…

[AlwaysOn Availability Groups] 健康模型 Part 2 ——扩展

[AlwaysOn Availability Groups] 健康模型 Part 2 ——扩展 健康模型扩展 第一部分已经介绍了AlwayOn健康模型的概述。现在是创建一个自己的PBM策略&#xff0c;然后设置为制定的归类。创建这些策略&#xff0c;创建之后修改一下配置&#xff0c;dashboard就会自动评估这些策略…

665. Non-decreasing Array - LeetCode

Question 665. Non-decreasing Array Solution 题目大意&#xff1a; 思路&#xff1a;当前判断2的时候可以将当前元素2变为4&#xff0c;也可以将上一个元素4变为2&#xff0c;再判断两变化后是否满足要求。 Java实现&#xff1a; public boolean checkPossibility(int[] nums…

如何制作印章_如何用Photoshop制作个性印章/文字图片

带印章和文字的图片&#xff0c;不仅可以作为个人的标签&#xff0c;更能直接表达照片的意境&#xff0c;让片子与众不同。那么&#xff0c;怎样才能给照片加印章和文字呢&#xff1f;或许方法有很多&#xff0c;甚至有多款App也可以直接做效果。但想要做出精细的效果&#xff…

麒麟810处理器_麒麟810性能实测:对比骁龙845骁龙730,谁更强?

随着荣耀9X、Nova5i Pro一众新机发布&#xff0c;采用7nm工艺制程的全新麒麟810进入了我们的视野。以手机处理器性能划分产品定位向来是最为直接的方法&#xff0c;在搭载麒麟810的荣耀9X将价格下探到1399元后&#xff0c;这枚网友口中“拳打845&#xff0c;脚踢730”的中端神u…

打造全键盘操作的PDF阅读器

其实我只想要一个非常简单的PDF阅读器&#xff0c;不要很花哨的功能&#xff0c;只要能够&#xff1a; 速度够快&#xff0c;不要翻一页等半天&#xff1b;全键盘操作&#xff0c;不想在鼠标和键盘之间来回倒腾&#xff1b;可以改变背景色&#xff0c;深夜的白光好刺眼&#xf…