探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)

最近引起我注意的一个有趣且充满希望的开源项目是Spline ,它是由Absa维护的Apache Spark的数据沿袭跟踪和可视化工具。 该项目由两部分组成:一个在驱动程序上工作的Scala库,该驱动程序通过分析Spark执行计划来捕获数据沿袭,并提供一个Web应用程序以提供一个可视化它们的UI。

Spline支持MongoDB和HDFS作为JSON格式的数据沿袭的存储系统。 在这篇文章中,我指的是MongoDB。

您可以通过Spark外壳开始使用Spline。 只需将必需的依赖项添加到shell类路径中,如下所示(参考此项目的最新0.3.5版本):

spark-shell --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5"

在Ubuntu和其他Linux发行版上使用上述命令运行Spark shell,是否应该出现有关下载Joda Time库(Spline组件之一的传递依赖项)的问题,请删除.ivy1.m2隐藏子目录执行了spark-shell命令的目录,然后重新运行它。

假设您已启动并运行Mongo服务器,并且已经为Spline创建了一个空数据库,那么在Spark Shell中需要做的第一件事是指定要使用的持久性工厂类,然后指定连接字符串和数据库名称:

System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", "mongodb://<username>:<password>@<server_name_or_ip>:<port>")
System.setProperty("spline.mongodb.name", "<database_name>")

现在,您可以启用样条线数据沿袭跟踪:

import za.co.absa.spline.core.SparkLineageInitializer._
spark.enableLineageTracking()

然后开始做一些涉及数据的事情:

val employeesJson =
spark.read.json("/home/guglielmo/spark-2.3.2-bin-hadoop2.7/examples/src/main/resources/employees.json")

import spark.implicits._val employeeNames = employeesJson.select(employeesJson("name")) employeeNames.write.parquet("/home/guglielmo/spline/example/employee_names")

是否应该发生以下异常:

com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:27017. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" }

那么您必须将MongoDB Java驱动程序依赖项更新到任何3.6+版本(可以通过在运行Windows Server 2003时简单地将其添加到软件包列表中来完成)
spark-shell命令)。

启动Spline Web应用程序:

java -jar spline-web-0.3.5-exec-war.jar -Dspline.mongodb.url=mongodb://<username>:<password>@<server_name_or_ip>:<port> -Dspline.mongodb.name=<database_name>?

您可以在Web UI中查看捕获的数据沿袭(默认监听端口为8080):

样条数据跟踪器
样条数据跟踪器

这只是一个开始。 在本系列的第2部分中,我们将深入探讨Spline。

翻译自: https://www.javacodegeeks.com/2018/12/spline-data-trackervisualization-spark.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/345029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【渝粤题库】广东开放大学 商务翻译实务 形成性考核

选择题 题目&#xff1a;IX. 选择正确的翻译。&#xff08;每题1分&#xff09; 4) 司马相如 答案&#xff1a; A、Si MaXiangru B、Si Maxiangru C、Sima Xiangru D、Simaxiang Ru 题目&#xff1a;IX. 选择正确的翻译。&#xff08;每题1分&#xff09; 5) 文树安 答案&…

php入门速成(2),PHP入门速成(1)

PHP简介PHP是一种用于创建动态WEB页面的服务端脚本语言。如同ASP和ColdFusion&#xff0c;用户可以混合使用PHP和HTML编写WEB页面&#xff0c;当访问者浏览到该页面时&#xff0c;服务端会首先对页面中的PHP命令进行处理&#xff0c;然后把处理后的结果连同HTML内容一起传送到访…

【渝粤题库】广东开放大学 婚姻家庭法 形成性考核

选择题 题目&#xff1a;婚姻家庭的本质属性是&#xff08; &#xff09;。 答案&#xff1a; A、自然属性 B、自然属性与社会属性的结合 C、社会属性 D、以上都不对 题目&#xff1a;王某已婚&#xff0c;因工作关系离开老家&#xff0c;一人长期在甲地工作&#xff0c;在工作…

【渝粤题库】广东开放大学 建筑力学与结构 1形成性考核

题目&#xff1a;平面平行力系&#xff0c;取一刚体作为研究对象&#xff0c;最多可求&#xff08;&#xff09;个未知量。 题目&#xff1a;二力平衡是作用在&#xff08;&#xff09;个物体上的一对等值、反向、共线的力。 题目&#xff1a;梁在C点作用一力&#xff0c;当力偶…

JDK 12附带紧凑数字格式

JDK 12 Early Access Build 24引入了对紧凑数字格式的支持 。 JDK-8188147&#xff08;紧凑数字格式支持&#xff09;CSR的“摘要”是简单的句子&#xff0c;“添加了对JDK中紧凑/短数字格式的支持。” 相同的CSR还提供了详细的“解决方案”部分&#xff0c;该背景提供了为每个…

php 怎么循环数组取有值的,php怎么循环数组取有值的-PHP问题

php 怎么循环数组取有值的1、使用foreach或者while的&#xff0c;利用这两个语法结构来输出有值的项或删除数组中的空元素&#xff0c;简单代码如下&#xff1a;$v){if( $v ){echo $arr[$k];}else{// unset( $arr[$k] );}}?>foreach是将当前操作的数组进行copy&#xff0c;…

【渝粤题库】广东开放大学 经济学基础 形成性考核

选择题 题目&#xff1a;微观经济学的中心理论是&#xff08; &#xff09; 答案&#xff1a; A、价值理论 B、价格理论 C、分配理论 D、生产理论 题目&#xff1a;作为经济学的一个分支&#xff0c;微观经济学主要研究&#xff08; &#xff09; 答案&#xff1a; A、国…

【渝粤题库】广东开放大学 计算机应用基础(专科) 形成性考核

选择题 题目&#xff1a; 在Windows中&#xff0c;下图所示的5个鼠标指针状态的正确描述依次是________。 题目&#xff1a;使用"格式刷”按钮&#xff0c;可以进行___________操作。 题目&#xff1a;在Word编辑状态&#xff0c;可以使插入点快速移动到文档首部的组合键_…

高性能mysql 聚簇索引,高性能MySQL笔记-第5章Indexing for High Performance-005聚集索引...

一、聚集索引介绍1.什么是聚集索引&#xff1f;InnoDB’s clustered indexes actually store a B-Tree index and the rows together in the same structure.2.为什么一张表只能一个聚集索引&#xff1f;When a table has a clustered index, its rows are actually stored in …

【渝粤题库】广东开放大学社会学概论形成性考核

选择题 题目&#xff1a;我国职业分层的基本特点是&#xff1a;职业地位的高低主要取决于&#xff08;&#xff09;。 题目&#xff1a;&#xff08;&#xff09;标示作为控制途径的社会规范的严密程度。 题目&#xff1a;在各种社会制度中&#xff0c;除了经济制度外&#xff…

【渝粤题库】陕西师范大学151213 公司战略与风险管理作业(专升本)

《内部控制与风险管理》作业 一、单选题 1.1992年&#xff0c;COSO发布了著名的&#xff08; &#xff09;。 2.下列选项中&#xff0c;被称为“萨班斯法案”中最难操作、最复杂、耗费成本最高的一个条款的是&#xff08; &#xff09;。 3.根据基本规定&#xff0c;规范企业内…

英特尔 至强 单核计算性能_使用英特尔性能计数器调整垃圾收集

英特尔 至强 单核计算性能介绍 我不得不承认我很震惊。 确实&#xff0c;当我意识到这个出现的日历帖子将涉及垃圾收集时&#xff0c;我感到非常震惊。 GC的主题引起了Java倡导者和那些认为内存管理应该是手动的人的热情。 撰写了许多文章&#xff0c;内容涉及看起来奇怪的命令…

mppt多峰追踪MATLAB仿真,基于光伏功率等效面积法的多峰最大功率追踪控制方法...

0引言在光伏系统实际应用中,由于天上移动的云朵、电池板累积的灰尘以及城镇中周围建筑物等的影响,光伏阵列在运行过程中总会受到不同程度的阴影遮挡,太阳能电池板的P-U曲线会受到影响出现多个峰值点。传统的MPPT控制方法在电池板没受到局部阴影影响的情况下可以有效的追踪到电池…

【渝粤题库】陕西师范大学163208 饭店管理 作业

《饭店管理》作业 名词解释 1、饭店星级制 2、品牌忠诚度 3、指挥职能 4、风险型决策 5、饭店全面质量管理 6、饭店形象识别系统&#xff08;CIS&#xff09; 7、饭店市场细分 8、饭店产品 9、单一性需要 10、社会性消费动机 11、决策职能 12、因果分析图法 13、知名度 14、客房…

【渝粤题库】陕西师范大学165104 组织行为学原理 作业(高起专)

《组织行为学原理》作业 一、单项选择题 1.同一个人穿横条纹的衣服会显得胖些&#xff0c;穿竖条纹的衣服会显得瘦些。这种现象称之为&#xff3f;&#xff3f;&#xff3f;&#xff3f;。 A适应 B对比 C敏感化 D感受性降低 2.人们以自己所具有的品质为依据去判断别人的品质&am…

PHP应用GD2函数填充几何图形,使用GD2函数绘制几何图形(PHP图形图像的典型应用教程4)...

使用GD2函数绘制几何图形(PHP图形图像的典型应用教程4)本篇主要讲解使用GD2函数实现几何图形的绘制&#xff0c;首先我们需要的事创建一个图像&#xff0c;在之前的文章中我们就说过了&#xff0c;创建图像是所有图像操作的第一步&#xff0c;然后再背景上根据坐标点绘制图形轮…

API测试和自动化101:基本指南

API代表A pplication P AGC软件我覆盖整个院落。 通常&#xff0c;API用于通过使用任何通信方式来促进两个不同应用程序之间的交互。 在网络上使用API​​时&#xff0c;我们将其称为“ Web服务”。 最近&#xff0c;API已成为编程的Struts。 与在应用程序中一样&#xff0c;编…

【渝粤题库】陕西师范大学200161 文字学概论 作业

《文字学概论》作业 一、单选题 1、原始社会陶器上的图形符号刻划是以&#xff08; &#xff09;为代表的。 A 仰韶文化 B 马家窑文化 C 良渚文化 D 大汶口文化 2、下列各字中不属于象形字的是&#xff08; &#xff09;。 A十 B小 C羊 D未 3、“画成弃物 ,随体诘屈”,是许慎给…

oracle 调整dbw0,求助:DBW的内存占用率高,可能是什么原因?

没人遇到这样的问题吗&#xff1f;补充一个现象&#xff0c;v$session中"SQL*Net message from client"很多&#xff0c;下面是随便选择一个时间点查到的数据&#xff1a;SQL> select t.EVENT, count(1) from v$session t group by t.EVENT;EVENT …