探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)

在第1部分中,我们学习了如何使用以下方法测试数据沿袭信息收集
Spark外壳中的花键 。 在任何Scala或Java Spark应用程序中都可以这样做。 需要在您选择的构建工具(Maven,Gradle或sbt)中注册与Spark Shell相同的依赖项:

groupId: za.co.absa.spline
artifactId: spline-core
version: 0.3.5
groupId: za.co.absa.spline
artifactId: spline-persistence-mongo
version:0.3.5
groupId: za.co.absa.spline
artifactId:spline-core-spark-adapter-2.3
version:0.3.5

参考Scala和Spark 2.3.x,像这样的Spark作业:

// Create the Spark session
val sparkSession = SparkSession
.builder()
.appName("Spline Tester")
.getOrCreate()// Init Spline
System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", args(0))
System.setProperty("spline.mongodb.name", args(1))
import za.co.absa.spline.core.SparkLineageInitializer._
sparkSession.enableLineageTracking()//Do something with DataFrames
import sparkSession.sqlContext.implicits._
val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue")
val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)// Write results to file system
output.write.format("parquet").save("splinetester.parquet")// Stop the Spark Session
sparkSession.stop()

可以通过以下方式提交到Spark集群:

$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>

样条线配置属性也可以存储到应用程序类路径中的属性文件中。 这是可用的样条曲线属性的完整列表:

  • spline.mode :3个可能的值, BEST_EFFORT (默认), DISABLEDREQUIRED 。 如果为BEST_EFFORT,则Spline会尝试初始化自身,但如果失败,它将切换为DISABLED模式,这样Spark应用程序可以正常进行而没有沿袭跟踪。 如果禁用,则根本不会发生沿袭跟踪。 如果需要,则Spline是否因任何原因而无法初始化自身,Spark应用程序将中止并显示错误。
  • spline.persistence.factory :可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory (用于对MongoDB的持久性)或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory (用于对HDFS的持久性)。
  • spline.mongodb.url :MongoDB连接字符串(仅适用于MongoDB持久性)。
  • spline.mongodb.name:MongoDB数据库名称(仅适用于MongoDB持久性)。
  • spline.persistence.composition.factories :以逗号分隔的要委托的工厂列表(仅对于成分工厂而言)。

第一次从Spark作业启用Spline时,它将在目标MongoDB数据库中创建6个集合:

    • attributes_v4 :有关所涉及的Spark数据集的属性的信息。

Spline Web应用程序使用这6个集合中的文档来生成UI中沿袭的视觉表示。

在本系列的第三部分和最后一部分中,我将分享在Spark预生产环境中采用该项目的最初几周后的结果。

翻译自: https://www.javacodegeeks.com/2018/12/spline-tracker-visualization-tool-spark.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/345054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab 着色算法,colorization_matlab着色 - 源码下载|图形图象|图形图像处理(光照,映射..)|源代码 - 源码中国...

colorization_matlab着色colorization_matlab着色\READMEcolorization_matlab着色\README~colorization_matlab着色\cheapUI.mcolorization_matlab着色\colorize.mcolorization_matlab着色\colorizeFun.mcolorization_matlab着色\defs.hcolorization_matlab着色\example.bmpcol…

【渝粤题库】陕西师范大学202091公共管理学原理 作业(高起本、专升本)

《公共管理学原理》作业 一、名词解释 1&#xff0e;治理    &#xff12;&#xff0e;公共物品    &#xff13;&#xff0e;公共政策  4&#xff0e;公共部门人力资源开发 5&#xff0e;管理幅度 6 &#xff0e; 组织   7 &#xff0e;绩效管理   8 &#xff0e; 第三…

【渝粤题库】陕西师范大学202871 婚姻家庭法作业

《婚姻家庭法》作业 一、名词解释 1&#xff0e;婚姻 2&#xff0e;亲属 3&#xff0e;探望权 4&#xff0e;重婚 5&#xff0e;亲权 6&#xff0e;血亲7&#xff0e;行政离婚 8&#xff0e;事实婚姻 9&#xff0e;婚生子女 10&#xff0e;收养 二、填空题 1&#xff0e;家庭是…

matlab中inf函数,matlab中voronoin()函数的用法,求高手指点

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼x [ 0.5 0;0 0.5;-0.5 -0.5;-0.2 -0.1;-0.1 0.1;0.1 -0.1;0.1 0.1 ];voronoi(x(:,1),x(:,2))[v,c]voronoin(x)for i1:length(c)disp(c{i})end输出结果如下&#xff1a;v Inf Inf0.7000 -1.6500-0.0500 -0.0500-0.0500 -0.5250-1.4…

java编写正则表达式_如何用Java编写最快的表达式评估器之一

java编写正则表达式当然&#xff0c;标题有点吸引人&#xff0c;但确实如此&#xff08;您当然不相信自己没有伪造自己的基准&#xff0c;但这是另一回事了&#xff09;。 因此&#xff0c;上周我正在寻找一个小型且可用的库来评估数学表达式。 我几乎直接偶然发现了这个stack…

【渝粤题库】陕西师范大学210029 幼儿园游戏(学前儿童游戏)作业

《幼儿园游戏》作业 一、单选题 1、我国传统的游戏材料“七巧板”在国外称为&#xff08; &#xff09;。 2、原始人的游戏形式是高度融合的&#xff0c;主要表现为想象性游戏和&#xff08; &#xff09;两种游戏。 3、教育对幼儿具有&#xff08; &#xff09;的价值。 4、亲…

【渝粤题库】陕西师范大学292391 金融机构管理 作业(专升本)

一、单项选择题 1、“经理国库、充当最后贷款人”表示中央银行在行使( )职能。 A&#xff0e;调节职能 B&#xff0e;服务职能 C&#xff0e;管理职能 D&#xff0e;控制职能 2、我国国民经济核算新体系由( )组成。 A&#xff0e;资产负债表和资金流量表 B&#xff0e;国际收支…

matlab图像采集程序,用摄像头连续采集、保存图像源程序

写了一个在matlab2006上用摄像头连续采集、保存图像源程序。运行imaq_test.m文件后&#xff0c;弹出保存对话框&#xff0c;指定一个存盘目录&#xff0c;选定保存格式(如.jpg)&#xff0c;输入主文件名(如aqim)&#xff0c;点击开始采集按钮&#xff0c;将以设定的频率采集图像…

【渝粤题库】陕西师范大学400010 当代西方社会思潮评析 作业(专升本)

《当代西方社会思潮评析》作业 一、谈谈你对下列概念的理解 1、第三条道路 2、生态社会主义 3、后殖民主义 4、未来主义 5、新自由主义 6、新自由主义 7、后现代主义 8、女权社会主义 9、市场社会主义 10、分析的马克思主义 二、简要回答下列各题 1、“兰格模式”的主要内容与理…

Spring-Boot 2.1.x和主要的bean定义

我最近将应用程序从Spring Boot 1.5.X迁移到Spring Boot 2.X &#xff0c;发现覆盖Spring Bean定义存在问题。 其中一种配置是在Kotlin中遵循的&#xff1a; Configuration class DynamoConfig {Beanfun dynamoDbAsyncClient(dynamoProperties: DynamoProperties): DynamoDbAs…

【渝粤题库】陕西师范大学600011 结构化学作业(专升本)

《结构化学》作业 一.填空题 1.测不准关系的正确表达式是&#xff08;  &#xff09; 2.氢原子的波函数ψ可以写成径向部分Rnl与角度部分&#xff08;  &#xff09;的乘积。 3.在同核双原子分子中&#xff0c;两个2p轨道组合产生两个&#xff08;  &#xff09;轨道。 4…

php 5.5.7.tar.gz,编译 php-5.5.26.tar.gz

需要GD库大于2.1版本编译GD库请参考文章 安装GD库./configure --prefix/usr/local/php/ --with-config-file-path/usr/local/php/etc/ --with-libxml-dir/usr/local/libxml2/ --with-jpeg-dir/usr/local/jpeg/ --with-freetype-dir/usr/local/freetype/ --with-gd --with-mcry…

国家开放大学2021春1009离散数学(本)题目

教育 教育 试卷代号&#xff1a;1009 2021年春季学期期末统一考试 离散数学&#xff08;本&#xff09; 试题 2021年7月 一、单项选择题&#xff08;每小题4分&#xff0c;本题共20分&#xff09; 1.若集合A{1&#xff0c;2&#xff0c;3&#xff0c;4}&#xff0c;则下列表述…

国家开放大学2021春1107传感器与测试技术题目

教育 教育 试卷代号&#xff1a;1107 2021年春季学期期末统一考试 传感器与测试技术 试题 2021年7月 一、单项选择题&#xff08;12小题&#xff0c;每小题3分&#xff0c;共36分&#xff09; 1.电阻应变片的绝缘电阻是指已粘贴的应变片的&#xff08; &#xff09;间的电阻值…

php 有 stringbuffer,String、StringBuffer、StringBulider三者介绍

三者都实现了CharSequence接口&#xff0c;因此CharSequence可认为是一个字符串的协议接口1.String类是不可变类&#xff0c;即一旦一个String对象被创建后&#xff0c;包含在这个对象中的字符序列是不可改变的&#xff0c;直至这个对象被销毁&#xff1b;我们常常定义的时候 S…

【渝粤题库】广东开放大学 会展策划 形成性考核

选择题 题目&#xff1a;会展的&#xff08;&#xff09;是指企业和品牌利用展览会不断翻新花样&#xff0c;宣传自己品牌。 题目&#xff1a;目前世界上规模最大、影响力最广的综合展是&#xff08;&#xff09;。 题目&#xff1a;以下属于宣传类展览会的是&#xff08;&…

【渝粤题库】广东开放大学 传播学理论与实务 形成性考核

选择题 题目&#xff1a; R语言是一种用于数据统计与分析的一种商用、收费的工具 题目&#xff1a;1、让受众透过媒介经常看到你&#xff0c;可以增强&#xff08;B &#xff09;。 题目&#xff1a;4、以下不属于非语言符号的是 (A ) 题目&#xff1a;6、&#xff08;D &…

php生成网页按钮,JavaScript实现自动生成网页元素功能(按钮、文本等)_javascript技巧...

创建元素的方法&#xff1a;1、利用createTextNode()创建一个文本对象2、利用createElement()创建一个标签对象3、直接利用容器标签中的一个属性&#xff1a;innerHTML-----本质上改该标签容器中的“html代码”&#xff0c;不是我们认为的对象树的操作详解代码&#xff1a;这是…

【渝粤题库】广东开放大学 静态网页技术 形成性考核

选择题 题目&#xff1a;通常网页的首页被称为&#xff08;&#xff09;。 答案&#xff1a; A、网页 B、主页 C、网址 D、页面 题目&#xff1a;网页的基本语言是&#xff08; &#xff09;。 答案&#xff1a; A、HTML B、XML C、JavaScript D、VBScript 题目&#xff1a;下列…

adf 自动输稿器_在ADF实体PK属性中使用MySQL自动增量PK列

adf 自动输稿器大家好。 继续进行ADF MySQL解决方法系列&#xff0c;今天我们将看到需要做些什么才能将MySQL PK自动增量列与ADF实体PK属性一起使用。 如果使用的是Oracle数据库&#xff0c;则可以使用oracle.jbo.domain.DBSequence以及序列和触发器来立即进行操作。 为简单起…