在第1部分中,我们学习了如何使用以下方法测试数据沿袭信息收集
Spark外壳中的花键 。 在任何Scala或Java Spark应用程序中都可以这样做。 需要在您选择的构建工具(Maven,Gradle或sbt)中注册与Spark Shell相同的依赖项:
groupId: za.co.absa.spline
artifactId: spline-core
version: 0.3.5
groupId: za.co.absa.spline
artifactId: spline-persistence-mongo
version:0.3.5
groupId: za.co.absa.spline
artifactId:spline-core-spark-adapter-2.3
version:0.3.5
参考Scala和Spark 2.3.x,像这样的Spark作业:
// Create the Spark session
val sparkSession = SparkSession
.builder()
.appName("Spline Tester")
.getOrCreate()// Init Spline
System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", args(0))
System.setProperty("spline.mongodb.name", args(1))
import za.co.absa.spline.core.SparkLineageInitializer._
sparkSession.enableLineageTracking()//Do something with DataFrames
import sparkSession.sqlContext.implicits._
val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue")
val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)// Write results to file system
output.write.format("parquet").save("splinetester.parquet")// Stop the Spark Session
sparkSession.stop()
可以通过以下方式提交到Spark集群:
$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>
样条线配置属性也可以存储到应用程序类路径中的属性文件中。 这是可用的样条曲线属性的完整列表:
- spline.mode :3个可能的值, BEST_EFFORT (默认), DISABLED , REQUIRED 。 如果为BEST_EFFORT,则Spline会尝试初始化自身,但如果失败,它将切换为DISABLED模式,这样Spark应用程序可以正常进行而没有沿袭跟踪。 如果禁用,则根本不会发生沿袭跟踪。 如果需要,则Spline是否因任何原因而无法初始化自身,Spark应用程序将中止并显示错误。
- spline.persistence.factory :可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory (用于对MongoDB的持久性)或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory (用于对HDFS的持久性)。
- spline.mongodb.url :MongoDB连接字符串(仅适用于MongoDB持久性)。
- spline.mongodb.name:MongoDB数据库名称(仅适用于MongoDB持久性)。
- spline.persistence.composition.factories :以逗号分隔的要委托的工厂列表(仅对于成分工厂而言)。
第一次从Spark作业启用Spline时,它将在目标MongoDB数据库中创建6个集合:
- attributes_v4 :有关所涉及的Spark数据集的属性的信息。
Spline Web应用程序使用这6个集合中的文档来生成UI中沿袭的视觉表示。
在本系列的第三部分和最后一部分中,我将分享在Spark预生产环境中采用该项目的最初几周后的结果。
翻译自: https://www.javacodegeeks.com/2018/12/spline-tracker-visualization-tool-spark.html