探索适用于Apache Spark的Spline Data Tracker和可视化工具（第2部分）

在第1部分中，我们学习了如何使用以下方法测试数据沿袭信息收集
Spark外壳中的花键。在任何Scala或Java Spark应用程序中都可以这样做。需要在您选择的构建工具（Maven，Gradle或sbt）中注册与Spark Shell相同的依赖项：

groupId: za.co.absa.spline
artifactId: spline-core
version: 0.3.5
groupId: za.co.absa.spline
artifactId: spline-persistence-mongo
version:0.3.5
groupId: za.co.absa.spline
artifactId:spline-core-spark-adapter-2.3
version:0.3.5

参考Scala和Spark 2.3.x，像这样的Spark作业：

// Create the Spark session
val sparkSession = SparkSession
.builder()
.appName("Spline Tester")
.getOrCreate()// Init Spline
System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", args(0))
System.setProperty("spline.mongodb.name", args(1))
import za.co.absa.spline.core.SparkLineageInitializer._
sparkSession.enableLineageTracking()//Do something with DataFrames
import sparkSession.sqlContext.implicits._
val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue")
val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)// Write results to file system
output.write.format("parquet").save("splinetester.parquet")// Stop the Spark Session
sparkSession.stop()

可以通过以下方式提交到Spark集群：

$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>

样条线配置属性也可以存储到应用程序类路径中的属性文件中。这是可用的样条曲线属性的完整列表：

spline.mode ：3个可能的值， BEST_EFFORT （默认）， DISABLED ， REQUIRED 。如果为BEST_EFFORT，则Spline会尝试初始化自身，但如果失败，它将切换为DISABLED模式，这样Spark应用程序可以正常进行而没有沿袭跟踪。如果禁用，则根本不会发生沿袭跟踪。如果需要，则Spline是否因任何原因而无法初始化自身，Spark应用程序将中止并显示错误。
spline.persistence.factory ：可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory （用于对MongoDB的持久性）或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory （用于对HDFS的持久性）。
spline.mongodb.url ：MongoDB连接字符串（仅适用于MongoDB持久性）。
spline.mongodb.name：MongoDB数据库名称（仅适用于MongoDB持久性）。
spline.persistence.composition.factories ：以逗号分隔的要委托的工厂列表（仅对于成分工厂而言）。