java上传kafka的方法_哪种方法是将所有数据从Kafka主题复制到接收器（文件或Hive表）的最佳方法？...

我正在使用Kafka Consumer API将所有数据从Kafka主题复制到Hive表 . 为此，我使用HDFS作为中间步骤 . 我使用唯一的组ID并将偏移重置为“最早”，以便从头开始获取所有数据，并在执行后忽略提交 . 然后我遍历Kafka主题中的记录，并将每条记录保存到HDFS中的临时文件中 . 然后我使用Spark从HDFS读取数据，然后使用日期作为文件名将其保存到Parquet文件中 . 然后，我在Hive表中创建一个带日期的分区，最后在Parquet中将文件作为分区加载到Hive中 .

正如您在下面的代码中看到的，我使用了几个中间步骤，这使得我的代码远非最佳 . 这是从Kafka主题复制所有数据的最佳推荐方法吗？我做了一些研究，到目前为止，这是我设法开始工作的变通方法，但是，随着记录数量每天增加，我的执行时间达到了可容忍的极限(从2分钟变为6分钟到6分钟)周) .

代码在这里：

def start( lowerDate: String, upperDate: String )={

// Configurations for kafka consumer

val conf = ConfigFactory.parseResources("properties.conf")

val brokersip = conf.getString("enrichment.brokers.value")

val topics_in = conf.getString("enrichment.topics_in.value")

// Crea la sesion de Spark

val spark = SparkSession

.builder()

.master("yarn")

.appName("ParaTiUserXY")

.getOrCreate()

spark.sparkContext.setLogLevel("ERROR")

import spark.implicits._

val properties = new Properties

properties.put("key.deserializer", classOf[StringDeserializer])

properties.put("value.deserializer", classOf[StringDeserializer])

properties.put("bootstrap.servers", brokersip)

properties.put("auto.offset.reset", "earliest")

properties.put("group.id", "ParaTiUserXYZZ12345")

//Schema para transformar los valores del topico de Kafka a JSON

val my_schema = new StructType()

.add("longitudCliente", StringType)

.add("latitudCliente", StringType)

.add("dni", StringType)

.add("alias", StringType)

.add("segmentoCliente", StringType)

.add("timestampCliente", StringType)

.add("dateCliente", StringType)

.add("timeCliente", StringType)

.add("tokenCliente", StringType)

.add("telefonoCliente", StringType)

val consumer = new KafkaConsumer[String, String](properties)

consumer.subscribe( util.Collections.singletonList("parati_rt_geoevents") )

val fs = {

val conf = new Configuration()

FileSystem.get(conf)

}

val temp_path:Path = new Path("hdfs:///tmp/s70956/tmpstgtopics")

if( fs.exists(temp_path)){

fs.delete(temp_path, true)

}

while(true)

{

val records=consumer.poll(100)

for (record

val data = record.value.toString

//println(data)

val dataos: FSDataOutputStream = fs.create(temp_path)

val bw: BufferedWriter = new BufferedWriter( new OutputStreamWriter(dataos, "UTF-8"))

bw.append(data)

bw.close

val data_schema = spark.read.schema(my_schema).json("hdfs:///tmp/s70956/tmpstgtopics")

val fechaCliente = data_schema.select("dateCliente").first.getString(0)

if( fechaCliente < upperDate && fechaCliente >= lowerDate){

data_schema.select("longitudCliente", "latitudCliente","dni", "alias",

"segmentoCliente", "timestampCliente", "dateCliente", "timeCliente",

"tokenCliente", "telefonoCliente")

.coalesce(1).write.mode(SaveMode.Append).parquet("/desa/landing/parati/xyuser/" + fechaCliente)

}

else if( fechaCliente < lowerDate){

}

else if( fechaCliente >= upperDate){

break;

}

consumer.close()

}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/542596.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

java上传kafka的方法_哪种方法是将所有数据从Kafka主题复制到接收器（文件或Hive表）的最佳方法？...

相关文章

openstack nova-network 的小bug的排错经历

anaconda base环境_anaconda中安装packages：pip还是conda install？

Java ClassLoader setDefaultAssertionStatus（）方法与示例

【风马一族_xml】xmlp之dtd1

java ssm框架缓存_SSM框架之MyBatis3专题4：查询缓存

matplotlib画图_漂亮，超详细的matplotlib画图基础

c# 2维数组取一维_C＃| 不同类型的一维数组声明

Java编程经典10道_Java经典编程题50道之十二

RHEL7 单独安装图形 X11

android recycleview长按多选_UI设计中Android和IOS设计差异总结

Kotlin程序用于打印JVM版本的Kotlin（打印Java属性）

自定义动画属性java_创建酷炫动画效果的10个JavaScript库

ln命令总结，软链接硬链接文件删除原理画图详解

php xlsx里插入图片_常见的 PHP 面试题和答案分享

java调用构造函数中某一个值_Java如何在枚举的构造函数中调用另一个枚举值

python 示例_Python日历类| yeardatescalendar（）方法与示例

js：插入节点appendChild insertBefore使用方法

pandas concat_pandas-数据合并-concat（最全参数解释，含代码和实例）

java中的de是什么_【转】java中main函数解析

JAVA多线程（一）线程安全问题产生的原因