java多线程调用nsq消费_spark-streaming连接消费nsq

spark-streaming连接消费nsq

目的

使用 NSQ作为消息流

使用 spark-streaming 进行消费

对数据进行清洗后，保存到hive仓库中

连接方案

1、编写Spark Streaming Custom Receivers(spark-streaming 自定义接收器)，详细见文档

2、使用 nsq 官方提供的Java程序连接包 JavaNSQClient ，详细见文档

详细代码

自定义连接器

ReliableNSQReceiver.scala

import com.github.brainlag.nsq.callbacks.NSQMessageCallback

import com.github.brainlag.nsq.lookup.DefaultNSQLookup

import com.github.brainlag.nsq.{NSQConsumer, NSQMessage}

import org.apache.spark.internal.Logging

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.receiver.Receiver

class MessageCallbacks(store_fun:String => Unit) extends NSQMessageCallback with Logging {

def message(message: NSQMessage): Unit ={

val s = new String(message.getMessage())

store_fun(s)

message.finished()

}

/* 自定义连接器 */

class ReliableNSQReceiver(host: String, port: Int, topic: String, channel: String)

extends Receiver[String](StorageLevel.MEMORY_AND_DISK_2) with Logging {

var consumer: NSQConsumer = null

def onStart() {

// 启动通过连接接收数据的线程

new Thread("Socket Receiver") {

override def run() { receive() }

}.start()

}

def onStop() {

logInfo("Stopped receiving")

consumer.close

}

/** 接收数据 */

private def receive() {

try {

val lookup = new DefaultNSQLookup

lookup.addLookupAddress(host, port)

consumer = new NSQConsumer(lookup, topic, channel, new MessageCallbacks(store))

consumer.start

} catch {

case e: java.net.ConnectException =>

restart("Error connecting to " + host + ":" + port, e)

case t: Throwable =>

restart("Error receiving data", t)

}

使用连接器

import com.google.gson.JsonParser

import org.apache.spark.SparkConf

import org.apache.spark.internal.Logging

import org.apache.spark.sql.{DataFrame, SparkSession}

import org.apache.spark.streaming.dstream.DStream

import org.apache.spark.streaming.{Seconds, StreamingContext}

* 在定义一个 context 之后,您必须执行以下操作.

* 通过创建输入 DStreams 来定义输入源.

* 通过应用转换和输出操作 DStreams 定义流计算(streaming computations).

* 开始接收输入并且使用 streamingContext.start() 来处理数据.

* 使用 streamingContext.awaitTermination() 等待处理被终止(手动或者由于任何错误).

* 使用 streamingContext.stop() 来手动的停止处理.

object ELKStreaming extends Logging{

def main(args: Array[String]): Unit ={

if (args.length < 4) {

System.err.println("Usage: ELKStreaming ")

System.exit(1)

}

logInfo("start ===========>")

StreamingExamples.setStreamingLogLevels()

val sparkConf = new SparkConf().setAppName("ELKStreaming").setMaster("yarn").set("hive.metastore.uris", "thrift://hadoop15.bigdata.org:9083")

// 创建一个批次间隔为10

val ssc = new StreamingContext(sparkConf, Seconds(args(2).toInt))

// 使用自定义的NSQReceiver

val lines = ssc.receiverStream(new ReliableNSQReceiver(args(0), args(1).toInt, "log", "scalatest"))

val hiveStream: DStream[(String, String)] = lines.map(line => prefix_exit(line))

// 将计算后的数据保存到hive中

hiveStream.foreachRDD(rdd => {

// 利用SparkConf来初始化SparkSession。

val sparkSession: SparkSession = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

// 导入隐式转换来将RDD

import sparkSession.implicits._

// 将RDD转换成DF

val df: DataFrame = rdd.toDF("str", "ymd")

// 取出表中的字段

logInfo("df count ===========>"+ df.count)

df.createOrReplaceTempView("spark_logs")

sparkSession.sql("insert into "+args(3)+" partition (ymd) select str,ymd from spark_logs")

})

ssc.start()

ssc.awaitTermination()

}

def prefix_exit(line:String):(String,String) ={

// 对数据进行清洗计算

val obj = new JsonParser().parse(line).getAsJsonObject

val data_str1 = obj.get("recv_timestamp").toString().split("T|Z|\"")

val data_str2 = data_str1(1).split('-')

val data_str3 = data_str2(1)+"/"+data_str2(2)+"/"+data_str2(0)+" "+data_str1(2)+" [I] "+obj.get("index_type").toString().split("\"")(1)+" "+line

val data_str4 = data_str2(0)+data_str2(1)+data_str2(2)

(data_str3.toString(), data_str4.toString())

}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/409025.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

java多线程调用nsq消费_spark-streaming连接消费nsq

相关文章

前端学习（3041）：vue+element今日头条管理-控制用户的访问权限

[线性代数]Note4--A的LU分解转置-置换-向量空间

java:自定义数据库连接池

前端学习（3042）：vue+element今日头条管理-用户退出

(转)C结构体之位域(位段)

java为何重复调用方法_通过反射调用Java中的getter：重复调用它的最快方法是什么（在性能和可伸缩性方面）？...

前端学习（3043）：vue+element今日头条管理-组件目录和组件名

表单提交中get 和post方式的区别

linux mysql5.7.11_在Linux中以命令行方式安装 MySQL 5.7.11 for Linux Generic 二进制版本

论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition

前端学习（3044）：vue+element今日头条管理-组件目录和组件名

vc2008使用技巧

论文阅读(3)--SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition

前端学习（3045）：vue+element今日头条管理-创建页面组件

从流水中倒推算出销量为多某值的日期

egg.js java 生产数据_eggjs中,自动从数据库直接生成model.

论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization

前端学习（3046）：vue+element今日头条管理-页面布局和面包屑筛选

java组件自适应窗口大小_java swing 窗口和控件自适应大小

剑指offer--二维数组的查找