环境准备
linux配置、克隆103和104、编写集群分发脚本、ssh无密码登录配置、jdk安装、数据模拟集群日志数据输出脚本、xcall脚本、安装hadoop、zk安装、kafka安装、flume安装、mysql安装、maxwell安装、datax安装、hive安装
用户行为数据同步-总的数据流程图
第一层flume
数据模拟脚本lg.sh test 1生成日志文件,用flume收集到kafka中
TailDirSource:实时监控,断点续传
日志文件数据采集到kafka为什么选择kafkachannel?
Kafka channel可以只结合taildir source就能将数据写入kafka,节省sink数据传输环节;
Kafka本身的高效读写也能让kafka channel的性能变得更好。
第一层flume配置见:
日志采集flume启停脚本见:
第二层flume
如果没有拦截器
有拦截器
零点漂移问题
使用event产生时的timestamp时间落盘,需要加拦截器
第二层flume配置见:
日志采集flume启停脚本见:
拦截器代码见:
业务数据同步见: