hive读取hdfs存放文件_数据获取层之Flume快速入门(一) 实时监控单个追加文件

56dbf95ded754cd5de6420ddf7a9fc36.png

实时监控 Hive 日志,并上传到 HDFS 中

fb92f1edd7c5fb2bc9253c112e7b602a.png

实现步骤

1、Flume 要想将数据输出到 HDFS,必须持有 Hadoop 相关 jar 包

commons-configuration-1.6.jar、hadoop-auth-2.7.2.jar、hadoop-common-2.7.2.jar、hadoop-hdfs-2.7.2.jar、commons-io-2.4.jar、htrace-core-3.1.0-incubating.jar

准备好以上这些包拷贝到/opt/module/flume/lib 文件夹下。

2、创建 flume-file-hdfs.conf 文件

进入flume下的job目录创建文件

cd /opt/module/flume/jobvim flume-file-hdfs.conf

添加如下内容

# Name the components on this agenta2.sources = r2a2.sinks = k2a2.channels = c2# Describe/configure the sourcea2.sources.r2.type = execa2.sources.r2.command = tail -F /opt/module/hive/logs/hive.loga2.sources.r2.shell = /bin/bash -c# Describe the sinka2.sinks.k2.type = hdfsa2.sinks.k2.hdfs.path = hdfs://hadoop101:9000/flume/%Y%m%d/%H#上传文件的前缀a2.sinks.k2.hdfs.filePrefix = logs-#是否按照时间滚动文件夹a2.sinks.k2.hdfs.round = true#多少时间单位创建一个新的文件夹a2.sinks.k2.hdfs.roundValue = 1#重新定义时间单位a2.sinks.k2.hdfs.roundUnit = hour#是否使用本地时间戳a2.sinks.k2.hdfs.useLocalTimeStamp = true#积攒多少个 Event 才 flush 到 HDFS 一次a2.sinks.k2.hdfs.batchSize = 1000#设置文件类型,可支持压缩a2.sinks.k2.hdfs.fileType = DataStream#多久生成一个新的文件a2.sinks.k2.hdfs.rollInterval = 60#设置每个文件的滚动大小a2.sinks.k2.hdfs.rollSize = 134217700#文件的滚动与 Event 数量无关a2.sinks.k2.hdfs.rollCount = 0# Use a channel which buffers events in memorya2.channels.c2.type = memorya2.channels.c2.capacity = 1000a2.channels.c2.transactionCapacity = 100# Bind the source and sink to the channela2.sources.r2.channels = c2a2.sinks.k2.channel = c2

(1)要想读取 Linux 系统中的文件,就得按照 Linux 命令的规则执行命令。由于 Hive 日志在 Linux 系统中所以读取文件的类型选择:exec 即 execute 执行的意思。表示执行 Linux命令来读取文件。

(2)对于所有与时间相关的转义序列,Event Header 中必须存在以 “timestamp”的 key(除非hdfs.useLocalTimeStamp 设置为 true,此方法会使用 TimestampInterceptor 自动添加timestamp)。

a3.sinks.k3.hdfs.useLocalTimeStamp = true

3、运行 Flume

cd /opt/module/flumebin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

4、开启 Hadoop 和 Hive 并操作 Hive 产生日志

[hd@hadoop101 hadoop-2.7.2]$ sbin/start-dfs.sh[hd@hadoop102 hadoop-2.7.2]$ sbin/start-yarn.sh[hd@hadoop103 hive]$ bin/hivehive (default)

5、在 HDFS 上查看文件。

e8c67d6c9df46dcb65a60c4fac930830.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2019-2020中国趋势报告,203页PPT解读16大机会

来源:企鹅智库 报告如下未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联…

242.判断一个字符串是否为另一个的乱序 Valid Anagram

错误1"aa""bb"static public bool IsAnagram(string s, string t) { int sLength s.Length; int tLength t.Length; if (sLength ! tLength) { return false; } char c ; int value 0; Dictionary<char, int> d new Dictionary<char, int&g…

行程单图片python预处理_GCC编译过程(预处理-gt;编译-gt;汇编-gt;链接)

前言如果你使用集成环境开发。那么你点击编译按钮就可生成可执行文件。但是C程序从源代码到二进制行程序都经历了那些过程&#xff1f;你知道吗&#xff1f;这些过程集成开发环境在点击编译按钮后都做完了&#xff0c;如果编译没有出错&#xff0c;即可生成可执行文件。本文将以…

树莓派装系统,配置,换源,远程操控

一、树莓派装系统&#xff0c;配置&#xff0c;换源&#xff0c;远程操控 1.装系统 省略 2.各种协议的使能&#xff0c;配置 参考树莓派教程文档 3.换源 3.1系统更新源的更换 sudo nano /etc/apt/sources.list #注释掉原始国外源&#xff0c;即原始文件第一行的代码 #添加…

sqlite查询乘以某列如果是null就换成_大数据之Hive group by with cube/rollup分组查询...

group bysql 查询时&#xff0c;我们常将聚合函数和group by 结合起来对某一个或多个字段进行分组查询&#xff0c;例如&#xff1a;select addcode,count(distinct sbtid)uv from tb_hive_window group by addcode;---------------| addcode | uv |---------------| 0002 …

Windows下MYSQL的安装与配置

配置&#xff1a; 1. 安装MySQL服务 cmd(管理员模式)下切换到MySQL的bin目录&#xff0c;运行 mysqld install 2. 输入 net start mysql 启动服务 3. 输入 mysql -uroot -p 进入&#xff0c;默认无密码 4. 设置密码 mysqladmin -uroot -p 新密码 &#xff08;会提示输入密码&am…

可以操作excel吗_Excel快速填充,这四种方法你会吗?操作逆天告别加班

在Excel的表格制作中&#xff0c;仅仅会复制粘贴可是不够的&#xff0c;还需要掌握更多的技能&#xff0c;来提升我们的工作效率&#xff01;我们在进行Excel报表制作的时候&#xff0c;如果要批量填充序号&#xff0c;有多少种方法呢&#xff1f;下面给大家简单介绍一下这四种…

我的一个树莓派小车项目

如何使用该程序进行开发 1.寻找串口 查看识别串口号 ls -l /dev/tty*找到相应的串口并在程序里修改 ser serial.Serial("/dev/ttyUSB0",9600)2.摄像头 括号里是0还是1取决于摄像头是内部还是外部 不确定的话就挨着尝试&#xff0c;反正就是二选一嘛 #视频捕获…

2G---5G与未来天线技术

本文来源&#xff1a;滤波器过去二十年&#xff0c;我们见证了移动通信从1G到4G LTE的转变。在这期间&#xff0c;通信的关键技术在发生变化&#xff0c;处理的信息量成倍增长。而天线&#xff0c;是实现这一跨越式提升不可或缺的组件。按照业界的定义&#xff0c;天线是一种变…

python操作csv文件第7行开始的数据_Python教程-Python读写CSV文件

前言 本教程学习在Python中使用CSV文件。CSV&#xff08;逗号分隔值&#xff09;格式是在电子表格和数据库中使用的非常流行的导入和导出格式。Python语言包含该模块&#xff0c;该模块具有用于读取和写入CSV格式的数据的类。csv 使用csv.reader&#xff08;&#xff09;读取CS…

leancloud的技术面试指南

面试流程 通常我们的面试分为一次电话面试和一次现场面试。在少数难以决定的时候会多增加一轮电话或现场面试。 面试中的沟通问题 尊重候选人&#xff0c;平等交流&#xff1a;让候选人自我介绍前&#xff0c;先介绍自己和公司&#xff1b;交流的时候双方处于平等的地位&#x…

基于STM32的高精度频率计设计

前言 本文记录了博主完成的一个课设作品&#xff08;学分为3.5分&#xff09;&#xff0c;题目需要利用ARM做出一个高精度频率计。具体要求如下&#xff1a; 1&#xff09;实现对10M以内数字信号频率的高精度测量&#xff0c;频率测量误差不大于0.01%&#xff1b; 2&#xff0…

数学的意义(一)

来源&#xff1a; 数学职业家数学既是一种文化、一种“思想的体操”&#xff0c;更是现代理性文化的核心。马克思说&#xff1a;“一门科学只有当它达到了能够成功地运用数学时&#xff0c;才算真正发展了。”在前几次科技革命中&#xff0c;数学大都起到先导和支柱作用。我们不…

node都会 react_学react需要node吗

学react需要node吗学习react不需要安装node&#xff0c;react.js和node.js没有太大的关联性。完全可以独立的学习react.js。但我们通常都会使用react提供的脚手架搭建项目结构&#xff0c;这个就需要用到node了。但node.js只需要会它的npm安装包就可以了。一、常用工具介绍1. n…

.Net Core 学习资料

官方网站&#xff1a;https://www.microsoft.com/net/core#windows 官方文档&#xff1a;https://docs.asp.net/en/latest/intro.html中文翻译小组&#xff1a;http://www.cnblogs.com/dotNETCoreSG/p/aspnetcore-index.html发布到Jexus&#xff1a;http://www.cnblogs.com/gao…

python弹球小游戏程序_Python实现弹球小游戏

本文主要给大家分享一个实战项目&#xff0c;通过python代码写一款我们儿时大多数人玩过的游戏---小弹球游戏。只不过当时&#xff0c;我们是在游戏机上玩&#xff0c;现在我们通过运行代码来玩&#xff0c;看看大家是否有不一样的体验&#xff0c;是否可以重温当年的乐趣呢&am…

强化学习决策生成-以 Q-learning 为例

强化学习决策生成-以 Q-learning 为例

【数据中台】关于数据中台系统,需要了解哪些技术?

来源&#xff1a;产业智能官国家建材大数据研究中心今天让我们全面解读中台&#xff0c;包括企业为什么要平台化&#xff0c;目前中台都有哪些形式&#xff0c;实施中台系统的优势、面临的问题以及建议都有哪些&#xff1f;中台这个概念早期是由美军的作战体系演化而来的&#…

python自动拨号_Python自动连接ssh的方法

作者&#xff1a;Sephiroth 字体&#xff1a; 类型&#xff1a;转载这篇文章主要介绍了Python自动连接ssh的方法,实例分析了基于Python实现连接ssh的技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了Python自动连接ssh的方法。分享给大家供大家参考。具体实现方法…

数据库 proc编程七

#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> #include <string.h> #include "sqlca.h"//定义char [20]数组类型 typedef char ChararrType[20];//oracle外部变量类型string类似varchar2类型&#xff0c;是以\0结尾的…