hadoop重命名文件_Hadoop -- 3. 从Flume到HDFS

提起Flume, 就先讲一下它的基本作用, 它可以从不同的数据源导入到一个集中的地方存放起来,基本架构如下图所示

30ab530079d2876ab108704cc187a4e7.png

*上图为Flume Data Flow Model, Ref: Flume 1.9.0 User Guide

本篇文章会做一个小demo, 数据从spooling directory来(而不是官网图中画的Web Server), 先经过channel, 再写入HDFS

*Note: Flume的source, channel和sink的类型非常多,所以本次用的source是Spooling Directory Source, Sink是 HDFS Sink, Channel是Memory Channel

前提准备

搭建HDFS环境, 可以参考以下文章

Richie:Hadoop -- 1. 从零搭建HDFS​zhuanlan.zhihu.com
a9bd74a9ac09f7d0d57b401985787b18.png

配置Flume

从下面的官网直接下载Flume编译好的包(Apache Flume binary)

Download - Apache Flume​flume.apache.org

解压放在某个路径下, 然后把flume加入环境变量, 如下

export FLUME_HOME=/Path_To_Your_Flume_Dir/flume-1.8.0
export PATH=$PATH:$FLUME_HOME/bin

之后记得source以下, 例如

source ~/.zshrc

创建spool dir

spool dir其实就是一个目录, 所以和创建目录的指令都一致

mkdir /path_to_your_spooldir

为source和sink配置config文件

这里先命名为hdfs.conf吧

agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1agent1.sources.source1.type = spooldir
agent1.sources.source1.spoolDir = /path_to_your_spooldiragent1.sinks.sink1.type = hdfs
agent1.sinks.sink1.hdfs.path = /tmp/flume
agent1.sinks.sink1.hdfs.filePrefix = events
agent1.sinks.sink1.hdfs.fileSuffix = .log
agent1.sinks.sink1.hdfs.inUsePrefix = _
agent1.sinks.sink1.hdfs.fileType = DataStreamagent1.channels.channel1.type = memory

启动Flume

cd /to_your_flume_home_dir
flume-ng agent --conf-file /path_to_your_hdfs.conf --name agent1 --conf conf -Dflume.root.logger=INFO,console

写入Spool Dir

cd /to_your_spool_dir
echo "Hello Flume" > .file1.txt
mv .file1.txt file1.txt
*Note: 这里解释一下为什么先写入隐藏文件, 然后再重命名了一下. 这是为了避免写了部分文件的时候, 就被flume source读取了, 所以我们先写入隐藏文件, 然后做个原子操作-重命名,之后flume就可以读到完整的文件了

在HDFS中查看写入内容

hdfs dfs -ls /tmp/flume

e007d180ed1ad1c706c26172a9958d69.png

然后看一下.log文件中的内容

hdfs dfs -cat /tmp/flume/events.1547361342874.log

431fedf6f69d5c52304d9e17895c4020.png
可以看到截图最后一行“Hello Flume”, 证明成功写入HDFS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/355825.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑计算器_CPA考生注意!2020考场只允许带这种计算器

注册会计师每年采用闭卷、计算机化考试方式。根据往年考生的反应,计算器的使用在考场上发挥了非常大的作用。值得大家注意的是,并不是所有的计算器都能带进考场,考试对计算器有什么要求?如何挑选到正确的计算器?我们一起来看看&a…

最早的齿轮计算机,世界最古老“计算机”出土后110年,科学家终于解开它的秘密...

伦敦大学学院(UCL)的研究团队,提出了“一个激进的新模型,与所有数据相匹配,并最终优雅地展示出了古希腊人眼中的宇宙”。1901年,在希腊岛屿安提基特拉的海岸,潜水员偶然发现了一艘古代沉船。沉船中的一件文物&#xff…

通过Java 8中的Applicative Builder组合多个异步结果

几个月前,我发布了一个出版物 ,在其中详细解释了我提出的名为Outcome的抽象,它通过强制使用语义帮助了我很多 没有副作用的代码。 通过遵循这种简单(但功能强大)的约定,我最终将任何类型的故障(…

diskgenius 接触“只读“失败_相亲总是失败,这三个步骤你都做了吗?

原标题:相亲总是失败,这三个步骤你都做了吗?虽然现在爱情很稀缺,但想必大家都想找个男女朋友,想谈一场甜甜的恋爱。 而相亲,无疑是脱单最直接、最有效的方式,没有之一。但不管是经人介绍&#x…

agv系统介绍_重载AGV小车主要结构及导航原理是什么?

相信对AGV有过了解的朋友都知道,当我们在进行工业生产过程时,重载AGV小车可以帮我们实现无人驾驶搬运的一个工作,可以保证AGV在运行时不用通过人工干预的情况下来完成现场的搬运工作,通过无人驾驶技术进行自主导航将货物自动从起始位置搬运到…

怎样打开计算机音频服务器,win10系统音频服务器未运行的修复步骤

有关win10系统音频服务器未运行的操作方法想必大家有所耳闻。但是能够对win10系统音频服务器未运行进行实际操作的人却不多。其实解决win10系统音频服务器未运行的问题也不是难事,小编这里提示两点:1、在1、windows10“音频服务未运行”,有个红色小叉咋办…

rgb fusion检测不到显卡_【论文阅读27】Co-Fusion

主要内容物体级别的语义SLAM。维护一个背景模型和多物体模型,每个模型由面元地图表示。基于运动分割和语义信息检测运动物体。使用基于ICP对齐的几何误差和基于颜色差异的光度误差跟踪背景模型(相机位姿)和多个运动物体。根据[8]的方法更新每…

u盘插在电脑上灯亮没有反应_u盘插入电脑无反应怎么解决 u盘插入电脑无反应解决方法【步骤介绍】...

u盘的轻巧、便捷使其在生活工作中重要的工具设备,在使用u盘的过程中插入的 u盘无法识别 ,电脑对插入的u盘无反应,遇到这样的问题该怎么办呢?接下来小编就和大家介绍 电脑无法识别u盘 的解决办法。1 、使用其它的移动设备插在电脑usb接口上&a…

recaptcha_与reCAPTCHA的Spring集成

recaptcha有时我们只需要CAPTCHA ,这是一个可悲的事实。 今天,我们将学习如何与reCAPTCHA集成。 因为主题本身并不是特别有趣和高级,所以我们将通过使用Spring Integration处理低级细节来过度设计(?)。 Goo…

honeywell新风系统控制面板说明_如何选择新风系统中的新风设备万家舒适家

喜欢点击蓝字关注我们吧我们常说“看人不光要看外表,更要看内在”,这个说法对新风机同样适用。新风机的内部件主要分为:动力模块、电控模块、净化模块、热交换模块这四个部分。首先、动力模块,就是风机。从我们消费者角度来看&…

第八周学习进度条

转载于:https://www.cnblogs.com/baiyue/p/7110849.html

设计模式的Java 8 Lambda表达式–策略设计模式

策略模式定义封装在通常称为Context的驱动程序类中的一系列算法,并使这些算法可互换。 它使算法易于互换,并提供了在特定时间选择适当算法的机制。 算法(策略)在运行时由客户端或上下文选择。 在与客户端交互期间,Con…

sata修改为ahci后系统无法启动_固态重装系统

固态硬盘凭借其高速的读写速度,已经成为现如今很多用户电脑的标配。对于刚刚为电脑换上固态硬盘的用户来说,固态硬盘里并没有装有系统,因此首要任务就是进行重装系统win10。那么,固态硬盘如何装系统呢?为固态硬盘重装系统&#x…

10年老电脑如何提速_中国电信宣布将对宽带免费提速,最高500Mbps

电信宽带用户们有福了!中国电信宣布,自11月9日到12月31日,启动“智慧生活好物节,宽带免费加速度”活动,对接入速率200Mbps以下的电信光纤宽带家庭用户,免费在线提速到200Mbps。接入速率大于等于200Mbps但小…

gromacs 安装_带你入门带你飞 gromacs材料计算模拟系列

为了帮助大家了解掌握gromacs材料计算模拟计算,材料人于9月28日举办该主题研讨会。视频回看已经上线。培训内容1 GROMACS入门操作基础1.1掌握GROMACS所用的Linux命令1.2 GROMACS的linux版编译安装1.3 GROMACS各种输入输出文件讲解1.4 GROMACS力场讲解2 GROMACS建模2…

计算机c盘能分区吗,电脑C盘怎么分区

电脑C盘怎么分区C盘是指电脑硬盘主分区之一,一般用于储存或安装系统使用。针对安装在本地硬盘的单操作系统来说,是默认的本地系统启动硬盘。下面是jy135小编收集整理的电脑C盘怎么分区,欢迎阅读。以Windows 7为例,鼠标右键选择计算…

PCB-电解电容的封装

点击到完成即可 转载于:https://www.cnblogs.com/liangjinjie/p/6719605.html

java虚拟机_Oracle独家:Java虚拟机学习指南

大家好,我是极客时间《深入拆解 Java 虚拟机》作者、Oracle Labs 高级研究员郑雨迪。有幸借这个专题的机会,能和大家分享为何 Java 工程师要学 Java 虚拟机?如何掌握 Java 虚拟机?工欲善其事,必先利其器“为什么学 Jav…

windows聚焦壁纸不更新_壁纸推荐说 | 爱上你的壁纸,每天更新的免费壁纸软件dynamic theme...

搜罗东西 好物尝鲜图|源网络文|百里丶“ 看官们好!这里是每期都在的百里,每期的好物推荐缘由都会出现在这里。喜欢的小伙伴可以点个关注呦!看过前文的小伙伴都知道百里是一个爱好尝鲜的,那对于自己每天一定会接触到的…

jOOQ星期二:拉斐尔·温特豪德(Rafael Winterhalter)正在与字节好友搏斗字节码

欢迎来到jOOQ Tuesdays系列。 在本系列中,我们每隔一个月的第三个星期二发布一篇文章,从jOOQ的角度采访我们发现该行业令人兴奋的人。 这包括从事SQL,Java,开放源代码以及其他各种相关主题的人员。 我们很高兴在第七版中与Rafae…