大数据技术之 Flume概述、安装(1)

目录

Flume 概述

 Flume 定义

为什么选用 Flume

 Flume 基础架构

 Agent

Source

Sink

 Channel

 Event

Flume 安装

 Flume 安装部署

 安装地址

 安装部署


Flume 概述

 Flume 定义

Flume 是 Cloudera 提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。

为什么选用 Flume

  • Python爬虫数据
  • Java后台日志数据
  • 服务器本地磁盘文件
  • HDFS 文件夹
  • Kafka 网络端口数据

Flume 最主要的作用就是实时读取服务器本地磁盘的数据,并将数据写入到 HDFS。

 Flume 基础架构

Flume 的组成架构如下图所示。

 Agent

Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成:Source、Channel、Sink。

Source

Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括但不限于:

  • Avro
  • Thrift
  • Exec
  • JMS
  • Spooling Directory
  • Netcat
  • Taildir
  • Sequence Generator
  • Syslog
  • HTTP
  • Legacy

Sink

Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统,或者被发送到另一个 Flume Agent。Sink 组件的目的地包括但不限于:

  • HDFS
  • Logger
  • Avro
  • Thrift
  • IPC
  • File
  • HBase
  • Solr
  • 自定义

 Channel

Channel 是位于 Source 和 Sink 之间的缓冲区。因此,Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的,可以同时处理几个 Source 的写入操作和几个 Sink 的读取操作。

Flume 自带两种 Channel:

  • Memory Channel:内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么 Memory Channel 就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
  • File Channel:将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

 Event

传输单元,Flume 数据传输的基本单元,以 Event 的形式将数据从源头送至目的地。Event 由 Header 和 Body 两部分组成:

  • Header:用来存放该 event 的一些属性,为 K-V 结构。
  • Body:用来存放该条数据,形式为字节数组。

Flume 安装

 Flume 安装部署

 安装地址
  • Flume 官网地址:Welcome to Apache Flume — Apache Flume
  • 文档查看地址:Flume 1.11.0 User Guide — Apache Flume
  • 下载地址:Index of /dist/flume
 安装部署
  1. 上传安装包到 Linux

     

    apache-flume-1.9.0-bin.tar.gz 上传到 Linux 的 /opt/software 目录下。

  2. 解压安装包

    [lzl@hadoop12 software]$ tar -zxf /opt/software/apache-flume-1.9.0-bin.tar.gz -C /opt/module/
  3. 重命名安装目录

    [lzl@hadoop12 module]$ mv /opt/module/apache-flume-1.9.0-bin /opt/module/flume
  4. 删除不兼容的 jar 包

     

    为了兼容 Hadoop 3.1.3,需要删除 flume 目录下 lib 文件夹中的 guava-11.0.2.jar 文件。

    [lzl@hadoop12 lib]$ rm /opt/module/flume/lib/guava-11.0.2.jar

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/878059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Clickhouse集群化(六)clickhosue-operator学习

1. Custom Resource元素 apiVersion: "clickhouse.altinity.com/v1" kind: "ClickHouseInstallation" metadata:name: "clickhouse-installation-test" 这是clickhouse operator自定义的资源ClickHouseInstallation 1.1. .spec.defaults spe…

Webbench1.5安装使用Ubuntu

1、安装依赖包 sudo apt-get update sudo apt-get install libtirpc-dev2、安装Webbench1.5 参考https://github.com/baiguo/webbench-1.5 # 可能需要root权限,我是切换到root用户才安装成功 wget http://home.tiscali.cz/~cz210552/distfiles/webbench-1.5.tar.…

安卓系统 XBL阶段详解

在安卓系统的启动流程中,XBL(eXtensible Boot Loader 或 Secondary Bootloader)是一个关键阶段,特别是在使用QualComm(高通)等SOC(System on Chip)的设备上。以下是对XBL阶段的详细解…

小程序全局本地存储和读取数据

globalData:全局存储信息 定义全局数据(在 app.js 中): 在 app.js 中,你可以通过 globalData 属性定义全局数据 // app.js App({globalData: {userInfo: null,systemInfo: null,theme: light},onLaunch() {console.…

怎么把两个pdf合并成一个pdf?学会这7招,1分钟轻松搞定!

新手小白如何将pdf合并成一个文件?pdf是目前较为主流的一种传输格式,内容包含了丰富的多媒体数据,包括文本、图像、表格等多种元素,很多企业和教育工作者都喜欢使用pdf格式。 pdf文件体积较小,兼容性高,平时…

大数据学习路线基础指南‌

随着信息技术的迅猛发展,‌大数据已成为当今社会的热门话题。‌无论是企业决策、‌市场分析还是科学研究,‌大数据都扮演着举足轻重的角色。‌对于想要投身这一领域的学习者来说,‌制定一份清晰、‌系统的大数据学习路线是至关重要的。‌提供…

Jmeter性能关注指标详解

进行性能测试时,有几个关键的性能指标需要关注,以评估系统的性能和稳定性 一、性能关注指标包含: 响应时间、吞吐量、错误率、资源利用率/使用率(CPU占用率、内存使用率、磁盘I/O等待率、网络I/O) Tips:初步查看数据结果–响应时…

海睿思通过华东江苏大数据交易中心数商认证,提供高质量数据治理服务!

近日,中新赛克海睿思成功通过华东江苏大数据交易中心的数商认证,获得华东江苏大数据交易中心颁发的“数据治理服务商”证书。 华东数交是在实施“国家大数据战略”大背景下,经国家批准的华东地区首个省级特色数据要素交易平台,致力…

学习前端面试知识(14)

2024-8-21 打卡第十四天 js的数据类型 基本类型:String,Number,Object,Null,undefined,Boolean es6之后引入:Symbol,BigInt 判断方式:typeof,instanceof…

鸿蒙HarmonyOS开发:如何使用第三方库,加速应用开发

文章目录 一、如何安装 ohpm-cli二、如何安装三方库1、在 oh-package.json5 文件中声明三方库,以 ohos/crypto-js 为例:2、安装指定名称 pacakge_name 的三方库,执行以下命令,将自动在当前目录下的 oh-package.json5 文件中自动添…

打造敏捷开发环境:JNPF低代码平台的实践与探索

在数字化转型的浪潮中,企业对软件开发的敏捷性和效率提出了更高的要求。传统的软件开发模式通常耗时长、成本高昂,难以迅速适应市场变化。低代码平台的出现,为解决这一问题提供了新的视角。本文将探讨如何运用JNPF低代码平台构建敏捷开发环境…

Tailor:免费开源 AI 视频神器,创作者必备利器

目录 引言一、创新特性,引领视频编辑新潮流1. 智能人脸剪辑2. 精准语音剪辑3. 自动化口播生成4. 多样化字幕生成5. 一键式色彩生成 二、简单易用,新手也能快速上手1. 下载和安装2. 功能选择3. 操作流程 三、广泛应用,满足不同创作需求四、代码…

Python学习-数据库操作

一、安装python库 pip install mysql-connector-python import mysql import re 安装库并导入包 二、定义数据库连接属性: conn mysql.connector.connect(host192.168.1.30, # 替换为你的数据库主机名userkeyijie, # 替换为你的数据库用户名password19kyj20St…

《机器学习》—— AUC评估指标

文章目录 一、什么是AUC?1、什么是ROC曲线?2、ROC曲线的绘制 二、如何计算AUC的值三、代码实现AUC值的计算四、AUC的优缺点 一、什么是AUC? 机器学习中的AUC(Area Under the Curve)是一个重要的评估指标,特…

springboot故障分析FailureAnalyzer

org.springframework.boot.diagnostics.FailureAnalyzer是springboot框架中的一个接口,用于为应用程序启动失败提供详细的诊断报告。当springboot应用程序无法正常启动时,springboot会尝试查找一个或多个实现了FailureAnalyzer接口的类,以提供…

网络游戏运营

游戏运营是将一款游戏平台推入市场,并通过一系列的策略和行动,使玩家从接触、认识到最终成为忠实玩家的过程。这一过程涵盖了多个方面,包括前期准备、上线运营、活动策划、数据分析、渠道合作以及用户维护等。以下是对游戏运营的详细解析&…

HarmonyOS--认证服务-操作步骤

HarmonyOS–认证服务 文章目录 一、注册华为账号开通认证服务二、添加项目:*包名要与项目的包名保持一致三、获取需要的文件四、创建项目:*包名要与项目的包名保持一致五、添加json文件六、加入请求权限七、加入依赖八、修改构建配置文件:bui…

软硬链接

建立软连接 ln -s 指向的文件 软连接文件 建立硬连接 ln 原来文件 硬连接文件 上面我们发现,建立的软链接文件的inode编号和指向文件不同,而建立的硬链接文件inode编号没变,为什么呢? 为什么不能给目录创建硬链接&#xff1f…

macOS 安装 JMeter

在 macOS 上安装 JMeter 有几种不同的方法,可以通过 Homebrew 安装或者手动下载并配置。下面是这两种方法的详细步骤: 方法 1:使用 Homebrew 安装 JMeter 安装 Homebrew(如果还未安装): 打开终端并运行以下…

解决添加MPJ插件启动报错

在项目中需要用到多数据源的级联查询,所以引入了MPJ插件,MPJ的版本是1.2.4,MP的版本是3.5.3,但却在启动的时候报错,报错如下: 解决办法: 将MP的版本降到3.5.1