【平台搭建+数据处理+数据可视化】

第一部分:大数据平台搭建

一、Hadoop

1、完全分布式Hadoop集群搭建:

(1)在master主节点将/opt目录下的Hadoop安装包hadoop-3.1.4.tar.gz解压到/opt/software目录下。

mkdir -p /opt/software

tar -zxf /opt/hadoop-3.1.4.tar.gz -C /opt/software

(2)创建Hadoop临时数据目录、NameNode元数据目录、DataNode数据存储目录等相关路径。

# 进入Hadoop的安装目录

cd /opt/software/hadoop-3.1.4

# 创建Hadoop相关目录

mkdir -p ./hadoopDatas/tempDatas

mkdir -p ./hadoopDatas/namenodeDatas

mkdir -p ./hadoopDatas/datanodeDatas

(3)修改Hadoop配置文件

core-site.xml

<property>

    <name>fs.defaultFS</name>

      <value>hdfs://master:8020</value>

      </property>

    <property>

      <name>hadoop.tmp.dir</name>

      <value>/opt/software/hadoop-3.1.4/hadoopDatas/tempDatas</value>

    </property>

hdfs-site.xml

<property>

    <name>dfs.namenode.name.dir</name>

<value>file:///opt/software/hadoop3.1.4/hadoopDatas/namenodeDatas</value>

</property>

<property>

    <name>dfs.datanode.data.dir</name>

    <value>file:///opt/software/hadoop-3.1.4/hadoopDatas/datanodeDatas</value>

</property>

<property>

     <name>dfs.namenode.secondary.http-address</name>

     <value>slave2:9868</value>

</property>

<property>

     <name> dfs.namenode.http-address </name>

     <value> master:9870</value>

</property>

mapred-site.xml

<property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>master:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>master:19888</value>

    </property>

yarn-site.xml

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>master</value>

  </property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

workers

master

slave1

slave2

hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

(4)修改Hadoop安装目录sbin目录下的start-dfs.sh、stop-dfs.sh、start-yarn.sh、stop-yarn.sh脚本。

start-dfs.sh与停止脚本stop-dfs.sh

HDFS_DATANODE_USER=root

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh和停止脚本stop-yarn.sh

YARN_RESOURCEMANAGER_USER=root

YARN_NODEMANAGER_USER=root

(5)将master节点已经配置好的Hadoop安装目录远程传输到slave1、slave2节点相同目录下。

ssh slave1 "mkdir -p /opt/software"

ssh slave2 "mkdir -p /opt/software"

scp -r /opt/software/hadoop-3.1.4 slave1:/opt/software/

scp -r /opt/software/hadoop-3.1.4 slave2:/opt/software/

(6)在各节点的/etc/profile

# 在master节点通过命令“vi /etc/profile”修改profile文件,文件末尾添加内容

export HADOOP_HOME=/opt/software/hadoop-3.1.4

export PATH=$PATH:$HADOOP_HOME/bin      

source /etc/profile# 使配置生效

分发profile文件到子节点

scp /etc/profile slave1:/etc/profile

使子节点环境变量生效

ssh slave1 "source /etc/profile"

(7)在master上进行HDFS格式化,若出现“successfully formatted”提示,则格式化成功。

/opt/software/hadoop-3.1.4/bin/hdfs namenode -format

(8)在master节点执行命令启动Hadoop的HDFS、YARN服务,并查看各节点进程。

cd /opt/software/hadoop-3.1.4/sbin

./start-dfs.sh

./start-yarn.sh

二、spark

(1)在master节点将/opt目录下的spark-3.2.1-bin-hadoop3.2.tgz安装包解压到/opt/software目录下,并将解压后的spark-3.2.1-bin-hadoop3.2文件夹更名为spark-3.2.1。

mkdir -p /opt/software

tar -zxf /opt/spark-3.2.1-bin-hadoop3.2.tgz -C /opt/software

mv /opt/software/spark-3.2.1-bin-hadoop3.2 /opt/software/spark-3.2.1

(2)进入Spark安装目录的conf目录,将workers.template重命名为workers,之后修改workers文件,注释原文件内容并添加slave1和slave2。

cd /opt/software/spark-3.2.1/conf 

cp workers.template workers

vi workers

slave1

slave2# 按“i”进入编辑模式后注释原文件内容并添加以下内容

(3)修改spark-defaults.conf配置文件。

spark.master                               spark://master:7077

spark.eventLog.enabled              true

spark.eventLog.dir                       hdfs://master:8020/spark-logs

spark.history.fs.logDirectory        hdfs://master:8020/spark-logs

(4)修改spark-env.sh配置文件。

JAVA_HOME=/usr/java/jdk1.8.0_281-amd64

HADOOP_CONF_DIR=/usr/local/hadoop-3.1.4/etc/hadoop

SPARK_MASTER_IP=master

SPARK_MASTER_WEBUI_PORT=8085

SPARK_MASTER_PORT=7077

SPARK_WORKER_MEMORY=512m

SPARK_WORKER_CORES=1

SPARK_EXECUTOR_MEMORY=512m

SPARK_EXECUTOR_CORES=1

SPARK_WORKER_INSTANCES=1

(5)在master节点上启动Hadoop集群,并在HDFS中新建目录/spark-logs。

$HADOOP_HOME/sbin/start-all.sh

hdfs dfs -mkdir /spark-logs

(6)将master节点配置好的Spark文件远程发送至slave1、slave2节点相同目录下。

ssh slave1 "mkdir -p /opt/software"

ssh slave2 "mkdir -p /opt/software"

scp -r /opt/software/spark-3.2.1/ slave1:/opt/software/

scp -r /opt/software/spark-3.2.1/ slave2:/opt/software/

(7)在master节点修改/etc/profile文件,设置Spark环境变量SPARK_HOME和PATH的值,并使配置文件立即生效。

# 在master节点通过命令“vi /etc/profile”修改profile文件,文件末尾添加内容

export SPARK_HOME=/opt/software/spark-3.2.1

export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

scp /etc/profile slave1:/etc/profile

ssh slave1 "source /etc/profile"

(8)启动Spark集群,使用jps查看各节点的进程,同时在浏览器“http://master:8085”访问Spark的监控界面。

cd /opt/software/spark-3.2.1/sbin

./start-all.sh

jps

ssh slave1 "/usr/java/jdk1.8.0_281-amd64/bin/jps"

三、hive

(1)下载Hive安装包到本地data目录并解压

tar -zxf /data/apache-hive-3.1.2-bin.tar.gz -C /usr/local/

(2)hive-env.sh

export HADOOP_HOME=/usr/local/hadoop-3.1.4 //最后文本最后加

(3)在Hive安装目录的conf目录下新建hive-site.xml配置文件添加参数及对应参数值;同时根据需要补充存储临时数据路径、查询日志存储路径、元数据存储服务URI、查询时使用的执行引擎等其它参数,参数值自行决定。

# 新建hive-site.xml文件并添加参数

vi hive-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

        <description>元数据库位置</description>

        <name>hive.metastore.warehouse.dir</name>

        <value>hdfs://master:8020/user/hive/warehouse</value>

    </property>

    <property>

        <description>元数据连接字符串</description>

<

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/10707.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每日随笔】人性 - 能屈能伸 ( 君子之道 能屈能伸 )

文章目录 一、君子之道 能屈能伸1、含义分析2、能屈3、能伸4、最佳实践 二、能屈能伸 - 应用场景1、个人层面2、国家层面 柳树随风摇曳 , 风再大也不会断 , 能屈能伸 ; 一个人行为处事 , 不能一直强硬 , 也不能一直妥协 , 该妥协的时候就要妥协让步 , 该硬的时候就要用于斗争 …

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-15.5讲 GPIO中断实验-通用中断驱动编写

前言&#xff1a; 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM&#xff08;MX6U&#xff09;裸机篇”视频的学习笔记&#xff0c;在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

学习Uni-app开发小程序Day8

前面几天&#xff0c;学习了vue的button组件、input组件&#xff0c;vue模版语法、计算属性等&#xff0c;在昨天又根据前面学习的&#xff0c;跟着做了一个小的购物车功能&#xff0c;今天学习了侦听器和计算属性 计算属性 computed computed是一个只读的状态,如果要修改…

Golang | Leetcode Golang题解之第77题组合

题目&#xff1a; 题解&#xff1a; func combine(n int, k int) (ans [][]int) {// 初始化// 将 temp 中 [0, k - 1] 每个位置 i 设置为 i 1&#xff0c;即 [0, k - 1] 存 [1, k]// 末尾加一位 n 1 作为哨兵temp : []int{}for i : 1; i < k; i {temp append(temp, i)}t…

uniapp音乐播放整理

一、前置知识点 1.1 音频组件控制-uni.createInnerAudioContext() 创建并返回内部 audio 上下文 innerAudioContext 对象。 主要用于当前音乐播放&#xff1b; 1.1.1 innerAudioContext属性 属性类型说明只读平台差异说明srcString音频的数据链接&#xff0c;用于直接播放…

深入探索CSS3 appearance 属性:解锁原生控件的定制秘密

CSS3 的 appearance 属性&#xff0c;作为一个强大的工具&#xff0c;让我们得以细致入微地控制元素的外观&#xff0c;特别是对于那些具有平台特定样式的表单元素&#xff0c;如按钮、输入框等。本文不仅会深入解析 appearance 属性的基本工作原理和使用场景&#xff0c;还将通…

TypeScript在前端项目的渐进式采用策略

渐进式采用 TypeScript 在前端项目中的策略通常包括: 引入TypeScript 如果我们有一个简单的JavaScript模块utils.js&#xff0c;它包含一个函数用于计算两数之和&#xff1a; // utils.js export function add(a, b) {return a b; }首先&#xff0c;我们将文件扩展名改为.t…

vue的css深度选择器 deep /deep/

作用及概念 当 <style> 标签有 scoped 属性时&#xff0c;它的 CSS 只作用于当前组件中的元素&#xff0c;父组件的样式将不会渗透到子组件。在vue中是这样描述的&#xff1a; 处于 scoped 样式中的选择器如果想要做更“深度”的选择&#xff0c;也即&#xff1a;影响到子…

vscode+clangd阅读Linux内核源码

1. 禁用或卸载官方C/C插件. 2. 安装clangd插件 3. 清除之前的产物 4. 生成.config文件 5.编译生成内核镜像 6.编译内核模块 7.编译设备树文件 8.生成compile_commands.json文件 运行上述命令后&#xff0c;在内核源码根目录生成了compile_commands.json文件 9.设置clangd插…

Verlog-串口发送-FPGA

Verlog-串口发送-FPGA 引言&#xff1a; ​ 随着电子技术的不断进步&#xff0c;串口通信已成为嵌入式系统和计算机外设中一种广泛使用的异步通信方式。串口通信因其简单性、可靠性以及对硬件资源的低要求&#xff0c;在数据传输领域扮演着重要角色。在FPGA&#xff08;现场可编…

记录一个git无法push的问题

今天准备写新功能&#xff0c;想把之前的代码push到远程仓库&#xff0c;但是git突然就不工作了&#xff0c;报错如下 OpenSSL SSL_connect: Connection was reset in connection to gitee.com:443 因为我昨天把项目目录改了&#xff0c;以为是目录修改的问题&#xff0c;但是…

读天才与算法:人脑与AI的数学思维笔记25_涌现理论

1. 人工智能新闻 1.1. 人工智能新闻报道算法的核心是如何将未经处理的原始数据转换成新闻报道 1.2. 很少有记者为美联社决定使用机器来帮助报道这些新闻持反对意见 1.2.1. 像“Wordsmith”这样的算法&#xff0c;具有自动化的洞察力、科学的叙事能力&#xff0c;现在正被应用…

处理RESTful服务中不完整JSON数据的策略

在RESTful服务中&#xff0c;客户端与服务器之间的数据交换经常通过JSON格式进行。然而&#xff0c;客户端传递的JSON数据可能并不总是包含服务器端数据结构所需的所有字段。这种情况可能导致自动反序列化工具&#xff08;如serde&#xff09;无法直接将JSON数据转换为服务器端…

LINUX 精通 1——2.1.1 网络io与io多路复用select/poll/epoll

LINUX 精通 1 day12 20240509 算法刷题&#xff1a; 2道高精度 耗时 107min 课程补20240430 耗时&#xff1a;99 min day 13 20240512 耗时&#xff1a;200min 课程链接地址 前言 杂 工作5-10年 够用 费曼&#xff1a;不要直接抄&#xff0c;自己写&#xff1b;不要一个…

el-table-column 设置值显示 千分位

编写函数 formatNumber formatNumber(num){ if (num ! null) return num.toLocaleString(en-US); }, 用法 <el-table-column label"金额" align"right" prop"amount" key"amount":show-overflow-tooltiptrue>…

【WEEK11】 【DAY6】员工管理系统第七部分【中文版】

2024.5.11 Saturday 接上文【WEEK11】 【DAY5】员工管理系统第六部分【中文版】 目录 10.8.删除及404处理10.8.1.修改list.html10.8.2.修改EmployeeController.java10.8.3.重启10.8.4. 404页面处理10.8.4.1.把404.html文件移入10.8.4.2.重启并运行 10.8.5.退出登录状态10.8.5.1…

紫光计算机项目卓越中心负责人孙宇受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 紫光计算机科技有限公司信息技术中心项目总监&卓越中心负责人孙宇先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾&#xff0c;演讲议题为“PMO卓越中心核心能力拆解与落地-用创新绘制新蓝图”。大会将于6月29-30日在北京举办&#xff0c…

Mistoline: 超高质量控线的Controlnet【附加代码演示】

MistoLine 是 SDXL-ControlNet 模型&#xff0c;可适应任何类型的线条图输入&#xff0c;具有高精确度和出色的稳定性。它可以根据用户提供的各种类型的线稿&#xff08;包括手绘草图、不同的 ControlNet 线稿预处理器和模型生成的轮廓&#xff09;生成高质量图像&#xff08;短…

【信息系统项目管理师知识点速记】沟通管理:监督沟通

监督沟通是确保项目沟通按计划有效进行的关键环节,涉及评估沟通活动是否满足项目与干系人需求。此过程持续整个项目周期,旨在优化信息流并及时调整沟通策略。 核心要点 目的:确保沟通符合计划,适时、适地、适人传达正确信息。手段:通过客户满意度调查、经验教训回顾、团队…

web入门——导航栏

本专栏内容代码来自《响应式web&#xff08;HTML5CSS3Bootstrap&#xff09;》教材。 导航栏 实现代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content&…