Hadoop大数据分析案例

目录

      • 案例概述
      • 环境搭建
        • 1. Hadoop单机环境
        • 2. Hadoop集群环境
      • 数据集
        • 数据预处理
      • MapReduce作业编写
        • 提交作业
      • 数据可视化
      • 可能遇到的问题及解决方法
      • 结论

案例概述

本案例将详细介绍如何在单机和集群环境下使用Hadoop进行大数据分析,最后利用Python进行数据的可视化展示。我们将首先介绍Hadoop的安装与配置,然后演示如何在单机和集群环境中运行Hadoop。接下来,我们将使用Python编写MapReduce作业,分析一个公开数据集。最后,我们将使用Matplotlib和Seaborn等Python库进行数据的可视化。

环境搭建

1. Hadoop单机环境
  1. 安装Java: Hadoop依赖于Java环境,因此首先需要安装Java SDK。

    sudo apt-get update
    sudo apt-get install openjdk-8-jdk
    java -version
    
  2. 下载Hadoop: 从Hadoop官网下载Hadoop二进制文件。

    wget https://downloads.apache.org/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz
    tar -xzvf hadoop-3.3.5.tar.gz
    
  3. 配置环境变量:

    编辑.bashrc文件:

    nano ~/.bashrc
    

    添加以下内容:

    export HADOOP_HOME=~/hadoop-3.3.5
    export PATH=$PATH:$HADOOP_HOME/bin
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    

    应用配置:

    source ~/.bashrc
    
  4. 配置Hadoop: 编辑hadoop-env.sh文件,设置Java路径。

    nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
    

    修改JAVA_HOME为之前安装的Java路径。

  5. 启动Hadoop:

    格式化HDFS:

    hdfs namenode -format
    

    启动Hadoop服务:

    start-dfs.sh
    start-yarn.sh
    jps  # 验证服务是否启动
    
2. Hadoop集群环境
  1. 安装配置: 在每个节点上按单机环境的步骤安装Java和Hadoop。

  2. 配置SSH免密登录: 在master节点生成SSH密钥并分发到所有节点。

    ssh-keygen -t rsa
    ssh-copy-id node1
    ssh-copy-id node2
    
  3. 编辑配置文件:

    core-site.xml中配置HDFS的URL:

    <property><name>fs.defaultFS</name><value>hdfs://master:9000</value>
    </property>
    

    hdfs-site.xml中配置副本数和数据目录:

    <property><name>dfs.replication</name><value>3</value>
    </property>
    <property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hdfs/datanode</value>
    </property>
    

    yarn-site.xml中配置ResourceManager和NodeManager:

    <property><name>yarn.resourcemanager.hostname</name><value>master</value>
    </property>
    

    slaves文件中列出所有节点的主机名。

  4. 启动集群:

    格式化HDFS并启动所有节点的Hadoop服务:

    hdfs namenode -format
    start-dfs.sh
    start-yarn.sh
    

数据集

我们将使用一个公开的天气数据集,该数据集包含世界各地的历史天气数据。数据集可从Kaggle下载。下载后的数据将被上传到HDFS中进行分析。

数据预处理

在分析前,我们需要使用Python对数据进行预处理,将其转换为适合MapReduce作业处理的格式。使用pandas库读取和处理数据,然后保存为文本文件。

import pandas as pd# 读取数据
df = pd.read_csv('WeatherEvents.csv')# 数据清洗和筛选
df = df.dropna(subset=['Severity', 'City', 'State', 'StartTime(UTC)', 'EndTime(UTC)'])# 转换为MapReduce可处理的格式
df['StartYear'] = pd.to_datetime(df['StartTime(UTC)']).dt.year
df['Event'] = df['Severity'] + '_' + df['Type']# 保存为文本文件
df[['State', 'StartYear', 'Event']].to_csv('weather_data.txt', header=False, index=False)

MapReduce作业编写

使用Python编写一个MapReduce作业,统计每年每个州发生的不同类型的天气事件。

from mrjob.job import MRJobclass WeatherEventCount(MRJob):def mapper(self, _, line):fields = line.split(',')state = fields[0]year = fields[1]event = fields[2]yield (state, year, event), 1def reducer(self, key, values):yield key, sum(values)if __name__ == '__main__':WeatherEventCount.run()
提交作业

将预处理后的数据上传到HDFS,然后提交MapReduce作业。

hdfs dfs -mkdir -p /user/hadoop/weather
hdfs dfs -put weather_data.txt /user/hadoop/weather/# 提交作业
python weather_event_count.py -r hadoop hdfs:///user/hadoop/weather/weather_data.txt

数据可视化

MapReduce作业完成后,我们将结果导出到本地,并使用Python进行可视化展示。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns# 读取MapReduce作业结果
df_result = pd.read_csv('result.csv', header=None, names=['State', 'Year', 'Event', 'Count'])# 可视化每年每个州的事件类型分布
plt.figure(figsize=(14, 7))
sns.barplot(x='Year', y='Count', hue='Event', data=df_result)
plt.title('Weather Events by State and Year')
plt.show()

可能遇到的问题及解决方法

  1. 数据导入失败: 在大数据集上传到HDFS时可能会出现网络超时或连接中断问题。建议使用hdfs dfs -copyFromLocal命令,并将数据切分为较小块上传。

  2. Mapper或Reducer失败: 可能是由于内存不足导致。可以通过增加YARN的内存设置来解决,或者优化代码,减少单个任务处理的数据量。

  3. Hadoop节点失效: 在集群中,一个或多个节点可能会由于硬件故障或网络问题而失效。Hadoop默认情况下会自动重新分配任务到其他节点,但仍需定期监控节点状态。

  4. Python版本兼容性: 确保Hadoop集群上安装的Python版本与本地开发环境一致,以避免版本不兼容问题。

  5. 数据倾斜问题: MapReduce作业中,某些键可能对应大量数据,导致数据倾斜。可以通过自定义分区器来均衡负载。

结论

通过本案例,读者可以学习如何在Hadoop单机和集群环境下使用Python进行大数据分析,并通过数据可视化得出有价值的洞察。本案例同时也指出了一些可能会遇到的问题及其解决方法,为在实际项目中应对挑战提供了有力支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/52069.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

音频剪辑软件哪个好用?五大音频剪辑软件分享

如果你正打算在家自学视频制作&#xff0c;那么恭喜你&#xff0c;你已经踏上了一段充满魔法与惊喜的旅程&#xff01;不过&#xff0c;别忘了&#xff0c;视频的灵魂不仅仅在于画面&#xff0c;更在于那直击心灵的音效。 想象一下&#xff0c;一个精心剪辑的片段&#xff0c;…

gt接口的Alignment, Termination, and Equalization界面配置配置了什么

在GT接口的Alignment, Termination, and Equalization界面配置中&#xff0c;主要涉及到两个关键部分的配置&#xff1a;逗号对齐&#xff08;Comma Alignment&#xff09;和均衡处理&#xff08;Termination and Equalization&#xff09;。以下是对这两个部分的详细解释&…

汇编语言中的高效引擎:深入理解流水线技术

标题&#xff1a;汇编语言中的高效引擎&#xff1a;深入理解流水线技术 引言 在现代计算机架构中&#xff0c;流水线&#xff08;Pipeline&#xff09;是一种允许多个指令同时在处理阶段中前进的技术&#xff0c;极大地提高了处理器的效率和性能。在汇编语言层面理解流水线&a…

【设计模式】六大原则-下

❓首先什么是设计模式&#xff1f; &#x1f635;相信刚上大学的你和我一样&#xff0c;在学习这门课的时候根本不了解这些设计原则和模式有什么用处&#xff0c;反而不如隔壁的C更有意思&#xff0c;至少还能弹出一个小黑框&#xff0c;给我个hello world。 ✨ 如何你和我一样…

前端基础知识(一些基本标签的用法)

前端&#xff1a;html,css,javascript html:超文本结构化标记语言 使用角度 1、供显示的元素 2、供收集信息的元素 css层叠联样式单 选择器&#xff08;给谁做样式&#xff09; 盒子模型&#xff08;了解html元素内部结构&#xff09; 布局&#xff08;把元素进行摆布&a…

干货分享!渗透测试成功的8个关键

01 知道为什么要测试 执行渗透测试的目的是什么&#xff1f;是满足审计要求&#xff1f;是你需要知道某个新应用在现实世界中表现如何&#xff1f;你最近换了安全基础设施中某个重要组件而需要知道它是否有效&#xff1f;或者渗透测试根本就是作为你定期检查防御健康的一项例行…

借助Aapose.Cells 使用 C# 在 Excel 中读取、添加和编辑线程注释

Excel 中的线程注释是协作工作的重要功能。它允许多个用户在共享文档中添加、编辑和查看对话线程。在某些情况下&#xff0c;我们可能需要以编程方式管理这些线程注释。在这篇博文中&#xff0c;我们将学习如何使用 C# 在 Excel 中读取、添加和编辑线程注释。 Aspose.Cells 是…

ant design 的 tree 如何作为角色中的权限选择之一

这种功能如何弄呢&#xff1f; 编辑的时候要让权限能选中哦。 <ProForm.Item name"permissions" label{intl.formatMessage({ id: permission_choose })}><Spin spinning{loading}><TreecheckableonExpand{onExpand}expandedKeys{expandedKeys}auto…

7个领先数据仓库和数据库的深入比较

在当今的数字时代&#xff0c;数据仓库和数据湖已成为存储和分析大量数据的核心&#xff0c;为各种数据管理挑战提供可扩展的解决方案。探索数据仓库和数据库的多样化世界&#xff0c;比较AmazonRedshift和MySQL等主要参与者&#xff0c;以确定最适合您的数据管理需求的解决方案…

Debug-021-el-table实现分页多选的效果(切换分页,仍可以保持前一页的选中效果)

前情提要&#xff1a; 这个功能实现很久了&#xff0c;但是一直没有留意如何实现&#xff0c;今天想分享一下。具体就是我们展示table数据的时候&#xff0c;表格中的数据多数情况是分页展示&#xff0c;毕竟数据量太多&#xff0c;分页的确是有必要的。那么我们有业务需要给表…

[C#]winform基于深度学习算法MVANet部署高精度二分类图像分割onnx模型高精度图像二值化

【训练源码】 https://github.com/qianyu-dlut/MVANet 【参考源码】 https://github.com/hpc203/MVANet-onnxrun 【算法介绍】 二分图像分割&#xff08;DIS&#xff09;最近出现在从高分辨率自然图像中进行高精度对象分割方面。在设计有效的DIS模型时&#xff0c;主要的挑战是…

代码随想录训练营 Day31打卡 贪心算法 part05 56. 合并区间 738. 单调递增的数字 968. 监控二叉树

代码随想录训练营 Day31打卡 贪心算法 part05 一、 力扣56. 合并区间 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中…

【C++ 第十三章】AVL 二叉平衡树

1. AVL树的概念 普通二叉搜索树虽可以缩短查找的效率&#xff0c;但如果数据有序或接近有序二叉搜索树将退化为单支树&#xff0c;查找元素相当于在顺序表中搜索元素&#xff0c;效率低下。 因此&#xff0c;两位俄罗斯的数学家 G.M.Adelson-Velskii 和 E.M.Landis 在1962年发明…

【YashanDB知识库】共享集群YAC换IP

【标题】共享集群YAC换IP 【需求分类】安装部署&#xff0c;配置变更 【关键字】安装部署&#xff0c;更换IP&#xff0c;运维&#xff0c;配置变更&#xff0c;高可用&#xff0c;YAC 【需求描述】客户需要将已经部署的YAC集群更换IP&#xff0c;从测试网段切换生产网段 【…

高性能web服务器详解

一、Web服务的基础介绍 正常情况下单次web服务访问的流程简图&#xff1a; 1.1 Web服务介绍 这里介绍的是 Apache 和 NGINX 1.1.1 Apache 经典的Web服务端 Apache 起初由美国的伊利诺伊大学香槟分校的国家超级计算机应用中心开发 目前经历了两大版本分别是 1.X 和 2.X…

高性能web服务器--nginx

下载nginx [rootnginx ~]# wget -c https://nginx.org/download/nginx-1.24.0.tar.gz [rootnginx ~]# tar zxf nginx-1.24.0.tar.gz创建nginx用户 [rootnginx nginx-1.24.0]# useradd -s /sbin/nologin -M nginx先安装依赖 dnf install gcc pcre-devel zlib-devel openssl-d…

p0级别事故 分类

信息化系统 P0至P4事故级别描述了不同严重程度的服务中断或功能故障&#xff0c;其中P0代表最高级别的事故。以下是各级别的详细描述&#xff1a; ● P0&#xff1a;核心业务重要功能不可用&#xff0c;且影响范围广泛&#xff0c;如大面积影响用户。这包括系统崩溃、页面无法访…

Windows与Linux的和谐共处时代!

目录 &#x1f308; 虚拟机简介&#xff1a;开启多系统并行的钥匙 &#x1f527; VMware安装指南&#xff1a;让梦想照进现实 第一步&#xff1a;下载VMware Workstation 第二步&#xff1a;安装VMware Workstation 第三步&#xff1a;创建Linux虚拟机 你是否曾经梦想过&a…

Android低内存设备系统优化

切记,所有的优化都遵循一条准则: 空间换时间,时间换空间。 一、前言 我们为什么会觉得卡顿、不流畅? 卡顿等性能问题的最主要根源都是因为渲染性能,Android系统很有可能无法及时完成那些复杂的界面渲染操作。Android系统每隔16ms发出信号,触发对UI进行渲染,如果每次渲染…

springboot整合mybatis以及mybatis-plus 开发

一、springboot整合mybatis 1.注解版 1.1 导入坐标 <dependencies><!--mybatis坐标--><dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>2.2.2</…