Cloudera虚拟机配置(虚拟机环境自带Hadoop、Impala等大数据处理应用)

        上学期的大数据处理课程,笔者被分配到Impala的汇报主题。然而汇报内容如果单纯只介绍Impala的理论知识,实在是有些太过肤浅,最起码得有一些实际操作来展示一下Impala的功能。但是Impala的配置实在是有些困难与繁琐,于是笔者通过各种渠道找到了Cloudera公司(Hadoop数据管理软件与服务提供商)在早些年发行的虚拟机文件,通过配置该虚拟机可以直接获得一个较为完整的大数据处理应用环境(包括Hadoop、Impala等数种大数据处理应用)。

【虚拟机文件资源已上传百度网盘,没办法,这个虚拟机文件实在是太大了(5+G),要不然我就直接在博客上资源绑定了】

链接:https://pan.baidu.com/s/1hRhJySvZTqmxUvqZJ3tYuQ?pwd=a6t3 
提取码:a6t3 
 

虚拟机软件

        笔者使用的虚拟机软件是Oracle VM VirtualBox(图标如下),关于该软件的详细安装步骤请恕笔者不在此赘述,直接进入配置阶段。

 配置cloudera-quickstart虚拟机

将文件夹全部下载下来后,文件夹里应该有这两个文件,不能有缺漏。

确认无误后,打开虚拟机,导入该虚拟机文件,如下图。

在下列划横线处选择下载好的虚拟机文件路径

(选择图标为黄色方块的那个文件,文件格式为ovf)

进入下一步,该页面全部采用默认设置即可👇 

设置完成后,点击导入即可在虚拟机首页看到虚拟机文件。但此时还不能直接运行,因为该虚拟机对于内存和显存都有一定要求,必须进行额外的设置才能满足虚拟机运行的条件,笔者尝试了一种可正常运行的设置方案如下:

首先点击设置

在“系统-主板”选项中,将内存改为7500MB(也可以再稍微调大一些,根据实际情况来)

在“系统-处理器”界面,将“处理器数量”更改为4个。

在“显示-屏幕”选项中,将“显存大小”更改为28MB
完成如上设置后,点击运行虚拟机,一般情况下即可正常完成运行。虚拟机的启动过程比较缓慢,需要耐心等待,启动成功后虚拟机如下图所示。该虚拟机中基本包含了大数据处理的所有基本应用(包括Hadoop、Impala、Hive等),虚拟机的操作系统是Red Hat,跟Ubuntu差不多,启动这些应用可以直接通过终端命令行进行操作。 

实操应用

本部分主要对Impala的大数据处理操作进行一些实操演示,并将其与Hive进行一个简单对比。

Impala适用于处理在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C++和Java编写的开源软件。与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。

简而言之,它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。但是Impala只能处理PB级别的数量级,更大数量级的数据处理起来性能很差。它的主要应用在于处理实时数据、进行交互计算。

接下来进行Impala的相关操作

首先启动Impala,如下在命令行中直接输入“impala-shell”。

Impala的控制语句和数据库的控制语句基本相同,以下演示几个基本命令。

【创建数据库】

【向表格中插入数据】

在Impala中的相关操作,都可以在虚拟机中自带的Hue中进行可视化数据查看,如下展示了笔者通过Impala插入了若干数据后查看的结果。

为了更好地理解Impala”快“的特点,笔者简单插入了20个数据,并将impala和hive进行取数据的时间对比,比较两者的速度差异。(左侧为hive,右侧为impala)

笔者进行多次操作确保时间达到相对稳定的值,可以看到,在较少样本的情况下,impala仍然能比hive快0.06s。

当然以上的对比差异可能不够显著,主要是因为样本的数量实在过少,但是根据笔者搜索到的一个大样本数据测试显示,impala在实时处理、交互计算方面确实存在明显的优势。


以上就是本篇博客的全部内容,欢迎大家下载资源进行测试。cloudera的虚拟机文件近年来已经不再发行了,本篇博客中的虚拟机文件差不多算是绝品了,笔者当时能找到这个文件真的是费劲了九牛二虎之力啊,实属不易~果然做研究是必须要下大功夫的!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/712703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uni-app去除页面头部的标题栏

uniapp项目 每个界面都会有一个标题栏 配置在我们项目根目录的 pages.json中 我们将它全部去掉 上面还是有一条黑的 体验非常差 我们只需要在pages.json中 指定page的 style中加入 "navigationStyle": "custom"对应的page 就没有这个标题栏了

【王道数据结构】【chapter8排序】【P371t6】

试设计一个算法&#xff0c;判断一个数据序列是否构成一个小根堆&#xff08;下面代码中的堆排序的部分仅仅是为了方便设计测试用例&#xff09; #include <iostream> #include<time.h> #include<stdlib.h>int * buildarray(int size) {int* tmp(int *) mall…

Mybatis 主从表有名字相同,只能查询出一条数据

Mybatis 主从表有名字相同&#xff0c;只能查询出一条数据 重新命名后&#xff0c;可以正常查询

力扣SQL50 使用唯一标识码替换员工ID 查询

Problem: 1378. 使用唯一标识码替换员工ID 思路 left join&#xff1a;左连接 Code select eu.unique_id,e.name from Employees e left join EmployeeUNI eu # left join 左连接 on e.id eu.id;

零基础小白到底适不适合学鸿蒙,请看完这篇再决定吧~

随着华为鸿蒙系统的问世&#xff0c;不少技术小白在是否学习鸿蒙的问题上犹豫不决。鸿蒙作为华为自主研发的操作系统&#xff0c;拥有许多独特的技术优势和市场前景。但对于小白来说&#xff0c;是否值得投入时间和精力去学习鸿蒙开发呢&#xff1f; 1.鸿蒙系统开发&#xff1…

【总结】对大量函数进行trace调用流程+国际AIS3题

现在混淆的主要目的之一就有让逆向分析人员不清楚函数的调用流程&#xff0c;给你一堆函数&#xff0c;加了高强度的OLLVM&#xff0c;更不能看了。那么Trace跟踪技术就显得很重要的&#xff0c;如果清楚了函数调用流程&#xff0c;那么逐个分析&#xff0c;距离成功不就很快了…

前段时间公司招人,面了一个要20K的,一问自动化只会点皮毛···

前段时间公司要招2个自动化测试&#xff0c;同事面了几十个候选人&#xff0c;发现了一个很奇怪的现象&#xff0c;面试的时候&#xff0c;如果问的是框架api、脚本编写这些问题&#xff0c;基本上个个都能对答如流&#xff0c;等问到实际项目的时候&#xff0c;类似“怎么从0开…

Spring - InitializingBean、@PostConstruct、@Bean(initMethod = “init“)和构造方法执行优先级比较

执行顺序优先级 构造方法 > postConstruct > afterPropertiesSet > init方法 代码案例 Component public class InitializingBeanTest implements InitializingBean {public InitializingBeanTest(){System.out.println("构造方法");}Overridepublic void…

Linux入门攻坚——16、Linux系统启动流程

CentOS5、6的启动流程 Linux&#xff1a;kernel rootfs&#xff0c;Linux系统就是内核加上根文件系统。 内核之上是库&#xff1a; 库&#xff1a;函数集合&#xff0c;function&#xff0c;函数具有调用接口&#xff0c;库函数不能单独执行&#xff0c;必须被其他程序调用…

【前端素材】推荐优质在线电影院商城电商网页Hyper平台模板(附源码)

一、需求分析 1、系统定义 在线电影商城是指一个通过互联网提供电影服务的平台&#xff0c;用户可以在该平台上浏览电影资源、租借或购买电影&#xff0c;以及观看在线影片。 2、功能需求 在线电影商城是指一个通过互联网提供电影服务的平台&#xff0c;用户可以在该平台上…

四川尚熠电子商务有限公司电商服务领域的佼佼者

在数字化浪潮席卷全球的今天&#xff0c;电子商务已成为推动企业转型升级、拓展市场渠道的重要力量。四川尚熠电子商务有限公司&#xff0c;作为一家专注于抖音电商服务的公司&#xff0c;凭借其独特的服务模式和创新的营销策略&#xff0c;在激烈的市场竞争中脱颖而出&#xf…

Linux 系统安装/卸载 Nginx教程

优质博文&#xff1a;IT-BLOG-CN 一、安装Nginx 【1】首先通过Nginx官网确定需要安装的版本&#xff0c;如果Linux联网则直接在Linux服务上使用wget命令将Nginx安装包下载到/usr/local/目录下&#xff1a; [rootxxx local]# wget -c http://nginx.org/download/nginx-1.22.1.…

【C++精简版回顾】14.(重载2)流重载

1.流重载 istream ostream 1.class class MM {friend ostream& operator<<(ostream& out, MM& mm);friend istream& operator>>(istream& in, MM& mm); public:MM() {}MM(int age,string name):age(age),name(name) {} private:int age;st…

Three.js-05坐标轴AxesHelper

1.构建对象 说明&#xff1a;参数一表示坐标轴的长度。红色代表 X 轴. 绿色代表 Y 轴. 蓝色代表 Z 轴. const axesHelper new THREE.AxesHelper( 1 ); 2.设置位置 axesHelper.position.y1 axesHelper.position.x1 axesHelper.position.z1 3. 网格 说明&#xff1a;立方体…

没有项目经历,该如何写简历?

没有项目经历&#xff0c;我该如何写简历 一、前言二、挖掘自己三、看现成的项目经验&#xff0c;转化成自己的语言1、硬件方面2、软件方面 四、最后 一、前言 相信有很多刚出来找工作的人会遇到这种情况&#xff0c;因为自身没有项目经历&#xff0c;投了很多的简历都石沉大海…

Day05:反弹SHELL不回显带外正反向连接防火墙出入站文件下载

目录 常规基本渗透命令 文件上传下载-解决无图形化&解决数据传输 反弹Shell命令-解决数据回显&解决数据通讯 防火墙绕过-正向连接&反向连接&内网服务器 防火墙组合数据不回显-ICMP带外查询Dnslog 思维导图 章节知识点&#xff1a; 应用架构&#xff1a;W…

Vue全家桶:vue2+vue3全部搞懂:第五篇,Vue的watch监视器

前提&#xff0c;建议先学会前端几大基础&#xff1a;HTML、CSS、JS、Ajax&#xff0c;不然不好懂 这一专栏知识将一次性将vue、vue2、vue3全部讲明白 一、何为watch监视器 其实我个人理解&#xff0c;就跟原本的表单的input事件一样&#xff0c;实时监视事件发生并同步更新数…

kswapd0挖矿病毒攻击记录

文章目录 一、起因与病毒分析1、起因2、阿里云告警2.1 恶意脚本代码执行12.2 恶意脚本代码执行22.3恶意脚本代码执行32.4 恶意脚本代码执行4 3、病毒简单分析3.1 病毒的初始化3.2 病毒本体执行 4、总结 二、ubuntu自救指南1、病毒清理2、如何防御 一、起因与病毒分析 1、起因 …

3D城市模型可视化:开启智慧都市探索之旅

随着科技的飞速发展&#xff0c;我们对城市的认知已经不再局限于平面的地图和照片。今天&#xff0c;让我们领略一种全新的城市体验——3D城市模型可视化。这项技术将带领我们走进一个立体、生动的城市世界&#xff0c;感受前所未有的智慧都市魅力。 3D城市模型通过先进的计算机…

Android的硬件接口HAL

我一直觉得&#xff0c;现代计算机不是一门科学&#xff0c;起码快算不上一门理科科学。上上下下全是人造&#xff0c;左左右右全是生意&#xff0c;用管理学&#xff0c;经济学去学计算机&#xff0c;也许更看得懂很多问题。HAL就是一个典型例子。 传统Linux绕开了微软的霸权…