Cloudera虚拟机配置(虚拟机环境自带Hadoop、Impala等大数据处理应用)

        上学期的大数据处理课程,笔者被分配到Impala的汇报主题。然而汇报内容如果单纯只介绍Impala的理论知识,实在是有些太过肤浅,最起码得有一些实际操作来展示一下Impala的功能。但是Impala的配置实在是有些困难与繁琐,于是笔者通过各种渠道找到了Cloudera公司(Hadoop数据管理软件与服务提供商)在早些年发行的虚拟机文件,通过配置该虚拟机可以直接获得一个较为完整的大数据处理应用环境(包括Hadoop、Impala等数种大数据处理应用)。

【虚拟机文件资源已上传百度网盘,没办法,这个虚拟机文件实在是太大了(5+G),要不然我就直接在博客上资源绑定了】

链接:https://pan.baidu.com/s/1hRhJySvZTqmxUvqZJ3tYuQ?pwd=a6t3 
提取码:a6t3 
 

虚拟机软件

        笔者使用的虚拟机软件是Oracle VM VirtualBox(图标如下),关于该软件的详细安装步骤请恕笔者不在此赘述,直接进入配置阶段。

 配置cloudera-quickstart虚拟机

将文件夹全部下载下来后,文件夹里应该有这两个文件,不能有缺漏。

确认无误后,打开虚拟机,导入该虚拟机文件,如下图。

在下列划横线处选择下载好的虚拟机文件路径

(选择图标为黄色方块的那个文件,文件格式为ovf)

进入下一步,该页面全部采用默认设置即可👇 

设置完成后,点击导入即可在虚拟机首页看到虚拟机文件。但此时还不能直接运行,因为该虚拟机对于内存和显存都有一定要求,必须进行额外的设置才能满足虚拟机运行的条件,笔者尝试了一种可正常运行的设置方案如下:

首先点击设置

在“系统-主板”选项中,将内存改为7500MB(也可以再稍微调大一些,根据实际情况来)

在“系统-处理器”界面,将“处理器数量”更改为4个。

在“显示-屏幕”选项中,将“显存大小”更改为28MB
完成如上设置后,点击运行虚拟机,一般情况下即可正常完成运行。虚拟机的启动过程比较缓慢,需要耐心等待,启动成功后虚拟机如下图所示。该虚拟机中基本包含了大数据处理的所有基本应用(包括Hadoop、Impala、Hive等),虚拟机的操作系统是Red Hat,跟Ubuntu差不多,启动这些应用可以直接通过终端命令行进行操作。 

实操应用

本部分主要对Impala的大数据处理操作进行一些实操演示,并将其与Hive进行一个简单对比。

Impala适用于处理在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C++和Java编写的开源软件。与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。

简而言之,它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。但是Impala只能处理PB级别的数量级,更大数量级的数据处理起来性能很差。它的主要应用在于处理实时数据、进行交互计算。

接下来进行Impala的相关操作

首先启动Impala,如下在命令行中直接输入“impala-shell”。

Impala的控制语句和数据库的控制语句基本相同,以下演示几个基本命令。

【创建数据库】

【向表格中插入数据】

在Impala中的相关操作,都可以在虚拟机中自带的Hue中进行可视化数据查看,如下展示了笔者通过Impala插入了若干数据后查看的结果。

为了更好地理解Impala”快“的特点,笔者简单插入了20个数据,并将impala和hive进行取数据的时间对比,比较两者的速度差异。(左侧为hive,右侧为impala)

笔者进行多次操作确保时间达到相对稳定的值,可以看到,在较少样本的情况下,impala仍然能比hive快0.06s。

当然以上的对比差异可能不够显著,主要是因为样本的数量实在过少,但是根据笔者搜索到的一个大样本数据测试显示,impala在实时处理、交互计算方面确实存在明显的优势。


以上就是本篇博客的全部内容,欢迎大家下载资源进行测试。cloudera的虚拟机文件近年来已经不再发行了,本篇博客中的虚拟机文件差不多算是绝品了,笔者当时能找到这个文件真的是费劲了九牛二虎之力啊,实属不易~果然做研究是必须要下大功夫的!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/712703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uni-app去除页面头部的标题栏

uniapp项目 每个界面都会有一个标题栏 配置在我们项目根目录的 pages.json中 我们将它全部去掉 上面还是有一条黑的 体验非常差 我们只需要在pages.json中 指定page的 style中加入 "navigationStyle": "custom"对应的page 就没有这个标题栏了

【王道数据结构】【chapter8排序】【P371t6】

试设计一个算法&#xff0c;判断一个数据序列是否构成一个小根堆&#xff08;下面代码中的堆排序的部分仅仅是为了方便设计测试用例&#xff09; #include <iostream> #include<time.h> #include<stdlib.h>int * buildarray(int size) {int* tmp(int *) mall…

蓝桥杯备赛第四篇(高级数据结构)

1.树状数组 public static int getSum(int i) {int sum 0;for (int j i; j > 1; j - lowbit(j)) {sum tree[j];}return sum;}public static void update(int i, int update) {for (int j i; j < n; j lowbit(j)) {tree[j] update;}}public static int lowbit(int n…

00x集体——cad 中DB(database)对象—— vba实现

Database 对象 外部参照块的内容。 VBA 类名 AcadDatabase 创建方法 不可使用 访问途径 Block.XRefDatabase 该对象提供对外部参照块的访问。只有IsXRef属性为TRUE的块才适用。 方法 CopyObjects 属性 Application Blocks Dictionaries DimStyles Ele…

Mybatis 主从表有名字相同,只能查询出一条数据

Mybatis 主从表有名字相同&#xff0c;只能查询出一条数据 重新命名后&#xff0c;可以正常查询

力扣SQL50 使用唯一标识码替换员工ID 查询

Problem: 1378. 使用唯一标识码替换员工ID 思路 left join&#xff1a;左连接 Code select eu.unique_id,e.name from Employees e left join EmployeeUNI eu # left join 左连接 on e.id eu.id;

勒索病毒防范建议——企业缓解措施

勒索病毒防范建议——企业缓解措施 为公司的作业系统和应用程序保持为更新版本。 应用最新的安全补丁&#xff0c;确保关键软件是最新的&#xff0c;移动设备亦一样。可以的话&#xff0c;启用自动更新选项。 定時更新将确保设备更安全&#xff0c;性能亦更好。评估是否需要安…

零基础小白到底适不适合学鸿蒙,请看完这篇再决定吧~

随着华为鸿蒙系统的问世&#xff0c;不少技术小白在是否学习鸿蒙的问题上犹豫不决。鸿蒙作为华为自主研发的操作系统&#xff0c;拥有许多独特的技术优势和市场前景。但对于小白来说&#xff0c;是否值得投入时间和精力去学习鸿蒙开发呢&#xff1f; 1.鸿蒙系统开发&#xff1…

【总结】对大量函数进行trace调用流程+国际AIS3题

现在混淆的主要目的之一就有让逆向分析人员不清楚函数的调用流程&#xff0c;给你一堆函数&#xff0c;加了高强度的OLLVM&#xff0c;更不能看了。那么Trace跟踪技术就显得很重要的&#xff0c;如果清楚了函数调用流程&#xff0c;那么逐个分析&#xff0c;距离成功不就很快了…

前段时间公司招人,面了一个要20K的,一问自动化只会点皮毛···

前段时间公司要招2个自动化测试&#xff0c;同事面了几十个候选人&#xff0c;发现了一个很奇怪的现象&#xff0c;面试的时候&#xff0c;如果问的是框架api、脚本编写这些问题&#xff0c;基本上个个都能对答如流&#xff0c;等问到实际项目的时候&#xff0c;类似“怎么从0开…

Spring - InitializingBean、@PostConstruct、@Bean(initMethod = “init“)和构造方法执行优先级比较

执行顺序优先级 构造方法 > postConstruct > afterPropertiesSet > init方法 代码案例 Component public class InitializingBeanTest implements InitializingBean {public InitializingBeanTest(){System.out.println("构造方法");}Overridepublic void…

《滴滴》24校招Java后端

1.问项目 2.Java的基本数据类型&#xff1f; 3.浮点型从二进制的视角是怎么存储的&#xff1f;&#xff08;IEEE 754&#xff09;小数位如何计算出来的&#xff1f; 4.浮点型的正4.5和负4.5转为int会怎么样&#xff1f; 5.Int型999除float的100再乘100结果&#xff1f; 6.Strin…

实现窗帘系统监控功能-代码实现

自定义监控指标是实现窗帘系统监控功能的关键一步。这通常涉及到你想要跟踪和衡量的系统特定方面的数据。以下是一些步骤和考虑因素&#xff0c;可以帮助你自定义监控指标&#xff1a; 1.明确监控目标&#xff1a; 确定你想要监控的窗帘系统的具体方面。这可能包括窗帘的开关状…

基于yolov8的半自动标注

一、前言介绍 在深度学习领域中&#xff0c;标注是一项非常重要的工作&#xff0c;因为许多深度学习模型都依赖于有标注的数据进行训练。然而&#xff0c;标注数据是一个费时费力的工作&#xff0c;因此人们希望有一种方式来对标注过程进行自动化。这就是“半自动标注”的来源…

Linux入门攻坚——16、Linux系统启动流程

CentOS5、6的启动流程 Linux&#xff1a;kernel rootfs&#xff0c;Linux系统就是内核加上根文件系统。 内核之上是库&#xff1a; 库&#xff1a;函数集合&#xff0c;function&#xff0c;函数具有调用接口&#xff0c;库函数不能单独执行&#xff0c;必须被其他程序调用…

【前端素材】推荐优质在线电影院商城电商网页Hyper平台模板(附源码)

一、需求分析 1、系统定义 在线电影商城是指一个通过互联网提供电影服务的平台&#xff0c;用户可以在该平台上浏览电影资源、租借或购买电影&#xff0c;以及观看在线影片。 2、功能需求 在线电影商城是指一个通过互联网提供电影服务的平台&#xff0c;用户可以在该平台上…

四川尚熠电子商务有限公司电商服务领域的佼佼者

在数字化浪潮席卷全球的今天&#xff0c;电子商务已成为推动企业转型升级、拓展市场渠道的重要力量。四川尚熠电子商务有限公司&#xff0c;作为一家专注于抖音电商服务的公司&#xff0c;凭借其独特的服务模式和创新的营销策略&#xff0c;在激烈的市场竞争中脱颖而出&#xf…

Linux 系统安装/卸载 Nginx教程

优质博文&#xff1a;IT-BLOG-CN 一、安装Nginx 【1】首先通过Nginx官网确定需要安装的版本&#xff0c;如果Linux联网则直接在Linux服务上使用wget命令将Nginx安装包下载到/usr/local/目录下&#xff1a; [rootxxx local]# wget -c http://nginx.org/download/nginx-1.22.1.…

【C++精简版回顾】14.(重载2)流重载

1.流重载 istream ostream 1.class class MM {friend ostream& operator<<(ostream& out, MM& mm);friend istream& operator>>(istream& in, MM& mm); public:MM() {}MM(int age,string name):age(age),name(name) {} private:int age;st…

Three.js-05坐标轴AxesHelper

1.构建对象 说明&#xff1a;参数一表示坐标轴的长度。红色代表 X 轴. 绿色代表 Y 轴. 蓝色代表 Z 轴. const axesHelper new THREE.AxesHelper( 1 ); 2.设置位置 axesHelper.position.y1 axesHelper.position.x1 axesHelper.position.z1 3. 网格 说明&#xff1a;立方体…