Kettle 安装配置

文章目录

  • Kettle 安装配置
    • Kettle 安装
    • Kettle 配置
    • 连接 Hive

Kettle 安装配置

Kettle 安装

在安装Kettle之前,需要确定已经安装Java运行环境。Kettle需要Java的支持才能运行,JDK的版本最好是8.x的太新的也会出现bug。Kettle的7.1版本的太旧了,容易出现闪退,右击就死机等bug,9.x太新了也会有bug,下载8.2版本的安装包。如图所示:Kettle官方网站下载地址如下:Pentaho from Hitachi Vantara - Browse Files at SourceForge.net

在这里插入图片描述

在Windows系统上,可以直接双击“spoon.bat”文件启动Kettle。在Linux或Mac OS系统上,可以在命令行中输入“./spoon.sh”命令启动Kettle。

在这里插入图片描述

Kettle 配置

完成了Kettle的安装之后,我们还需要通过配置,使得Kettle可以与Hadoop 协同工作。通过提交适当的参数,Kettl可以连接Hadoop的HDFS、MapReduce、Zookeeper、Oozie、Sqoop 和Spark服务。在数据库连接类型中支持Hive和Impala。

在配置连接前,要确认Hadoop和Hive虚拟机中已经正确安装并启动。使用FTP工具,连接虚拟机,找到Hadoop和Hive中的配置文件:core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、hive-site.xml,合计5个,下载到Kettle根目录下的plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514目录下,覆盖原来Kettle自带的这些文件。

​在本机配置IP地址映射,修改C:\Windows\System32\drivers\etc\hosts文件,加入主机名与IP对应关系,填自己的IP和主机名。

192.168.88.102 hadoop102
192.168.88.103 hadoop103
192.168.88.104 hadoop104

在Spoon界面中,选择主菜单“工具”→“Hadoop Distribution…”,从弹出窗口中可以看到五种Shim。选择“Cloudera CDH 514”,点击OK 按钮确定后重启Spoon.


​接下来我们新建一个作业来测试一下Kettle与Hadoop的连接。在工作区左侧的树的“主对象树”标签中,右击“作业”点击“新建”。选择 Hadoop clusters→ 右键 New Cluster。

在这里插入图片描述
选择对话框中输入如图所示的属性值

在这里插入图片描述

​ Hadoop集群配置窗口中的选项及定义说明如下:

  • Cluster Name:定义要连接的集群名称,这里为hadoop。
  • Hostname(HDFS 段):Hadoop集群中NameNode节点的主机名。本例中在虚拟机的主机名已经设置为hadoop102。
  • Port(HDFS 段):Hadoop集群中NameNode节点的端口号。
  • Username(HDFS 段):HDFS的用户名,通过宿主操作系统给出,可以不填。这里为虚拟机登录用户名。
  • Password(HDFS 段):HDFS的密码,通过宿主操作系统给出,可以不填。虚拟机登录密码。
  • Hostname(JobTracker 段):Hadoop集群中JobTracker节点的主机名。如果有独立的JobTracker节点,在此输入,否则使用HDFS的主机名。
  • Port(JobTracker 段):Hadoop集群中JobTracker节点的端口号,不能与 HDFS 的端口号相同。
  • Hostname(ZooKeeper 段):Hadoop集群中Zookeeper节点的主机名,只有在连接Zookeeper 服务时才需要。
  • Port(ZooKeeper 段):Hadoop集群中Zookeeper节点的端口号,只有在连接Zookeepe服务时才需要。
  • URL(Oozie 段):Oozie WebUI的地址,只有在连接Oozie。

然后点击“测试”按钮,测试结果如图2-6所示。此时Oozi和Zookeeper 因为没有进行安装,所以必定会有连接失败的警告。“User Home Directory Access”这条报错则是由于当前 Kettle 是安装在宿主机的Windows系统中,Windows 上

运行的 Kettle 在连接 Hadoop 集群时,始终用本机用户连接 Hadoop 集群,因此User Home Directory Access会报错。将Kettle 安装到 Hadoop 所在的虚拟机中可以解决此问题。此处不影响后续的操作。

在这里插入图片描述

连接 Hive

接下来,我们再尝试使用Kettle连接Hive。Kettle把Hive当作一个数据库,支持连接Hive Server和Hive Server 2,数据库连接类型的名字分别为Hadoop Hive 和 Hadoop Hive 2。这里在Kettle中建立一个Hadoop Hive 2类型的数据库连接。

在远程连接虚拟机,进入 Hive 目录,然后启动 HiveServer2 服务,命令“hiveserver2”,


在Kettle工作区左侧的“主对象树”标签中,选择“DB 连接” → 右键“新建”,对话框中输入如图所示的属性值

在这里插入图片描述
上图的数据库连接配置窗口中的选项及定义说明如下:

  • Connection Name:定义连接名称,这里为 hive。
  • Connection Type:连接类型选择 Hadoop Hive 2。
  • Host Name:输入HiveServer2对应的主机名,这里是hadoop102。
  • Datebase Name:这里输入的default是Hive里默认的一个数据库名称。
  • Port Number:端口号输入hive.server2.thrift.port参数的值,我们连接时设置的端口号为10000。
  • User Name:用户名,这里为虚拟机登录用户名。
  • Password:密码,这里为虚拟机登录密码。

点击“测试”,应该弹出成功连接窗口

为了让其它转换或作业能够使用此数据库连接对象,需要将它设置为共享。选择 “DB连接”→ hive → 右键“共享”,然后保存作业。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/194403.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MQ - KAFKA 基础篇

##1、KAFKA的核心组件/API Producer API,它允许应用程序向一个或多个 topics 上发送消息记录 Consumer API,允许应用程序订阅一个或多个 topics 并处理为其生成的记录流 Streams API,它允许应用程序作为流处理器,从一个或多个主…

【springboot】启动失败 Failed to start bean ‘webServerStartStop‘

lsof -i:xxx 发现端口被占用 kill掉该进程

代码随想录算法训练营第五十三天【动态规划part14】 | 1143.最长公共子序列、1035.不相交的线、53. 最大子序和

1143.最长公共子序列 题目链接 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 求解思路 动规五部曲 1.确定dp数组及其下标含义: dp[i][j]:长度为[0, i - 1]的字符串text1与长度为[0, j - 1]的字符串text2的最长公共子序…

OpenWrt作为旁路由(网关)配置

目录 背景前提条件环境操作步骤物理层连接设置与主路由同一网段禁用IPv6取消LAN接口桥接防火墙配置 背景 本文简介如何配置OpenWrt,使其作为旁路由(网关)运行。 旁路由大概有以下这几种工作方式: 主路由开DHCP,网关未…

一文彻底弄懂动态规划【DP】

动态规划是一种重要的算法,它能解决很多看似复杂的问题,关键在于找到问题的子问题结构,并根据子问题的解决方式来解决原问题。首先要了解的是动态规划的基本思想: 动态规划的基本思想是:将一个复杂的问题分解为一系列…

深层神经网络(第四周)

这里省略了深层神经网络的前向传播和反向传播,内容和之前相似,不做过多描述。若今后需要,可以再补习。 一、为什么使用深层表示 解决问题时其实并不需要很大的神经网络,但是得有深度,得有比较多的隐藏层。这是为什么…

字符串转换整数

字符串转换整数 描述 : 请你来实现一个 myAtoi(string s) 函数,使其能将字符串转换成一个 32 位有符号整数(类似 C/C 中的 atoi 函数)。 函数 myAtoi(string s) 的算法如下: 读入字符串并丢弃无用的前导空格检查下一个字符&am…

select选择框里填充图片,下拉选项带图片

遇到一个需求&#xff0c;选择下拉框选取图标&#xff0c;填充到框里 1、效果展示 2、代码 <el-form-item label"工种图标" class"Form_icon Form_label"><el-select ref"select" :value"formLabelAlign.icon" placeholder&…

Python第三方库版本管理(管理虚拟环境)

序言 最近使用python发现会有使用不同项目时需要的三方包依赖版本不同&#xff0c;如果各个项目相互切换&#xff0c;那么会经常需要更新版本。比如numpy当前版本时1.26.2&#xff0c;需要它小于版本1.21&#xff0c;有没有像Java一样通过Maven依赖管理中的版本控制去管理这些…

Redis--12--Redis分布式锁的实现

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 Redis分布式锁最简单的实现如何避免死锁&#xff1f;锁被别人释放怎么办&#xff1f;锁过期时间不好评估怎么办&#xff1f;--看门狗分布式锁加入看门狗 redissonRe…

什么是跨站脚本攻击

跨站脚本攻击 1. 定义2. 跨站脚本攻击如何工作3. 跨站脚本攻击类型4. 如何防止跨站脚本攻击 1. 定义 跨站脚本攻击&#xff08;Cross-site Scripting&#xff0c;通常称为XSS&#xff09;&#xff0c;是一种典型的Web程序漏洞利用攻击&#xff0c;在线论坛、博客、留言板等共享…

数据结构和算法-线索二叉树中的线索化和在线索二叉树中找前驱后继

线索二叉树的概念 找到某个节点得按照遍历得到的序列开始遍历才能遍历全部节点&#xff0c;非常繁琐 中序线索二叉树 线索二叉树的存储结构 先序线索二叉树 后序线索二叉树 三种线索二叉树的对比 即对应前驱后后继判断标准不同 小结 二叉树的线索化 用土办法找中序前驱 当…

Prefix-Tuning 论文概述

Prefix-Tuning 论文概述 前缀调优&#xff1a;优化生成的连续提示前言摘要论文十问实验数据集模型实验结论摘要任务泛化性能 前缀调优&#xff1a;优化生成的连续提示 前言 大规模预训练语言模型(PLM)在下游自然语言生成任务中广泛采用fine-tuning的方法进行adaptation。但是f…

android studio安装SDK时无法勾选

这两天帮助学妹安装android studio安装SDK时无法勾选&#xff0c;记录一下最终解决办法。头大。 核心 360 问题 网上所有方法都尝试了包括挂梯子&#xff0c;改hosts&#xff0c;盘符权限等等。 最终解决下载360 使用这两个&#xff0c;DNS注意要用8.8.8.8的 成功解决

超硬核解析Mybatis动态代理原理!只有接口没实现也能跑?

文章目录 前言Mybatis dao层两种实现方式的对比原始Dao开发原始Dao开发的弊端 基于Mapper动态代理的开发方式 Mybatis动态代理实现方式的原理解析动态代理调用链路解析先给出链路调用结果1、调用方法的开始&#xff1a;session.getMapper2、DeaultSqlSession的getMapper3、Conf…

Selenium自动化测试:通过cookie绕过验证码的操作

验证码的处理 对于web应用&#xff0c;很多地方比如登录、发帖都需要输入验证码&#xff0c;类型也多种多样&#xff1b;登录/核心操作过程中&#xff0c;系统会产生随机的验证码图片&#xff0c;进行验证才能进行后续操作 ​解决验证码的方法如下&#xff1a; 1、开发做个万…

西瓜书-主要符号表

主要符号表 LaTeX符号说明How to read letter?\mathit{x}标量\boldsymbol{x}向量\mathrm{x}变量集\mathbf{A}矩阵\mathbf{I}单位阵\mathcal{X}样本空间或状态空间calligraphic X\mathcal{D}概率分布Ɗ calligraphic D\mathit{H}数据样本&#xff08;数据集)\mathcal{H}假设空…

基于OpenCV的手势1~5识别系统(源码&环境部署)

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义&#xff1a; 随着计算机视觉技术的快速发展&#xff0c;手势识别系统在人机交互、虚拟现实、智能监控等领域得到了广泛应用。手势识别系统可以通过分析人体的手势…

LTO编译器优化介绍以及开启方法

文章目录 LTO介绍LTO 开启方法 LTO介绍 LTO&#xff08;Link Time Optimization&#xff0c;链接时优化&#xff09;是一种在链接阶段进行优化的技术。传统的编译过程中&#xff0c;编译器仅能对单个编译单元进行优化。LTO 允许编译器看到跨编译单元的代码&#xff0c;从而进行…

jquery 判断是手机端还是电脑端

判断为手机端&#xff1a; var sUserAgent navigator.userAgent.toLowerCase(); var bIsIpad sUserAgent.match(/ipad/i) "ipad"; var bIsIphoneOs sUserAgent.match(/iphone os/i) "iphone os"; var bIsMidp sUserAgent.match(/midp/i) "mid…