pentaho DI--- Tutorial (spoon)

Pentaho Data Integration (PDI, also called Kettle),是pentaho的etl工具.虽然etl工具一般都用在数据仓库环境中,可是,PDI还是可以做以下事情:

1)在数据库或应用系统间迁移数据.

2)把数据导成为检系统

3)大数据的批量倒入数据库。

4)系统整合。

5)数据清洗。

PDI的使用非常简单,每一步基本上都可以听过图形化的工具来完成,而不需要写代码。从这个意义上说,PDI是面向元数据的。

PDI既可以作为一个单独工具使用,也可以作为pentaho的整个软件包的一部分使用。作为一个单独的工具,PDI支持各种数据源的输入和输出,包括:

文本文件;数据表;各种商业化的数据库引擎。PDI允许你对数据进行各种精细的控制。

现在,我们通过传统的“Hello world”的例子,来展示使用PDI是多么的简单。

1)下载PDI;

2)spoon的简介:

spoon是一个图形化的工具,用来设计和测试PDI要使用的过程等。设计测试完毕后,可以在终端窗口运行。

In Spoon, you build Jobs and Transformations. PDI offers two methods to save them:

  1. Database repository
  2. Files

3)例子

 a)源数据是一个csv文件,内容如下:

    last_name, name
Suarez,Maria
Guimaraes,Joao
Rush,Jennifer
Ortiz,Camila
Rodriguez,Carmen
da Silva,Zoe

b)经过转换后,变为xml文件,期望值如下:

- <Rows>
  - <row>
        <msg>Hello, Maria!</msg>
    </row>
  - <row>
        <msg>Hello, Joao!</msg>
    </row>
  - <row>
        <msg>Hello, Jennifer!</msg>
    </row>
  - <row>
        <msg>Hello, Camila!</msg>
    </row>
  - <row>
        <msg>Hello, Carmen!</msg>
    </row>
  - <row>
        <msg>Hello, Zoe!</msg>
    </row>
  </Rows>

下面是具体操作:

 第一步:菜单选择:文件--〉新建--〉转换

第二步:设置。对转换过程进行设置。如上图。

命名并保存。

使用 Steps and Hops构建转换的骨架。

  在转换里面:step是最小的单元步骤。step的种类非常繁多,基本上,可以归纳成几类,比如input和output,还有其他归类。每一个step都认为是

完成一个工作,比如恢复数据集合等。

而hop,是在两个step之间数据转换流动的图示。包含数据的起始和传递方向。

我们这次转换例子,包含三个步骤:

1)读取csv文件。

2)加入问候语句。

3)存成xml文件。

  • To the left of the workspace is the Steps Palette. Select the Input category.
  • Drag the CSV file onto the workspace on the right.
  • Select the Scripting category.
  • Drag the Modified JavaScript Value icon to the workspace.
  • Select the Output category.
  • Drag the XML Output icon to the workspace.

 

下面,选择第一个step,按住shift键,拖到第二个step上。

同样操作第二个到第三个。

现在,配置第一个step,双击它。可以看到:

这里还有2个步骤:get fields,和preview。

 

 

 

转载于:https://www.cnblogs.com/aomi/archive/2013/05/16/3082505.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/433535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux 系统调用

5.1.5 如何使用系统调用 如图5.2所示&#xff0c;用户应用可以通过两种方式使用系统调用。第一种方式是通过C库函数&#xff0c;包括系统调用在C库中的封装函数和其他普通函数。 图5.2 使用系统调用的两种方式 第二种方式是使用_syscall宏。2.6.18版本之前的内核&#xff0…

python3 csv读写_python3 csv

一、python3 csv 的中文乱码解决方案 将文件保存为 csv 格式的话&#xff0c;用记事本打开是没有问题的&#xff0c;但用excel 打开就会乱码&#xff0c;在网上找了些解决方法都是适用python2 这里提供下一个解决方案 >>> import csv >>> import codecs >…

通用返回_Springboot项目整合通用mapper

1.简介什么是通用mapper什么是通用mapper&#xff0c;用一句话概括就是&#xff0c;它就是一个辅助mybatis开发的组件&#xff0c;它不是替代mybatis&#xff0c;而是使mybatis更方便的开发。通用mapper提供极其方便的单表的增删改查&#xff0c;可以按照自己的需要使用通用方法…

C++总结笔记(二)面向对象

面向对象&#xff08;OOP&#xff09; 面向对象&#xff08;Object-oriented programming&#xff09;程序设计是一种适用于设计、开发各类软件的泛型&#xff1b;面向对象采用了自顶向下&#xff0c;逐步求精的原则&#xff1b; 面向对象主要包括对象、类、数据抽象、继承、动…

Linux下获取线程TID的方法——gettid()

如何获取进程的PID&#xff08;process ID&#xff09;? 可以使用&#xff1a; #include <unistd.h> pid_t getpid(void); 通过查看头文件说明&#xff0c;可以得到更详细的信息&#xff1a;find /usr/include -name unistd.h /usr/include/asm/unistd.h /usr/…

差值平方和匹配_机器学习实战 | 简单目标识别与意图分析之模板匹配

(点击上方快速关注并设置为星标&#xff0c;一起学Python)一天&#xff0c;我正在学校楼下撸猫&#xff0c;同学发来消息&#xff0c;他的老师给了他一个研究课题&#xff0c;大致的方向是对图片或者视频里面的内容进行识别&#xff0c;然后判断意图&#xff0c;而且举了个例子…

python切片操作的几种格式_【Python杂记】第四篇:序列切片

使用python处理问题的过程中&#xff0c;经常会遇到从某个序列中抽取部分值的情况。“切片”操作正是专门用于实现这一目的的方法。 实际上&#xff0c;可以通过单次或多次切片操作实现任意目标值切取。切片操作的基本语法很简单&#xff0c;下面就以列表来举例&#xff0c;说明…

grep用法

命令选项-?同时显示匹配行上下的&#xff1f;行&#xff0c;如&#xff1a;grep -2 pattern filename同时显示匹配行的上下2行。-a, --text等价于匹配text,用于&#xff08;Binary file (standard input) matches&#xff09;报错-b&#xff0c;--byte-offset打印匹配行前面打…

vector利用swap()函数进行内存的释放

首先&#xff0c;vector与deque不同&#xff0c;其内存占用空间只会增长&#xff0c;不会减小。比如你首先分配了10,000个字节&#xff0c;然后erase掉后面9,999个&#xff0c;则虽然有效元素只有一个&#xff0c;但是内存占用仍为10,000个。所有空间在vector析构时回收。 1、…

SAP常用术语

SD 常用术语汇集 SD (Sales and Distribution) : 销售和分销 Sold-to-party : 下订单客户 Ship-to-party : 收货之客户 Bill-to-party : 仅指收发票之客户 Payer-to-party : 付款人 Customer Code : 客户代码 Sales Organization : 销售业务组织&#xff0c;指台达的某一事业部…

如何创建_如何创建自己的微信圈子?圈子创建运营指南

原创&#xff1a;爱捣鼓的猿 袁小猴最近很多小伙伴在问微信圈子是什么&#xff0c;如何才能创建自己的微信圈子&#xff1f;于是小编花时间去研究了下&#xff0c;整理了一些微信圈子的规则&#xff0c;方便大家使用。一、微信圈子是什么&#xff0c;圈子入口&#xff1f;其实曾…

python爬虫淘宝评论_Python爬取淘宝店铺和评论

1 安装开发需要的一些库(1) 安装mysql 的驱动&#xff1a;在Windows上按winr输入cmd打开命令行&#xff0c;输入命令pip install pymysql&#xff0c;回车即可。(2) 安装自动化测试的驱动selenium&#xff1a;在命令行中输入pip install selenium回车。(3) 安装标签解析库pyque…

A20 网卡驱动分析

网卡芯片为realteak 8201 1. net_device结构体的分配和注册 1) "/drivers/net/ethernet/sun7i/sun7i_wemac.c" wemac_probe() ndev alloc_etherdev(sizeof(struct wemac_board_info)); 分配 ret register_netdev(ndev); …

安装用户debian7安装oracle11g

改章节笔者在北京游玩的时候突然想到的...这几周就有想写几篇关于安装用户的笔记&#xff0c;所以回家到之后就奋笔疾书的写出来发表了 apt-get install gcc g make binutils libc6 libc6-dev libstdc6 libstdc5 rpm gawk alien ksh lesstif2 libaio1 linux-headers elfutils…

python交互式编程客户端_【python】UDP网络编程:实现服务端与客户端的交互、简单的AI智能模式...

关于UDP网络编程UDP(user datagram protocol)的中文叫用户数据报协议&#xff0c;属于传输层。UDP是面向非连接的协议&#xff0c;它不与对方建立连接&#xff0c;而是直接把要发的数据发给对方。【UDP网络编程的特点】1&#xff0c;每个数据中都给出了完整的地址信息&#xff…

python tkinter pack 同一行_用python tkinter中的一行连接2个复选按钮

我有一个程序在画布中放置复选按钮&#xff0c;当选项(另一个复选按钮)被选中时。我有另一个选项(另一个复选按钮)来画线。为了画线&#xff0c;首先我应该选择checkbutton“draw a line”&#xff0c;然后单击放置在画布中的任何checkbutton&#xff0c;另一个单击画布上的任何…

各个层次的gcc警告

各个层次的gcc警告 从上到下覆盖 变量(代码)级:指定某个变量警告 int a __attribute__ ((unused)); 指定该变量为"未使用的".即使这个变量没有被使用,编译时也会忽略则个警告输出. 文件级:在源代码文件中诊断(忽略/警告) 语法: #pragma GCC diagnostic [er…

【转】C++ GetLastError() 返回值对应表

〖0〗-操作成功完成。〖1〗-功能错误。〖2〗-系统找不到指定的文件。〖3〗-系统找不到指定的路径。〖4〗-系统无法打开文件。〖5〗-拒绝访问。〖6〗-句柄无效。〖7〗-存储控制块被损坏。〖8〗-存储空间不足&#xff0c;无法处理此命令。〖9〗-存储控制块地址无效。〖10〗-环境错…

hdfs 多个文件合并_hadoop学习笔记3 hadoop程序将本地文件夹中多个文件,合并为一个文件并上传到hdfs中--梦飞翔的地方(梦翔天空)...

今天梦翔儿&#xff0c;成功实现hadoop编程&#xff0c;将本地文件夹中多个文件&#xff0c;合并为一个文件并上传到hdfs中直接上代码&#xff1a;PutMerge.javaimport java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataIn…

js 获取鼠标在画布的位置_云凤蝶如何打造媲美 sketch 的自由画布

在 Design Tools 中&#xff0c;组件间的对齐与吸附功能是否好用是决定其画布是否可以高效进行产品设计的关键因素。云凤蝶作为一款快速制作高品质中后台应用的 hpaPaaS 平台&#xff0c;同样拥有自由拖拽的可视化画布。那么在云凤蝶的自由画布中&#xff0c;对齐规则是怎样的&…