FineBI实战项目一(3):Kettle实现ETL到数据仓库

目前,finebi_shop_bi 中是没有任何数据的,是一个空的数据库。而后续我们的所有数据分析都将在该数据库中进行。我们第一件事情就是要将 「finebi_shop」数据库中的所有表抽取到「finebi_shop_bi」数据库中。要抽取并装载数据到「finebi_shop_bi」中,我们首先要在「finebi_shop_bi」中创建对应的表。

1 数据抽取业务分析

我们已经大概熟悉了上面的6张表,这6张表不是所有数据一次性原封不动地同步到数据仓库中,而是有一些处理细节。考虑以下几个业务场景:

  1. 每一天都需要进行订单的分析,例如:2020年4月18日一共有多少笔订单、订单的总额是多少。
  2. 每一天都需要进行用户的分析,例如:2020年4月18日一共注册有多少个用户。
  3. 商品分类、区域的变化率很少,因为分类、区域几乎都是常年不变的。

商品的数据相对变化频率较高,因为可能每天都会有商品信息的更新。

结合上述的业务场景,我们可以确定数据的抽取周期:

表名说明装载表抽取方式抽取周期
finebi_areas行政区域表ods_ifinebi_areas全量同步抽取每周
finebi_goods商品表ods_finebi_goods全量同步抽取每天
finebi_goods_cats商品分类表ods_finebi_goods_cats全量同步抽取每周
finebi_orders订单表ods_finebi_orders增量同步抽取每天
finebi_order_goods订单明细表ods_finebi_order_goods增量同步抽取每天
finebi_users用户信息表ods_finebi_users增量同步抽取每天
  • 全量同步抽取:将所有数据同步抽取到数据仓库
  • 增量同步抽取:只抽取抽取新增的数据到数据仓库

2 关于 ods 的意义

ODS(英语:Operational 业务/ Data 数据/ Store 存储)是一种数据架构或数据库设计的概念,出现原因是来自于当需要集成来自多个系统的数据,结果又要给一或多个系统使用时。

数据仓库的ods表是将业务系统数据库表原样抽取进来,结构几乎是一样的,只不过加了一个抽取数据的日期字段。

3 每周数据抽取作业开发

3.1 开发行政区域数据抽取

finebi_areas行政区域表全量同步抽取每周

根据之前的分析,行政区域表为全量同步抽取,所以我们只需要全部抽取到数据仓库中建表即可。但需要注意:我们需要清晰地标识出数据是哪天抽取过来的,所以需要额外添加一个当前日期的字段。

(1)构建Kettle数据流组件图

(2)配置表输入组件

新建数据库连接,点击新建

配置数据库连接信息

获取读取的表信息

SELECT *, current_date() as dt FROM finebi_areas

通过预览数据,可以看到,除了原有 finebi_areas 表的所有字段之外,还增加了一个当前日期字段,后续作为数据的抽取日期。

(3)配置插入/更新组件

配置数据仓库的连接

指定目标表,目标表的名称为:业务系统数据库表加一个 ods_ 前缀。

点击「SQL」按钮执行

执行转换

查看数据表

(4)构建作业,每天执行一次

创建作业

配置转换

配置定时运行:每天00:05同步一次

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/604708.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法刷题】总结规律 算法题目第1讲:双指针处理数组题目 带视频讲解 -针对考研/复试/面试 解决痛点:1. 刷了就忘 2.换一道相似的题就不会

算法题目第一讲:双指针处理数组题目 解决力扣: [344. 反转字符串][167. 两数之和 II - 输入有序数组][26. 删除有序数组中的重复项][27. 移除元素][283. 移动零][5. 最长回文子串] 配合b站视频讲解食用更佳:https://www.bilibili.com/video/BV1vW4y1P…

CAN通信(报文测试)

问题:对安全模块的程序进行修改,将18串采样温度改成32串采样温度,相应can通信的帧数存在一定的变化,利用广成科技CANtest上位机软件或者内部上位机观察报文发送和接收情况。 1、内部上位机 内部上位机,设置相应的波特…

VCG 创建指定三维Mesh网格

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 VCG为我们提供了很多预先定义好的Mesh对象,如四面体、球体、正方体等等,相关代码如下所示。 二、实现代码 //VCG #include <vcg/complex/algorithms/create/platonic.h> #include <wrap/io_trimesh/imp…

数据密集型应用系统设计--3.2 事务处理与分析处理

在商业数据处理的早期阶段&#xff0c;写人数据库通常对应于商业交易场景&#xff0c;例如销售、订单、支付员工工资等。尽管后来数据库扩展到了不涉及金钱交易的领域&#xff0c;事务一词仍然存在&#xff0c;主要指组成一个逻辑单元的一组读写操作。 事务不一定具有ACID&…

.pings勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

导言&#xff1a; 随着科技的发展&#xff0c;网络空间中的威胁也日益猖獗&#xff0c;其中之一就是勒索病毒&#xff0c;而.pings 勒索病毒则是其中的一种。本文将深入介绍.pings 勒索病毒的特征、恢复被其加密的数据文件的方法&#xff0c;并提供预防措施&#xff0c;以保障…

机械硬盘损坏导致win11卡顿和机箱滴滴报警一例

从至少半年前&#xff0c;机箱就一直会滴滴叫。不是开机报警内存不过那种&#xff0c;声音比较小。间距也比较大。当时也不知道怎么回事。同时&#xff0c;win11经常卡顿。cpy一下子100%&#xff0c;根本动不了。重装系统也解决不了。到了这两天&#xff0c;系统进不去了。表现…

使用metricbeat 监控多ES集群

背景 ES 本身自带 监控&#xff0c;属于xpack 中的内容&#xff0c;为商业版&#xff0c;需要收费&#xff1b; 并且 monitor 功能必须要在security开启后才能使用&#xff0c;还有就是集群监控自己&#xff0c;将采集到的性能数据保存到本集群&#xff0c;这是一个比较差的设…

分布式事务(1)

事务是操作数据库中某个数据项的一个程序执行单元。具有4个属性&#xff1a;原子性、一致性、隔离性、持久性。 事务四个特征 1、Atomic原子性 事务中包含的各项操作在一次执行过程中&#xff0c;要么全部执行成功&#xff0c;要么全部不执行。 2、Consistency一致性 事务…

统信专业版编译electron问题总结

一、环境信息 操作系统版本:统信专业版本1060 CPU架构:arm64 electron版本:v25.9.5 chromium版本:114 打开开发者权限 二、electron编译问题总结 2.1 编译参数生成问题 在执行 gn gen out/Release --args=“import(”//electron/build/args/release.gn")"过程…

PHP知识点复习

史上最全爆肝整理PHP入门笔记&#xff08;总结分享&#xff09;-php教程-PHP中文网 PHP开发学习资料集合(入门进阶必备&#xff0c;建议收藏) - 知乎 https://www.cnblogs.com/li1056822533/p/6409989.html 1&#xff0e; LAMP具体结构不包含下面哪种&#xff08;A &#xf…

grpc c++使用示例

文章目录 1 proto文件编辑2 生成C代码2.1 生成protobuf&#xff08;反&#xff09;序列化代码2.2 生成服务框架代码 3 同步server端3.1 命名空间3.2 重写服务3.3 启动服务3.4 完整代码 4 同步client端4.1 命名空间4.2 定义客户端4.3 完整代码 5 异步server端 手把手写rpc范例流…

2023年信息安全管理与评估—应用程序安全解析

第三部分 应用程序安全(90分) 目录 第三部分 应用程序安全(90分)

autodl学术加速

今天使用autodl加载预训练BERT模型失败&#xff0c;在官方文档里面找到了官方给的代理使用方法。 直接在bash输入&#xff1a; 开启学术加速&#xff1a; source /etc/network_turbo取消学术加速&#xff1a; unset http_proxy && unset https_proxy据说是只能访问这…

java线程池参数及合理设置

java线程池参数及合理设置 线程池的7大核心参数 corePoolSize 核心线程数目核心线程会一直存活&#xff0c;及时没有任务需要执行&#xff0c;当线程数小于核心线程数时&#xff0c;即使有线程空闲&#xff0c;线程池也会优先创建新线程处理当设置allowCoreThreadTimeouttru…

目标检测YOLO实战应用案例100讲-多目标检测及追踪(续)

目录 3.3 改进CenterNet网络(Improved-CenterNet) 3.3.1多特征融合模块的设计 3.3.2 DCN模块设计

关键字、标志符、变量

1、关键字 1.1、定义 定义&#xff1a;被JAVA语言赋予了特殊含义&#xff0c;用作专门用途的字符串&#xff08;或单词&#xff09; 特点&#xff1a;全部关键字都是小写字母 上源码&#xff1a; 代码中定义类的关键字class&#xff0c;定义一个订单控制器类 ​​​​​​​…

【Unity美术】如何用3DsMax做一个水桶模型

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;Uni…

echarts图表会残留上一条数据的折线 setOption参数的第二个坑

记一下小坑 因为我的echarts图表的 series 是循环渲染上去的 所以他可能会有一条 或多条 我展示完多条的图表后 关闭 打开单条数据的图表 发现 他会残留上一个图表的数据 显示多条 之前我还以为是后端返回错了 但是log打印和查看请求数据 确实发现是我这边的问题 原因&#…

【Java集合篇】HashMap的hash方法是如何实现的?

HashMap的hash方法是如何实现的? ✔️ 典型解析✔️ 拓展知识仓✔️ 使用&代替%运算✔️扰动计算 ✔️ 典型解析 hash 方法的功能是根据 Key 来定位这个K-V在链表数组中的位置的。也就是hash方法的输入应该是个Object类型的Key&#xff0c;输出应该是个int类型的数组下标。…

Kibana相关问题及答案(2024)

1、如何在Kibana中创建一个仪表板&#xff1f; 在Kibana中创建一个仪表板涉及到在其界面中完成几个主要步骤的过程。这里是详细的分步指南&#xff1a; 第 1 步&#xff1a;设计和规划 在你开始之前&#xff0c;思考以下问题将帮助你设计高效的仪表板&#xff1a; 数据源&a…