Hive 数仓及数仓设计方案

数仓(Data Warehouse)

数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供一个统一、规范的出口。做数仓就是做方案,是用数据治理企业的方案。

数据仓库的特点

  1. 面向主题集成
    • 公司中不同的部门都会去数据仓库中拿数据,把独立从数据仓库中拿数据的单元,称为一个主题。
    • 数据仓库中的数据是从各个分散的数据库中抽取出来的,需要进行完整集合,还要进行数据处理。
  2. 涉及的数据操作主要是查询

数仓的本质

能够完整记录某个对象在一段时期内的变化情况的存储空间。随着时间变化不断增加新的数据内容,不断删去旧的数据内容。

数仓设计方案

1. 需求分析

  • 找谁了解需求?
    • 老板:大方向
    • 运营人员:具体,多问几个运营人员
    • 行业标准规范,行业运营(搜索能力)
    • 行业专家

2. 确定主题指标体系

典型领域指标

  • 电商:转化
  • 新闻:浏览
  • 社交媒体:活跃度
  • 多媒体:转化、活跃

数据挖掘、人工智能

  • 确定历史事实数据间的因果关系
  • 筛选出不必要的重复指标

命题:主题

事实数据
  • Who + When + Where + How + What
  • 谁 何时 何地 方式 做了什么
电商示例
  • 传统订单:
    • Who + When + Where
    • order_id, user_id, purchase_time, store_id
  • 订单详情:
    • order_detail_id, order_id, product_id, purchase_count, price
  • 订单支付:
    • pay_id, pay_type, pay_account, pay_time
  • 大数据订单(着重对HOW扩展):
    • How:
      • 搜索直接来源
        • 关键词搜索
        • 分类检索
        • 主页推荐
        • 外链引流
      • 分析商品搜索过程:
        • 在哪些商品处停留?
        • 有哪些同样感兴趣的商品?
        • 什么时候就开始关注这个商品?
        • 是否存在其他行为(收藏、加入购物车、下单、购买)?
      • 处理其他行为:
        • 定时提醒"XXX商品已被您收藏30天但还没有购买…"

3. 确定数据标准

  • 原始数据:行为数据(因) RDMBS(果)
  • 基于原始数据预聚合数据

4. 数仓设计

数据规模,成本核算

数据埋点获得埋点数据
  • 前端埋点:类似于视频浏览过程数据,只能通过前端埋点
  • 后端埋点:类似于支付,后端才是直接和第三方支付接口交互的。
  • 能用后端埋点就用后端埋点,前端埋点是不得已采用
埋点数据格式与容量
  • 公共数据格式
  • 事件数据
服务器集群配置
  • 买/租
技术选型与服务器环境搭建
  • hdfs
  • yarn
  • hive
  • hbase
  • zk
  • spark

5. 数据采集

  • 行为日志 -> flume -> hdfs
  • RDBMS -> sqoop -> hbase

6. 操作数仓

  • plsql
declare 变量名 数据类型 = 初值;set 变量 =;print '常量' || 变量vim ~/pl_demo.ql------------------------------------------------------------create function FUNC_NAME(name TYPE,...) returns RETURN_TYPEbegindeclare VAR = INIT_VALUE;...print 'CONSTANTS' || VAR;end;call FUNC_NAME(...);--------------------------------------------------------------案例:自定义函数生成日期维度表vim pl_demo.ql------------------------------------------------------------------------------------------------------------ 定义存储过程create procedure getSumAmount()begindeclare sum_amount decimal(10,2) = 0.0;select sum(order_amount) into sum_amount from yb12211_2.hive_internal_par_cluster_regex_test1w;print 'sum of order amount : ' || sum_amount;end;-- 调用存储过程call getSumAmount();----------------------------------------------------------------------------------------------------------执行plsql文件hplsql -f FILE_PATH
  • hive -e “SHOW DATABASES”
  • hive -f QL_FILE_PATH

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/641748.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

框架概述和MyBatis环境搭建

学习视频:1001 框架概述_哔哩哔哩_bilibili 目录 框架概述 1.1为什么要学 1.2框架的优点 1.3 当前主流框架 Spring框架 Spring MVC框架 MyBatis框架 ​编辑 Spring Boot框架 Spring Cloud框架 1.4 传统JDBC的劣势 MyBatis 2.1 MyBatis概述 ORM框架工作原…

分布式日志

1 日志管理 1.1 日志管理方案 服务器数量较少时 直接登录到目标服务器捞日志查看 → 通过 rsyslog 或shell/python 等脚本实现日志搜集并集中保存到统一的日志服务器 服务器数量较多时 ELK 大型的日志系统,实现日志收集、日志存储、日志检索和分析 容器环境 …

编程语言MoonBit新增矩阵函数的语法糖

MoonBit更新 1. 新增矩阵函数的语法糖 新增矩阵函数的语法糖,用于方便地定义局部函数和具有模式匹配的匿名函数: fn init {fn boolean_or { // 带有模式匹配的局部函数true, _ > true_, true > true_, _ > false}fn apply(f, x) {f(x)}le…

【分布式技术】注册中心zookeeper

目录 一、ZooKeeper是什么 二、ZooKeeper的工作机制 三、ZooKeeper特点 四、ZooKeeper数据结构 五、ZooKeeper应用场景 ●统一命名服务 ●统一配置管理 ●统一集群管理 ●服务器动态上下线 ●软负载均衡 六、ZooKeeper的选举机制 七、实操部署ZooKeeper集群 步骤一…

compose部署tomcat

1.部署tomcat 1.1.下载相关镜像tomcat8.5.20 $ docker pull tomcat:8.5.20 1.2 在/data目录下创建tomcat/webapps目录 mkdir -p /data/tomcat/webapps 注意:这里是准备将宿主机的/data/tomcat/webapps映射到容器的 /usr/…

LC 2765. 最长交替子数组

2765. 最长交替子数组 难度: 简单 题目大意: 给你一个下标从 0 开始的整数数组 nums 。如果 nums 中长度为 m 的子数组 s 满足以下条件,我们称它是一个 交替子数组 : m 大于 1 。s1 s0 1 。下标从 0 开始的子数组 s 与数组 [s0, s1, s0, s1,...,s(…

HarmonyOS鸿蒙学习笔记(22)@Builder实战

Builder标签是一种更轻量的UI元素复用机制,下面通过一个简单的例子来具体说明: 比如如下布局效果:上面是一个轮播的Swiper,下面是一个Grid 布局代码如下: build() {Navigation() {Scroll() {Column({ space: CommonConstants.CO…

测试老司机聊聊测试设计都包含什么?

一、数据组合测试设计 数据组合测试设计(Combinatorial Test Design,CTD)是一种优化测试用例的方法,它通过系统地组合不同的测试数据输入,以确保全面覆盖各种可能的测试情况。这种方法主要应用于软件测试领域&#xff…

性能优化-HVX 开发环境介绍

「发表于知乎专栏《移动端算法优化》」 本篇以 HVX 的开发环境配置以及应用实例编译测试为主进行讲述。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:高性能(HPC)开发基础教程 &#x1f3…

scanf解决遇到空格停止问题

scanf解决遇到空格停止问题 gets修改scanf的停止符 我们经常输入字符串的时候,遇到空格,scanf就会停止: 比如这时候我想输入一个句子:“My Love”: char* s (char*)malloc(sizeof(char)*100);scanf("%s", s…

Python数据分析:基础

数据分析是使用统计和计算机科学技术来解决现实世界问题的过程。Python是一种流行的编程语言,也是数据分析的常用工具之一。在Python中,有许多库和工具可用于数据分析,比如NumPy、Pandas、Matplotlib等。 NumPy是Python中用于科学计算的一个…

python 32位图转换8位图并压缩

安装 python -m pip install opencv-python 脚本 from PIL import Image import numpy as np import cv2 oldName "Down32.png" tempName "Down8.png" newName "Down.png" img Image.open(oldName).convert(P) print(img.getbands()) #…

摄像头电机马达驱动芯片LV8548/LV8549/ONSEMI替代料GC8548

摄像头电机马达驱动芯片GC8548,兼容替代 ON的LV8548 无需更改外围 . 下图为其参数分析: GC8548 是一款双通道 12V 直流电机驱动芯片,为摄像机、消费类产品、玩具和其他低压或者电池供电的运动控制类应用提供了集成的电机驱动解决方案。芯片…

hpa自动伸缩

1、定义:hpa全称horizontal pod autoscaling(pod的水平自动伸缩),这是k8s自带的模块。pod占用CPU的比率到达一定阀值会触发伸缩机制(根据CPU使用率自动伸缩) replication controller副本控制器&#xff0c…

带头 + 双向 + 循环链表增删查改实现

目录 源码: List.c文件: List.h文件: 简单的测试: 很简单,没什么好说的,直接上源码。 源码: List.c文件: #include"DLList.h"ListNode* creadNode(LTDataType x) {L…

力扣!30天60道(第2天)

第1题(1.22) &#xff1a;两数之和 解法一&#xff1a;暴力破解 #include <iostream> #include <vector> #include <map> using namespace std;class Solution { public:vector<int> twoSum1(vector<int>& nums, int target) {for (int i …

Java8 安装

> 新版任你发&#xff0c;我用JAVA8 1. 下载jdk包 2. 解压到自己要的位置 3. 配置环境变量 export JAVA_HOME/usr/lib/jvm/jdk1.8.0_202/ export JRE_HOME${JAVA_HOME}/jre export CLASSPATH.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH${JAVA_HOME}/bin:$PATH

GraphicsMagick 的 OpenCL 开发记录(十八)

文章目录 gm benchmark性能比较 <2022-04-07 Thu> gm benchmark性能比较 仅运行一次缩放图片的话gm-ocl&#xff08;启用了硬件加速&#xff09;的速度远小于gm&#xff08;没有硬件加速&#xff0c;下同&#xff09;&#xff0c;而迭代100次的话&#xff0c;gm-ocl速度…

Java项目:基于ssm框架实现的电影评论系统(ssm+B/S架构+源码+数据库+毕业论文)

一、项目简介 本项目是一套ssm826基于ssm框架实现的电影评论系统&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#x…

grpcui安装使用

官网地址&#xff1a;https://github.com/fullstorydev/grpcui 安装命令&#xff1a; go get github.com/fullstorydev/grpcui go install github.com/fullstorydev/grpcui/cmd/grpcui ./bin/grpcui --import-path/home/xx/proto -proto xx.proto --plaintext 10.2.9.112:1…