黑马甄选离线数仓项目day01(项目介绍)

课程介绍

  • 项目名称 黑马甄选
  • 数仓形式 离线数仓开发
  • 业务类型 电商业务

电商介绍

B2B B2C C2C

项目属于 新零售电商 新零售 线上(网站,app,小程序)+ 线下(实体体验店)+ 物流(自营物流)

项目行业 果蔬生鲜领域

商业模式 B2C 企业售卖商品给个人

项目业务介绍

  • 门店业务
    • 线下实体店
    • 及时达(快递物流)
    • 社区团购
    • 三方平台 在第三发平台开设店铺
  • 线上商城
    • 线上的B2C的网站
  • 商品批发
    • app 经销商在app中下单采购
  • 大客户团购
    • app 公司在app中下单采购
  • 自营商品
    • 商品贴牌

线下到线上

  • 有线下的连锁商店,为了线上购物需求,开发了网站,app,小程序
  • 在三方平台开设店铺
  • 线下商店 根据规模不同可以 商品批发 ,企业团购

线上到线下

现有线上网站,引入新零售场景,开始发展线下(开设店铺,发展物流)

开发需求介绍

  • 销售需求
  • 会员需求
  • 供应链需求
  • 商城需求

不同需求就是一个开发主题

需求开发完成后会有新的需求产生

项目架构介绍

数仓分层架构

  • 传统数仓架构
    • 数据是自上而下进行开发 ,上是上游数据
    • 在导入数据时,直接将所有数据导入数仓,在根据需求从数仓中筛序数据进行计算
    • 该架构模式会造成数仓中存储大量无用数据
      • 用户数据
      • 订单数据
      • 商品数据
      • 业务需求
        • 计算用户总量
        • 计算每天新增用户量
        • 计算每天留存用户量
        • 月增用户量
        • 月留存用户量
    • 传统数仓架构,需求变化快
  • 离线数仓架构
    • 自下而上 先确认下游的计算需求,根据计算需求向上找要计算的数据,将需要计算的数据导入数仓
    • 维度表 分组数据 时间维度表
    • 事实表 计算内容做为事实表
      • 用户主题分析 用到时间维度表 年月日 tb_dt_user
      • 商品主题分析 用到时间维度表 时分秒 tb_dt_goods

技术架构

数仓架构描述的是数据处理流程

技术架构描述的是实现数仓用的技术组成

  • 数据源存储
    • Mysql
    • SQL Server
  • 数据导入 ETL
    • sqoop
    • datax
    • flume
    • kettle
  • 数据仓库
    • 分布式存储 hdfs
    • 分布式计算 mapreduce + hive
    • 资源调度 yarn
  • 数仓数据导出
    • datax
    • sqoop
    • kettle
  • 存储结果的数据库
    • mysql
    • Oracle
    • SQL server
    • PostGreSQL
  • 数据展示
    • FineBI
    • FineReport
    • superset
    • powerBI
  • 任务调度
    • DS
    • oozie

项目人员及开发周期介绍

项目人员构成

  • 项目经理 1人
  • 管控整个项目的开发进度
  • 进行部门和人员协调
  • 产品经理 1人
    • 负责产品设计
      • 网站,app产品
  • 数据分析师或数据产品经理 1人
    • 负责主题需求设计
  • 数据开发 2-4人
    • 进行数仓搭建开发
  • 业务开发
    • 网站,app
    • 前端开发 pc端1人 手机端1人
    • 后端开发 1人
  • 测试开发 1-2人
    • 产品测试,检查功能是否完整,计算结果是否正确
  • 大数据运维开发 1
    • 大数据软件安装,业务的上线部署,服务器维

项目开发周期

产品调研 说明该项目开发原因,形成立项报告进行审批

数仓设计 设计数仓分层,技术选型,数仓表设计

数仓开发

集成测试 测试数仓开发的代码是否计算正确

上线部署

项目服务器选择

  • 物理服务器还是云服务器
    • 成本问题
    • 项目中选择物理机 配置 128G 内存 ,20核物理CPU,40线程 ,8T HDD和 2T SSD硬盘
  • 服务器数量
    • 基于每天产生的数据量进行推测
    • 当前项目每天产生 34G的数据
    • 历史数据数量 10T
    • 增量数据 未来五年(服务器进行扩容)的数据 34G*365*5 = 15T
    • 计算时中间结果的存储 34G * 0.5 17G * 365*5 = 7.5T 10+15+7.5=32.5T
    • 3副本存储 数据存储三份 32.5 * 3
    • 每台服务器需要预留20%空间 97.5 / 0.8 = 122 T
    • 开发需要13台服务器 预留测试服务器 2台 管理服务器3台 (namenode resourcemanager CM的主服务)

产生订单数据人数占 日活用户 30–40% 日活用户占总用户量的10%-20%

CDH介绍

CDH Cloudera’s Distribution Including Apache Hadoop

CDH 是商业版的hadoop,由Cloudera公司基于开源的hadoop进行二次开发,封装更多的功能,部分功能需要付费使用

CDH 集成了一个 CM(Cloudera Manager),使用各B(浏览器)/S(服务器)模型服务,可以在CM中通过web浏览器页面管理维护hadoop集群

CM的核心角色

server 主服务 处理CM的各类请求

agent 从服务 运行多台服务器上,接受server分配的任务

项目数据介绍

服务器说明

hadoop01 192.168.88.80

hadoop02 192.168.88.81

账户 root

密码 123456

注意: 需要通过域名访问hadoop服务,就需要更改windos下域名解析文件

在这里插入图片描述
在这里插入图片描述

mysql数据导入

在这里插入图片描述
账户 root

密码 123456

sqlserver

用户名: SA
密码: ITheima123
端口号: 1433

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《规模化屋顶光伏接入配电网的建设决策》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

数据结构---经典链表OJ

乐观学习,乐观生活,才能不断前进啊!!! 我的主页:optimistic_chen 我的专栏:c语言 点击主页:optimistic_chen和专栏:c语言, 创作不易,大佬们点赞鼓…

使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫

今天,明月给大家再次详细讲解一下,明月在使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫对站点的抓取,因为这是很多首次使用 CloudFlare 的站长们容易忽略和触犯的问题,并不是 CloudFlare 不友好,而是 CloudFlare 的防火墙(WAF)实在是太给力。其实在【CloudFlare 如…

java项目之共享汽车管理系统(springboot+mysql+vue)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的共享汽车管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 共享汽车管理系统的主要…

为什么推荐将 IoTDB 服务地址配置为 HostName 而非 IP?

设置主机名启动 IoTDB 可在不修改配置情况下,在不同环境运行 IoTDB 并实现多次部署。 01 前言 IoTDB 在配置启动时有两种方式: 1. 通过设置 HostName(主机名)的方式来启动 IoTDB(推荐方式); 2. …

CSS - 选择器

目录 一、CSS的基本语法格式: 二、常见的CSS选择器 ​编辑1.标签选择器 2.类选择器 3.id选择器 4.复合选择器 5.通用选择器 三、常见的CSS样式 1.color 2.font-size 3.border 4.width/height 5.padding 6.margin 四、CSS的引入方式 1.行内引入 …

Tableau-BI仪表盘搭建

目录 经营数据总览 经营数据详情 每日营收数据 每日流量数据 新老客占比 平台占比 门店占比 投放情况 订单分布 配送分布 汇总搭建仪表板 构思仪表盘布局 经营数据总览 数据总览表,显示的是数据,就拖入文本中,其他同样加入到已经…

开源免费的定时任务管理系统:Gocron

Gocron:精准调度未来,你的全能定时任务管理工具!- 精选真开源,释放新价值。 概览 Gocron是github上一个开源免费的定时任务管理系统。它使用Go语言开发,是一个轻量级定时任务集中调度和管理系统,用于替代L…

JavaEE初阶-多线程5

文章目录 一、线程池1.1 线程池相关概念1.2 线程池标准类1.3 线程池工厂类1.4 实现自己的线程池 二、定时器2.1 java标准库中的定时器使用2.2 实现一个自己的定时器2.2.1 定义任务类2.2.2 定义定时器 一、线程池 1.1 线程池相关概念 池这个概念在计算机中比较常见&#xff0c…

[笔试训练](十九)

目录 055:小易的升级之路 056:礼物的最大价值 057:对称之美 055:小易的升级之路 小易的升级之路_牛客题霸_牛客网 (nowcoder.com) 题目: 题解: 根据题意简单模拟即可,可单独写gcd函数求最大公因数。 int gcd(int a, int b) { if (…

数字水印 | 基于小波变换的数字水印技术

🍍原文: 基于小波变换的数字水印技术 🍍写在前面: 本文属搬运博客,自己留存学习。 正文 小波变换 把一个信号分解成由基本小波经过移位和缩放后的一系列小波,它是一种 “时间——尺度” 信号的多分辨率分…

Linux进程间通信——匿名管道和命名管道

文章目录 一、引言二、管道的基本原理1、管道的定义与结构2、管道的工作原理 三、匿名管道(Anonymous Pipe)1、匿名管道的概念2、匿名管道的创建与使用3、匿名管道的读写规则4、匿名管道的特点5、使用匿名管道实现进程池 四、命名管道(Named …

计算机视觉——基于改进UNet图像增强算法实现

1. 引言 在低光照条件下进行成像非常具有挑战性,因为光子计数低且存在噪声。高ISO可以用来增加亮度,但它也会放大噪声。后处理,如缩放或直方图拉伸可以应用,但这并不能解决由于光子计数低导致的低信噪比(SNR&#xff…

【Spring】@ServerEndpoint 与 Spring 是如何集成的

文章目录 前言表象理解后记更多文章 前言 最近工作需要用到 Websocket 协议。好奇来自 Jdk 包的 ServerEndpoint 是如何与 Spring Boot 集成的,特此记录一下结论。 表象 如果要暴露形如 ws://${ip}:${port}/ws 的服务地址,用于websocket 通信&#xf…

STC8增强型单片机开发——串口调试UART

一、什么是串口 串口是一种在数据通讯中广泛使用的通讯接口,通常我们叫做UART (通用异步收发传输器Universal Asynchronous Receiver/Transmitter),其具有数据传输速度稳定、可靠性高、适用范围广等优点。在嵌入式系统中,串口常用于与外部设备…

关于Speech processing Universal PERformance Benchmark (SUPERB)基准测试及衍生版本

Speech processing Universal PERformance Benchmark (SUPERB)是由台湾大学、麻省理工大学,卡耐基梅隆大学和 Meta 公司联合提出的评测数据集,其中包含了13项语音理解任务,旨在全面评估模型在语音处理领域的表现。这些…

基于深度学习神经网络的AI图像PSD去雾系统源码

第一步:PSD介绍 以往的研究主要集中在具有合成模糊图像的训练模型上,当模型用于真实世界的模糊图像时,会导致性能下降。 为了解决上述问题,提高去雾的泛化性能,作者提出了一种Principled Synthetic-to-real Dehazing (…

Windows 跨服务器进行 MYSQL备份脚本

Windows 服务器进行 MYSQL备份的脚本,使用该脚本前,请先测试一下 1、新建一个文本文档 2、将下面代码放入文本文档中,保存退出 echo off :: 命令窗口名 title mysql-bak:: 参数定义 set "Y%date:~,4%" set "m%date:~5,2%&qu…

【计算机网络篇】数据链路层(9)使用集线器的共享式以太网

文章目录 🛸使用同轴电缆的共享总线以太网 🎆使用集线器的共享式以太网🥚集线器的特点 🍔10BASE-T星型以太网 🛸使用同轴电缆的共享总线以太网 若总线上的某个机械连接点接触不良或断开,则整个网络通信就不…

Nginx part3 创建一个https的网站

目录 HTTPS 公钥和密钥 加密解密方式: https搭建步骤 强调一下 1、准备环境 2、配置文件 3、制作证书 4、进行设置 HTTPS 啥是https,根据百度:HTTPS (全称:Hypertext Transfer Protocol Secure)&a…