【常读常悟】《大数据之路-阿里巴巴大数据实践》一书读书摘要

【常读常悟】《大数据之路-阿里巴巴大数据实践》一书读书摘要

  • 1、背景
  • 2、目录结构
  • 3、数据加工链路
  • 4、章节摘要
    • 4.1 第2章 日志采集
      • 4.1.1 日志采集方案
      • 4.1.2 采集指标
    • 4.2 第3章 数据同步
      • 4.2.1 数据的特点
      • 4.2.2 数据同步的三种方式
      • 4.2.3 数据同步的最佳实践
    • 4.3 第4章 离线数据开发
      • 4.3.1 工具
    • 4.4 第5章 实时技术
      • 4.4.1 概念
      • 4.4.2 流式数据处理
    • 4.5 第6章 数据服务
    • 4.6 第7章 数据挖掘
      • 4.6.1 基于MaxCompute MPI的机器学习算法
      • 4.6.2 数据挖掘流程
      • 4.6.3 挖掘数据中台体系
        • 4.6.3.1 数据中台
          • 4.6.3.1.1 演进路线
          • 4.6.3.1.2 分层
        • 4.6.3.2 算法中台
    • 4.7 第8章 大数据领域建模综述
      • 4.7.1 数据仓库建模方法
    • 4.8 第9章 阿里巴巴数据整合及管理体系
      • 4.8.1 阿里集团大数据建设方法论
      • 4.8.2 维度模型建设
        • 4.8.2.1 维度模型层次
        • 4.8.2.1 维度模型规范定义
      • 4.8.3 模型实施
        • 4.8.3.1 Kimball模型实施
      • 4.8.4 OneData实时工作流
    • 4.9 第10章 维度设计

1、背景

该书是阿里巴巴数据技术及产品部开山之作,该部门在阿里集团中定位为数据中台角色。多年来,该部门已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。

在这里插入图片描述

2、目录结构

全书分为4个篇幅,共计16个章节。从数据技术讲到数据模型,从数据管理讲到数据应用,阅读起来,循序渐进。

数据技术篇(第2-7章节)共计6个章节
数据模型篇(第8-11章节)共计4个章节
数据管理篇(第12-15章节)共计4个章节
数据应用篇(第16章节)共计1个章节

数据是一个平台企业最直接的沉淀,也是最基本的生产资料。

3、数据加工链路

分层理念:操作数据层、明细数据层、汇总数据层、应用数据层。

  1. 操作数据层 (Operational Data Store, ODS)
    这是数据的原始状态,直接来源于业务系统,如销售记录、客户信息等。这一层的数据通常是实时或近实时更新的,主要用于快速查询和简单的数据分析。
  2. 明细数据层 (Data Warehouse Detail, DWD)
    这一层的数据已经过了一定程度的清洗和转换,保留了所有细节,适合于详细的分析和报告。它作为数据仓库的基础,提供了对历史数据的深入洞察。
  3. 汇总数据层 (Data Warehouse Summary, DWS)
    在这个层次,数据已经被进一步聚合,形成了各种维度的汇总视图。这一层的数据量相对较小,便于快速查询和分析,常用于业务监控和趋势分析。
  4. 应用数据层 (Application Data Service, ADS)
    描述:这是数据处理的最上层,数据经过建模和封装,形成易于消费的服务或产品,可以直接被应用程序或用户界面使用。这一层的数据通常是为了特定的应用场景而定制的。

通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理。

在这里插入图片描述

4、章节摘要

4.1 第2章 日志采集

4.1.1 日志采集方案

  • Web端 Aplus.js
  • APP端 UserTrack

4.1.2 采集指标

  • 页面浏览量 PV
  • 访客数 UV

4.2 第3章 数据同步

4.2.1 数据的特点

  • 数据来源的多样性
  • 数据量大

4.2.2 数据同步的三种方式

  • 直连同步:适合操作型业务系统,批量执行拉低系统性能
  • 数据文件同步:使用FTP传输文件,对文件进行校验
  • 数据库日志解析:实现了实时和准实时同步能力,延迟能够控制在毫秒级别

4.2.3 数据同步的最佳实践

  • 批量同步:DataX
    在这里插入图片描述
  • 实时同步:
    MySQL数据库中的数据实时同步采用解析binlog日志文件的方式,通过TimeTunnel平台进行消息的分发。

4.3 第4章 离线数据开发

4.3.1 工具

统一计算平台MaxCompute

同类的竞品还有HadoopSpark

4.4 第5章 实时技术

4.4.1 概念

  • 离线:在今天(T)处理N天前(T-N,N≥1)的数据,延迟时间粒度为
  • 准实时:在当前小时(H)处理N天前(H-N,N>0,如0.5小时、1小时)的数据,延迟时间粒度为小时
  • 实时:在当前时刻处理当前数据,延迟时间粒度为

4.4.2 流式数据处理

  • 时效性高
  • 常驻任务
  • 性能要求高
  • 应用局限性

4.5 第6章 数据服务

  • SmartDQ
  • Lego

4.6 第7章 数据挖掘

4.6.1 基于MaxCompute MPI的机器学习算法

分类具体算法
分类算法LogisticRegression、KNN、GBDT、DTC5.0、RandomForest、linearSVM、nonlinearSVM、NativeBayes、Bayes、Fisher判别、马氏距离判别、标签传播分裂等
回归算法LogisticRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等
聚类算法K-Means、Canopy、PSC谱聚类、标签传播聚类、EM聚类等
推荐算法etrec协同过滤(阿里商品协同过滤算法)、SVD协同过滤、ALS协同过滤等
深度学习Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等
其他PageRank、LDA、lLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity计算等

4.6.2 数据挖掘流程

数据挖掘流程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用及效果反馈这8个环节。

商业理解
数据准备
特征工程
模型训练
模型测试
模型部署
线上应用
效果反馈

4.6.3 挖掘数据中台体系

4.6.3.1 数据中台
4.6.3.1.1 演进路线

数据中台演进的4个阶段。
在这里插入图片描述

4.6.3.1.2 分层

数据中台分为三层。特征层、中间层、应用层。
在这里插入图片描述

4.6.3.2 算法中台
  1. 个体挖掘应用
  2. 关系挖掘应用

4.7 第8章 大数据领域建模综述

4.7.1 数据仓库建模方法

  1. ER模型:高层建模、中层建模、物理建模
  2. 维度模型:选择分析决策业务过程、选择粒度、识别维表、选择事实
  3. Data Vault模型:ER模型的衍生,更容易设计和产出
  4. Anchor模型:Data Vault模型的规范处理,只增加不修改,规范到6NF

4.8 第9章 阿里巴巴数据整合及管理体系

4.8.1 阿里集团大数据建设方法论

从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。

4.8.2 维度模型建设

4.8.2.1 维度模型层次

维度模型层次关系图如下图所示。
在这里插入图片描述

4.8.2.1 维度模型规范定义

在这里插入图片描述

4.8.3 模型实施

4.8.3.1 Kimball模型实施
  1. 高层模型
  2. 详细模型
  3. 模型审查、再设计和验证
  4. 提交ETL设计和开发

4.8.4 OneData实时工作流

图来源于阿里巴巴OneData大数据建设方法论(精华)博客。
在这里插入图片描述

4.9 第10章 维度设计

维度是维度建模的基础和灵魂。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/55256.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

以太网交换安全:端口安全

一、端口安全介绍 端口安全是一种网络设备防护措施,通过将接口学习到的动态MAC地址转换为安全MAC地址(包括安全动态MAC和Sticky MAC),阻止除安全MAC和静态MAC之外的主机通过本接口和设备通信,从而增强设备的安全性。以…

基于muduo库函数实现protobuf协议的通信

文章目录 先定义具体的业务请求类型2. 实现服务端提供的服务protobuf_server.cppprotobuf_client.cpp 建议先去了解muduo库和protobuf协议: Protobuf库的使用Muduo库介绍及使用 先定义具体的业务请求类型 先使用protobuf库创建我们所要完成的业务请求类型&#xf…

YOLOv11改进 | 主干篇 | YOLOv11引入MobileNetV4

1. MobileNetV4介绍 1.1 摘要: 我们推出了最新一代的 MobileNet,称为 MobileNetV4 (MNv4),具有适用于移动设备的通用高效架构设计。 在其核心,我们引入了通用倒瓶颈(UIB)搜索块,这是一种统一且…

【MAUI】CommunityToolkit社区工具包介绍

一、为什么需要声明式开发 .NET的MVVM,始于WPF,很古典,它甚至可能是现代前端框架“声明式开发”的鼻祖。声明式开发,之所以出现,是因为命令式开发在UI层和代码层上无法解耦的问题。如下图所示: 1、命令式开发:后台代码需要调用UI层的控件(label.Text),如果更新UI层…

CEPH的写入流程

1、客户端程序发起对文件的读写请求,ceph前端接口(RADOS Gateway)将文件切分成多个固定大小的对象(默认大小为4MB) 2、计算文件到对象的映射 (1) 计算OID为每个对象分配一个唯一的OID(Object ID&#xff09…

【微服务】初识(day1)

基础概念 集群 集群是将一个系统完整的部署到多个服务器,每个服务器提供系统的所有服务,多个服务器可以通过负载均衡完成任务,每个服务器都可以称为集群的节点。 分布式 分布式是将一个系统拆分为多个子系统,多个子系统部署在…

免费录屏软件工具:助力高效屏幕录制

录屏已经成为了一项非常实用且广泛应用的技术。无论是制作教学视频、记录游戏精彩瞬间,还是进行软件操作演示等,我们都常常需要一款可靠的录屏软件。今天,就让我们一起来探索那些功能强大录屏软件免费版,看看它们是如何满足我们多…

Leecode刷题之路第六天之Z字形变换

题目出处 06-Z字形变换 题目描述 个人解法 思路: todo 代码示例:(Java) todo复杂度分析 todo 官方解法 06-Z字形变换官方解法 方法1:利用二维矩阵模拟 思路: 代码示例:(Java&am…

蓝桥杯【物联网】零基础到国奖之路:十五. 扩展模块之双路ADC

蓝桥杯【物联网】零基础到国奖之路:十五. 扩展模块之双路ADC 第一节 硬件解读第二节 CubeMX配置第三节 代码编写 第一节 硬件解读 STM32的ADC是12位,通过硬件过采样扩展到16位,模数转换器嵌入到STM32L071xx器件中。有16个外部通道和2个内部通道&#xf…

MongoDB微服务部署

一、安装MongoDB 1.在linux中拉去MongoDB镜像文件 docker pull mongo:4.4.18 2. 2.创建数据挂载目录 linux命令创建 命令创建目录: mkdir -p /usr/local/docker/mongodb/data 可以在sshclient工具查看是否创建成功。 进入moogodb目录,给data赋予权限777 cd …

后台管理系统脚手架

后台管理系统脚手架 介绍 在快速迭代的软件开发世界里,时间就是生产力,效率决定成败。对于构建复杂而庞大的后台系统而言,一个高效、可定制的后台脚手架(Backend Scaffold)无疑是开发者的得力助手。 脚手架 后台脚…

自动驾驶系列—自动驾驶发展史介绍

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

C语言、Eazy_x——井字棋

#include<graphics.h>char board_data[3][3] { { -,-,-},{ -,-,-},{ -,-,-}, };char current_piece o;//检测指定棋子玩家是否获胜 bool CheckWin(char c) {if (board_data[0][0] c && board_data[0][1] c && board_data[0][2] c)return true;if (…

WPS使用越来越卡顿

UOS统信wps频繁的使用后出现卡顿问题&#xff0c;通过删除或重命名kingsoft文件缓存目录。 文章目录 一、问题描述二、问题原因三、解决方案步骤一步骤二步骤三 一、问题描述 用户在频繁的使用wps处理工作&#xff0c;在使用一段时间后&#xff0c;用户反馈wps打开速度慢&…

c++primier第十二章类和动态内存

本章内容包括&#xff1a; 对类成员使用动态内存分配隐式和显式地复制构造函数隐式和显式地重载赋值操作符在构造函数中使用new所必须完成的工作使用静态类成员 将布局new操作符用于对象使用指向对象的指针实现队列抽象数据类型(ADT) 动态内存和类 复习范例和静态类成员 首…

《动手学深度学习》笔记2.2——神经网络从基础→进阶 (参数管理-每层的权重/偏置)

目录 0. 前言 正文&#xff1a;参数管理 1. 参数访问 1.1 [目标参数] 1.2 [一次性访问所有参数] 1.3 [从嵌套块收集参数] 2. 参数初始化 2.1 [内置初始化] 2.2 [自定义初始化] 2.3 [参数绑定-共享参数] 3. 小结&#xff08;第2节&#xff09; 4. 延后初始化 (原书第…

AR 眼镜之-蓝牙电话-来电铃声与系统音效

目录 &#x1f4c2; 前言 AR 眼镜系统版本 蓝牙电话 来电铃声 系统音效 1. &#x1f531; Android9 原生的来电铃声&#xff0c;走的哪个通道&#xff1f; 2. &#x1f4a0; Android9 原生的来电铃声&#xff0c;使用什么播放&#xff1f; 2.1 来电铃声创建准备 2.2 来…

国庆普及模拟2总结

目录 题目链接&#xff1a; 官方题解&#xff1a; 概述&#xff1a; 总结反思&#xff1a; 题目 T1: 题目分析&#xff1a; 错误代码&#xff1a; 错因&#xff1a; &#xff21;&#xff23;代码&#xff1a; T2&#xff1a; 题目分析&#xff1a; 赛时代码&#xf…

LeetCode[中等] 55.跳跃游戏

给你一个非负整数数组 nums &#xff0c;你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标&#xff0c;如果可以&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 思路 贪心算法 可达位置…

CSS中字体图标的使用

引言&#xff1a; 在网页设计当中&#xff0c;会有很多很简洁的图标&#xff0c;比如箭头&#xff0c;照相机&#xff0c;放大镜等 这些大概率都是使用字体图标来完成的&#xff0c;因为字体图标比较简洁高效&#xff0c;不会像图片一样需要向浏览器请求数据。那么字体图标该…