15(第十四章,大数据和数据科学)

目录

概述

基本概念

数据仓库/传统商务智能与数据科学的比较

数据科学的过程

大数据

大数据来源

数据湖

机器学习

监督学习

无监督学习

强化学习

扩展

1、数据仓库(Data Warehouse)

2、数据湖(Data Lake)

3、大数据平台1.0

4、数据中台

5、数据底座

6、湖仓一体化大数据平台(Data Lakehouse)

7、数据仓库、数据湖和湖仓一体的差异


概述

传统的商务智能(BI)提供“后视镜”式的报告,通过分析结构化的数据展示过去的趋势。

信息收敛三角:

数据科学将数据挖掘、统计分析、机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。因为数据分析师或数据科学家会使用一些科学的方法来开发和评估模型,所有开发预测模型有时被称为数据科学。

基本概念

数据仓库/传统商务智能与数据科学的比较

数据仓库/传统商务智能数据科学
描述性分析预测性分析规范性分析
事后结论洞察预见

基于历史:

过去发生了什么?

为什么发生?

基于预测模型:

未来可能会发生什么?

基于场景:

我们该做什么才能保证事情发生?

数据科学的过程

  1. 定义大数据战略和需求
  2. 选择数据源
  3. 获得和接收数据源
  4. 制定数据假设和方法
  5. 集成和调整进行数据分析
  6. 使用模型探索数据
  7. 部署和监控

大数据

早期通过3V来定义大数据的特征:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)

后来V列表有了更多的扩展:

  1. 数据量大 (Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。
  2. 数据更新快 (Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
  3. 数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
  4. 数据黏度大(Viscosity)。指数据使用或集成的难度比较高
  5. 数据波动性大 (Volatility)。指数据更改的频率,以及由此导致的数据有效时间短
  6. 数据准确性低 (Veracity)。指数据的可靠度不高。

大数据来源

来源于结构化数据和非结构化数据。

从上图其实我们能看出来:

数据仓库是面向BI的;

数据科学是面向AI的。

数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。例如,它可以提供:

  1. 数据科学家可以挖掘和分析数据的环境。
  2. 原始数据的集中存储区域,只需很少量的转换 (如果需要的话)。
  3. 数据仓库明细历史数据的备用存储区域。
  4. 信息记录的在线归档。
  5. 可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快会变成数据沼泽一一杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

机器学习

预测分析是有监督学习的子领域,规范分析比预测分析更进一步。

监督学习

基于通用规则,例如将SPAM邮件与非SPAM邮件区分开,这种结果是有限制的,刚刚那个例子,结果就是“是”或“否”。

无监督学习

基于找到的哪些隐藏的规律(数据挖掘),结果是无限的,例如让他去预测明年的销售业绩是多少这种。

强化学习

基于目标的实现,例如让他在国际象棋中击败对手。

扩展

我们凑这篇文章,介绍下数据仓库、大数据平台、数据湖、数据中台、数据底座、湖仓一体化大数据平台的差异。

1、数据仓库(Data Warehouse)

听过很多次了,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,能容纳更加庞大的数据集

2、数据湖(Data Lake)

数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,并按原样存储数据,而无需事先对数据进行结构化处理。是各种原始数据的集合(不产生数据),原则上不对数据进行清洗、整合(不能对业务数据进行修改),入湖数据需要进行注册(经过流程制度的处理,如确定数据Owner,满足要求)。

3、大数据平台1.0

个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析、机器学习程序等 ETL 流水线,另外可以包括数据仓库系统等核心功能。

4、数据中台

阿里提出的中国本地的一个概念,数据中台是企业级数据能力共享平台,提供企业级数据服务,实现数据共享。数据通过分层与水平解耦,经过汇聚、存储、整合、分析、加工,沉淀公共的数据能力,再经过服务封装,形成通用的调用接口,为前端应用提供数据服务调用,支撑前端应用敏捷迭代和快速构建。数据直接用于业务链路和交易场景, 服务更多业务。数据中台不是一个标准化的产品,是一整套策略和解决方案的集合。

5、数据底座

数据底座是企业统一的数据平台,是数据的逻辑集合,由数据湖和数据主题联接两层构成,集成公司内部各个业务系统数据及外部数据,为业务可视、分析、决策等数据消费提供数据服务。数据底座由数据湖和数据主题联接构成。

6、湖仓一体化大数据平台(Data Lakehouse)

是新兴起的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。

大数据平台1.0+数据中台的功能+数据运营的功能=大数据平台2.0=湖仓一体化大数据平台(简称大数据平台)

7、数据仓库、数据湖和湖仓一体的差异

数据仓库、数据湖和湖仓一体之间的差异主要体现在以下几点。

  • (1)数据类型:数据仓库内部高度结构化且多为关系型数据库,一般只支持在入仓前完成处理工作的结构化数据存储;数据湖可包容开放的数据类型,但其主要存储原始格式的数据,数据加工处理属于额外工作;湖仓一体存储所有类型的已处理和原格式数据。 
  • (2)采集过程:数据仓库的写时模式需在数据入仓前预先建模,并按照既定的ETL模式,以专属格式导入;数据湖的读时模式在数据入湖后按需定义架构,湖中数据以开放格式存在以适应多变的业务需求,ELT;湖仓一体同时支持预定义数据和开放数据导入以及需求导向的数据加工转换。 
  • (3)访问方式:数据仓库内的数据访问以SQL(Structured Query Language)为主,用户可以获取具有专属格式的数据;数据湖和湖仓一体配置大量开放API,可支持对数据的直接读取,读取方式包括SQL、 R、Python等语言,湖仓一体同时支持原格式和处理后数据的访问。 
  • (4)可靠性和安全性:数据仓库发展较为成熟,基于其高度结构化的管理能力,可实现高质量和安全性的数据存储;数据湖内部数据具有多源异构性,尚未形成有效治理策略,易导致数据沼泽,这也是其当前面临的最大挑战;湖仓一体在湖存储机制上添加数据仓库管理功能和数据安全保障机制,可显著提高数据可靠性和安全性。
  • (5)适用场景:数据仓库适用于BI(Business Intelligence)、SQL应用和报告等;数据湖适用于数据科学和机器学习,二者仅支持有限应用场景;湖仓一体可同时满足SQL分析需求和数据科学、机器学习等高级分析需求,且支持直接在原始数据上应用各类分析工具,以及对流数据的持续处理和实时分析。
数据类型采集过程访问方式可靠性和安全性使用场景
数据仓库结构化、已处理数据写时模式SQL为主,支持API数据质量高、安全性高BI
数据湖结构化、半结构化、非结构化原始数据读时模式开放API数据质量低、安全性低、易形成数据沼泽AI
数仓一体结构化、半结构化、非结构化原始数据写时模式、读时模式开放API数据质量高、安全性高丰富场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4426.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ssm的高校课程评价评教系统(含源码+sql+视频导入教程+文档+PPT)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于ssm的高校课程评价评教系统拥2有四种角色 管理员:学生管理、指标管理、课程两个、院系管理、评教管理等 学生:评教教师、登录注册、查看课程信息等 专家&am…

MySQL-多表查询-练习

练习 1.写一个查询显示所有雇员的 last name、department id、anddepartment name。 SELECT e.LAST_NAME,e.DEPARTMENT_ID,d.DEPARTMENT_NAME FROM employees e,departments d WHERE e.DEPARTMENT_ID d.DEPARTMENT_ID;2.创建一个在部门 80 中的所有工作岗位的唯一列表&#x…

递归、搜索与回溯算法:综合练习

例题一 解法: 算法思路: ⾸先,我们在第⼀⾏放置第⼀个皇后,然后遍历棋盘的第⼆⾏,在可⾏的位置放置第⼆个皇后,然后再遍历第三⾏,在可⾏的位置放置第三个皇后,以此类推&#xff0c…

解锁大模型高效推理:将 LlamaIndex 与抽象链集成

在语言理解领域,对忠实推理的追求促使研究人员探索各种途径。 大型语言模型(LLMs)在解释和执行指令方面取得了显著进展,但在准确回忆和组合现实世界知识方面仍然面临挑战。 为了解决这个问题,将外部工具集成到LLMs的…

北京摇号发展史!摇不到号是有原因的!

北京车牌摇号史可以追溯到较早的时期,但近年来随着城市发展和汽车保有量的增加,摇号政策经历了多次调整和完善。 在摇号政策实施初期,主要是为了解决城市交通拥堵和减少汽车尾气排放等问题。当时,申请车牌的人数相对较少&#xf…

龙腾启新·AI创未来—2024上海AIGC行业技术沙龙活动成功举办

随着人工智能技术的不断发展和创新,AIGC正逐渐成为科技领域的新热点。上海作为中国的经济中心和科技创新的重要城市,拥有众多优秀的科研机构、高校和企业,为AIGC领域的发展提供了丰富的人才和资源。 4月25日,上海市人工智能行业协…

第八周学习笔记DAY.4-实用类介绍

本课目标 能够定义并使用枚举类型 掌握包装类及装箱、拆箱概念 会使用Math类进行数学运算 枚举 枚举指由一组固定的常量组成的类型 Java API 常用Java API java.lang Enum、包装类、Math、String、StringBuffer、System… … java.util java.io java.sql … … 包装类…

大数据时代,保护个人隐私小Tips Get 起来!

随着大数据时代的到来,我们的隐私正处于越来越易被侵犯的风险中。在各种社交媒体和信息共享平台上,我们需要输入各种个人信息,而这些信息可能被不法分子盗取,甚至被用来进行欺诈行为。在如今的大数据时代,保护个人隐私…

进一步了解android studio 里 AGP,gradle等关系

目录 (1) gradle是什么 (2) 工程的jdk版本,及引用包的编译版本的关系 实践 问题与解决 编译成功与运行成功 编译成功 运行成功 (1) gradle是什么 Gradle是一个构建工具,它是…

(学习日记)2024.04.28:UCOSIII第五十二节:User文件夹函数概览(uC-LIB文件夹)第二部分

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

【八大排序(一)】插入排序与希尔排序

❣博主主页: 33的博客❣ ▶️文章专栏分类:八大排序◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你了解更多排序知识 目录 1.前言2.常见排序算法3.稳定性4.插入排序4.1概念4.2直接插入排序4.3希尔排序 5.总结 …

TechTool Pro for mac中文激活版:硬件监测和系统维护工具

TechTool Pro mac帮助用户实现系统硬件监测(CPU、内存、硬盘、网络、USB等)、内存测试、S.M.A.R.T检测、磁盘宗卷扫描、宗卷重建和优化、数据恢复和粉碎等等,定期使用,可以确保您的Mac保持优化和无故障。 TechTool Pro for mac v1…

机器学习笔记(二)回归

一、线性回归 线性回归是一种用于预测的统计方法,特别适用于连续值预测。📈线性回归通过最小化误差的平方和来寻找一个线性关系,用于预测一个变量(因变量)基于一个或多个其他变量(自变量)的值。…

[Kubernetes] 集群重新初始化

文章目录 1.master节点2.worker节点3.查看结果 1.master节点 kubeadm reset清理信息: cd ~ 进入根目录ll -a 查看是否存在.kube文件 rm -rf /root/.kubesystemctl restart docker ## 重启docker systemctl restart kubelet ## 重启kubeletrm -rf /etc/cni/net.d初始化主节点…

【Canvas与艺术】绘制朝鲜国旗

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>绘制朝鲜国旗</title><style type"text/css">…

windows环境下DVWA靶场搭建

目录 一&#xff0c;安装PHPstudy 二&#xff0c;DVWA靶场上传 一&#xff0c;安装PHPstudy 具体安装步骤&#xff0c;请看上篇文章https://blog.csdn.net/m0_72210904/article/details/138258609?spm1001.2014.3001.5501 二&#xff0c;DVWA靶场上传 压缩包&#xff1a;&…

【3GPP IAB】 3GPP支持IAB架构概述

1 概述 IAB用于回传链路的无线传输&#xff0c;对于NR高频尤其重要&#xff0c;3GPP协议讨论了IAB的可能架构和部署方式&#xff0c;一起来看看吧。 2 IAB 功能和接口 IAB尽量重用为接入定义的现有功能和接口。特别是&#xff0c;移动终端(MT)、gNB- DU、gNB- CU、UPF、AMF和S…

虚拟与现实的融合:线上盲盒小程序的创新探索

随着科技的飞速发展&#xff0c;虚拟世界与现实生活之间的界限日益模糊。线上盲盒小程序&#xff0c;作为这一融合趋势的生动体现&#xff0c;以其独特的创新探索&#xff0c;将虚拟的惊喜与现实的体验完美结合&#xff0c;为我们打开了一个全新的购物世界。 线上盲盒小程序的…

VulnHub靶机 DC-9 靶机 详细渗透过程

VulnHub靶机 DC-9 打靶实战 详细渗透过程 目录 VulnHub靶机 DC-9 打靶实战 详细渗透过程一、将靶机配置导入到虚拟机当中二、渗透测试主机发现端口扫描Web渗透SQL注入登入后台文件包含SSH爆破提权 一、将靶机配置导入到虚拟机当中 靶机地址&#xff1a; https://www.vulnhub.…

使用QTcpSocket

(1)客户端每隔10ms向服务器发送一次数字字符串&#xff0c;从0开始。 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QTcpSocket> #include <QLabel> #include <QTimer> namespace Ui { class MainWindow; }class Mai…