数据处理分类、数据仓库产生原因

个人看书学习心得及日常复习思考记录,个人随笔。

数据处理分类

操作型数据处理(基础)

操作型数据处理主要完成数据的收集、整理、存储、查询和增删改操作等,主要由一般工作人员和基层管理人员完成。

联机事务处理系统(OLTP,典型)主要功能是对事务进行处理,其性能指标主要是事务处理效率事务吞吐率,即每个事务处理的时间越快越好(单位时间内能完成的事务数量越多越好)。【强调:事务、关系

数据库管理系统(DBMS)是联机事务处理系统的主要组成部分
数据库管理系统主要用于对数据进行有效的存储、管理和存取,其通过流程化存取及缓存机制等,将数据存储到数据库中,最后将数据落地到磁盘。
在这里插入图片描述
事务是用户定义的一个数据库操作序列,这些操作要么全做,要么全不做,是一个不可分割的工作单位

在关系型数据库中,一个事务可以是一条SQL语句、一组SQL语句或者整个程序。事务和程序是两个概念,一个程序中可以包含多个事务。

数据库管理系统采用日志、备份等恢复技术和并发控制技术来保证事务的原子性(atomictiy)、一致性(consistency)、隔离性(isolation)和持续性(durability)【ACID特性】

在关系型数据库中,采用索引技术来快速定位数据;采用并行技术提高处理能力和系统的扩展性;采用封锁技术提高并发度,部分关系型数据库DSC集群还引入了闩封锁,允许多个用户同时使用数据库及系统资源,提高了事务的吞吐量;

在关系型数据库中,采用关系规范化理论,每张表按规范一般需要达到第三范式或BC范式消除表中属性间的部分依赖和传递依赖,各属性只依赖于主码,希望能消除数据冗余,缩短事务处理时间。

相比OLAP而言,OLTP中的事务一般都是短事务,存取数据量较少,所需处理时间较短。

分析型数据处理(基础)

分析型数据处理是对数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析,从中获取信息,因此也称为信息型处理,主要由高级管理人员完成。

决策支持系统(DSS,典型)基本功能是建立各种数学模式,并对其进行数据统计分析,将得出数据价值作为决策的依据和基础。【强调:分析、决策

操作型数据和分析型数据区别

分析型数据处理不同于操作型数据处理,其需要访问大量的当前和历史数据,进行复杂的计算,用于分析和挖掘数据价值,而操作型数据库一般推荐存储明细数据,分析型数据库一般推荐存储历史数据和综合数据。
在这里插入图片描述

数据仓库产生原因

随着第四次工业革命的浪潮到来,许多企业发现传统数据库系统在操作型数据处理中取得的成就,不适用于大数据的分析型数据处理中。数据仓库诞生之前,有着一系列值得思考的问题,为了解决这些问题,方法层出不穷。

数据分散问题

企业开发的联机事务处理系统一般只需要与本部门业务有关的当前数据,而对整个企业范围内的集成应用考虑较少,企业内部各事务处理的应用之间实际上几乎独立,因此当前绝大部分企业内数据的真正情况是分散而非集成的。当然出现上述现象原因诸多,有可能因为系统架构设计及发展规划层面,也有可能因为经济方面。

“蜘蛛网”问题

解决上述数据分散问题的其中一种方法则是对数据进行集成。基于各分散的数据库,以业务需求为导向选择符合条件的数据,将其抽取汇总到某一新文件或数据库中。由于抽取程序能将数据从联机事务处理系统中转移出来,而对转移出来的数据进行分析时降低了影响联机事务处理系统的效率。

因某种业务需求,需要抽取,随后又抽取,抽取之上又抽取,接着在此基础上再抽取,这种不加控制的连续抽取最终导致企业的数据间形成错综复杂的网状结构,像“蜘蛛网”。企业规模越大,数据越分散,数据需求越复杂,“蜘蛛网”问题就越严重。

虽然“蜘蛛网”上任意两个节点的数据可能归根结底是从一个原始数据库中抽取出来,但它们的数据没有统一的时间基准,抽取算法和抽取级别也不相同,并且可能参考了不同的外部数据,因而对同一问题的分析,不同节点会产生不同甚至截然相反的结果,从而使决策者/分析者所分析的数据存在差异。

数据不一致问题

由于前述的数据分散、“蜘蛛网”等问题,导致了多个应用间的数据不一致。这些数据不一致的形式是多种多样的。
例如:
1、同一字段在不同应用中具有不同的数据类型。
2、同一字段在不同应用中具有不同的名字。
3、同名字段,不同含义。
为了将这些不一致的数据集成起来,首先需要对所抽取的数据进行转换,消除数据不一致才能用作分析。

数据动态集成问题

静态集成对所需数据进行集成后就一直以这部分集成数据作为分析基础,不再与数据源发生联系。缺点:如果在数据集成后数据源中数据发生变更,因数据静态集成,分析数据未能同数据源一样变更,所以导致决策者/分析者使用过时数据。

动态集成集成数据必须以一定周期/频率进行刷新。其实这里说的“周期/频率”需要结合实际的业务需求,以业务需求为导向去评估“周期/频率”

联机事务处理系统不具备动态集成的能力。决策支持系统对数据集成的迫切需要可能是数据仓库出现的重要动因之一。

历史数据问题

联机事务处理一般只需要当前数据,在数据库中通常也只存储短期内的数据,且不同数据的保存期限不一样。一些历史数据即使保存,也没得到充分利用。但对于决策分析而言,许多分析方法必须以大量的历史数据为依托,需要对历史数据详细分析,挖掘数据价值,把握发展趋势。

数据综合问题

对于事务处理系统中所积累的大量细节数据,一般而言,决策支持系统并不对这些细节数据进行分析。一是细节数据数据量太大,会严重影响分析的效率;二是太多的细节数据不利于分析人员注意有用信息。因此,在分析前往往需要对细节数据进行不同程度的综合。

而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而被加以限制。

以上系列问题表明,在操作型数据处理的应用环境中直接构建分析型数据处理应用是一种失败的尝试。

数据仓库本质上是对存在的这些问题的解答。但数据仓库的主要驱动力并不是改正过去的缺点,建立在事务处理环境上的分析系统存在上述各种问题。要提高分析和决策的效率和有效性,分析型处理及其数据将与操作型处理及其数据相分离,必须把分析型数据从事务处理环境中提取出来,按照决策支持系统处理的需要进行重新组织,建立单独的分析型处理环境–数据仓库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/725425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Common Sense Machines(CSM):立志成为图像生成适用于游戏引擎的3D资产AI产品

详细说明 Common Sense Machines(CMS):立志成为图像生成适用于游戏引擎的3D资产AI产品-喜好儿aigc详细说明:https://heehel.com/CSM-3d 官方网站:https://www.csm.ai/ 使用体验网址:https://3d.csm.ai/ 来…

lowcode-engine接入编辑器

https://lowcode-engine.cn/site/docs/guide/create/useEditor 方案1 pnpm init pnpm add "alilc/create-elementlatest"pnpm create "alilc/element" editor-project-name选择编辑器 进入执行pnpm install命令安装包 pnpm start报错 pnpm add &qu…

苹果曝出两个 iOS 系统 0-Day 漏洞

最近,苹果公司发布了紧急安全更新,解决了两个 iOS 零日漏洞。这些漏洞存在于 iOS 内核(CVE-2024-23225)和 RTKit(CVE-2024-23296)中,威胁攻击者可利用其绕过内核内存保护,这就给了具…

解决vue项目本地开发完成后部署到服务器后报404的问题

一、如何部署 前后端分离开发模式下,前后端是独立布署的,前端只需要将最后的构建物上传至目标服务器的web容器指定的静态目录下即可 我们知道vue项目在构建后,是生成一系列的静态文件 常规布署我们只需要将这个目录上传至目标服务器即可 /…

ChatGPT提问技巧——控制温度和TOP-P样本

ChatGPT提问技巧——控制温度和TOP-P样本 “控制温度和Top-P抽样”在自然语言处理中,控制温度是指通过调整生成文本的随机性和多样性,而Top-P抽样是一种生成文本的策略,它选择概率最高的前P个词作为候选词汇。这两个技术常用于生成文本的质量…

文本溢出隐藏 显示省略号,鼠标悬浮展示 el-tooltip(TooltipIsShowMixin封装)

目录 mixins 封装使用 TooltipIsShowMixin效果展示 mixins 封装 TooltipIsShowMixin.js export const TooltipIsShowMixin {data() {return {tooltipIsShow: false}},methods: {tooltipIsDisHandler(className) {this.$nextTick(() > {const dom document.querySelector…

PDF处理控件aspose.PDF功能演示:将 PDF 转换为 Word 文档

在 Web 应用程序中处理文档时,将 PDF 文件无缝转换为 Word 文档的能力是一项宝贵的资产。此任务不仅常见,而且对于文档转换器和编辑器、从编辑和协作到内容提取的各种应用程序来说也是必不可少的。在这篇博文中,我们将探讨如何使用 JavaScrip…

挑战杯 基于深度学习的植物识别算法 - cnn opencv python

文章目录 0 前言1 课题背景2 具体实现3 数据收集和处理3 MobileNetV2网络4 损失函数softmax 交叉熵4.1 softmax函数4.2 交叉熵损失函数 5 优化器SGD6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习的植物识别算法 ** …

预览和真机调试无法连接服务器(报网络错误),开发者工具可以正常用

预览和真机调试无法连接服务器(报网络错误),开发者工具可以正常用 方法: localhost替换为下面的ip,手机和电脑都链接同一个wifi // let RootPath http://127.0.0.1:8081;//或者http://localhost:8081let RootPath ht…

鸿蒙Harmony应用开发—ArkTS声明式开发(事件独占控制)

设置组件是否独占事件,事件范围包括组件自带的事件和开发者自定义的点击、触摸、手势事件。 在一个窗口内,设置了独占控制的组件上的事件如果首先响应,则本次交互只允许此组件上设置的事件响应,窗口内其他组件上的事件不会响应。 …

AndroidStudio连不上adb报错ADB Connection Error

之前笔者一直通过AndroidStudio来看日志,也一直用的一套自己的SDK,用了好几年了。 但是突然有一天,AndroidStudio启动后就弹出警告窗:ADB Connection Error,如下: 在Event Log面板还持续性的输出&#x…

C++——string类

前言:哈喽小伙伴们,从这篇文章开始我们将进行若干个C中的重要的类容器的学习。本篇文章将讲解第一个类容器——string。 目录 一.什么是string类 二.string类常见接口 1.string类对象的常见构造 2.string类对象的容量操作 3. string类对象的访问及遍…

微软亚太区AI智能应用创新业务负责人许豪,将出席“ISIG-AIGC技术与应用发展峰会”

3月16日,第四届「ISIG中国产业智能大会」将在上海中庚聚龙酒店拉开序幕。本届大会由苏州市金融科技协会指导,企智未来科技(AIGC开放社区、RPA中国、LowCode低码时代)主办。大会旨在聚合每一位产业成员的力量,深入探索A…

16 PyTorch 神经网络基础【李沐动手学深度学习v2】

1. 模型构造 在构造自定义块之前,我们先回顾一下多层感知机的代码。 下面的代码生成一个网络,其中包含一个具有256个单元和ReLU激活函数的全连接隐藏层, 然后是一个具有10个隐藏单元且不带激活函数的全连接输出层。 层和块 构造单层神经网咯…

智慧安防视频远程监控平台EasyCVR集成后播放只有一帧画面是什么原因?

智慧安防视频监控平台EasyCVR能在复杂的网络环境中(专网、局域网、广域网、VPN、公网等)将前端海量的设备进行统一集中接入与视频汇聚管理,平台可支持的接入协议包括:国标GB28181、RTSP/Onvif、RTMP,以及厂家的私有协议…

【Power Apps】实现一个响应式的对话框功能

在我们开始之前需要把这里关一下,不然的话会影响响应式布局的效果。 首先我们添加一个垂直容器作为遮罩层。 遮罩层的宽高直接设置为跟随父元素即可,让遮罩层占满整个屏幕,再把填充色改为有一定透明度的黑色,形成遮罩效果。 然后…

【b站咸虾米】1 Vue介绍 2021最新Vue从基础到实例高级_vue2_vuecli脚手架博客案例

课程地址:【2021最新Vue从基础到实例高级_vue2_vuecli脚手架博客案例】 https://www.bilibili.com/video/BV1pz4y1S7bC/?share_sourcecopy_web&vd_sourceb1cb921b73fe3808550eaf2224d1c155 感觉尚硅谷的Vue看完忘得差不多了,且之前学过咸虾米的unia…

Codeforces Round 932 (Div. 2) --- C. Messenger in MAC --- 题解

C Messenger in MAC 题目大意: 思路解析: 答案计算为 , 可以发现当所选的几个信息固定后,其实后面的一项就变为b_max - b_min,得到了这个结论之后,其实我们可以直接把整个信息按照b进行排序,枚举l,r&am…

机器学习:探索计算机的自我进化之路

当我们谈论机器学习时,我们在谈论什么呢?机器学习是一门跨学科的学科,它使用计算机模拟或实现人类学习行为,通过不断地获取新的知识和技能,重新组织已有的知识结构,从而提高自身的性能。简单来说&#xff0…

基于OpenCV的图形分析辨认02

目录 一、前言 二、实验目的 三、实验内容 四、实验过程 一、前言 编程语言:Python,编程软件:vscode或pycharm,必备的第三方库:OpenCV,numpy,matplotlib,os等等。 关于OpenCV&…