【2023年11月第四版教材】《第5章-信息系统工程之数据工程(第三部分)》

《第5章-信息系统工程之数据工程(第三部分)》

  • 2 数据工程
    • 2.1 数据建模
    • 2.2 数据标准化
    • 2.3 数据运维
    • 2.4 数据开发利用
    • 2.5 数据库安全

2 数据工程

2.1 数据建模

1、根据模型应用目的不同,可以将数据模型划分为三类:概念模型逻辑模型物理模型

模型解释说明
概念模型也称信息模型,它是按用户的观点来对数据和信息建模,也就是说,把现实世界中的客观对象抽象为某一种信息结构,这种信息结构不依赖于具体的计算机系统,也不对应某个具体的DBMS.它是概念级别的模型
逻辑模型1.目前主要的数据结构有层次模型、网状模型、关系模型、面向对象模型和对象关系模型。其中,关系模型成为目前好要的一种逻辑数据模型。
2.关系数据模型的数据操作主要包括查询、插入、删除更新数据,这些操作必须满足关系的完整性约束条件。
3.关系的完整性约束包括三大类型:实体完整性、参照完整性用户定义的完整性
物理模型物理数据模型是在逻辑数据模型的基础上,考虑各种具体的技术实现因素进行数据库体系结构设,真正实现数据在数据库中的存放。物理数据模型的内容包括确定所有的表和列,定义外键用于确定表之间的关系,基于性能的需求可能进行反规范化处理等内容。物理模型的基本元素包括表、字段、视图、索引、存储过程、触发器等,其中表、 字段和视图等元素与逻辑模型中基本元素有一定的对应关系

2、数据建 模过程包括数据需求分析、概念模型设计、逻辑模型设计物理模型设计等过程。

数据建模过程具体内容
数据需求分析用户需求一数据流图
概念模型设计将需求分析得到结果抽象为概念模型的过程就是概念模型设计,其任务是确定实体和数据及其关联,建名逻辑模型,关系模式
逻辑模型设计建立概念模型,其任务是确定实体和数据及其关联即E-R图
物理模型设计将数据模型转换为真正的数据库结构,还需要针对具体的DBMS进行物理模型设计,使数据模型走向数据存储应用环节,主要问题包括命名、确定字段类型和编写必要的存储过程与触发器

2.2 数据标准化

1、数据标准化是实现数据共享的基础。使得数据简单化、结构化和标准化。

2、数据标准化的主要内容包括元数据标准化、数据元标准化、数据模式标准化、数据分类与编码标准化数据标准化管理

过程解释说明
元数据标准化元数据是关于数据的数据。元数据被定义为提供关于信息资源或数据的一种结构化数据,是对信息资源的结构化描述。其实质是用于描述信息资源或数据的内容、 覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。
数据元标准化开放系统互连环境(OSIE)四个基本要素(硬件、软件、通信和数据)中的三个要素(硬件、软件和通信
1.数据元:是数据库、文件和数据交换的基本数据单元。数据库或文件由记录或元组等组成,而记录或元组则由数据元组成.由对象、特性和表示组成。
2.数据元提取:方法有两种:自上而下(Top-Down)和自下而上(Down-Top)提取法。对于新建系统的数据元提取,一般适用“自上而下”的提取法。
3.数据元标准
数据模式标准化1.本质:规范化处理,减少冗余2.数据模式的描述方式主要有图描述方法数据字典方法。图描述方法常用的有IDEFIX方法UML图,主要用来描述数据集中的实体和实体之间的相互关系;数据字典形式用来描述模型中的数据集、单个实体、属性的摘要信息。
数据分类和编码标准化就是把数据分类与编码工作纳入标准化工作的领域,按标准化的要求和工作程序, 将各种数据按照科学的原则进行分类以编码,经有关方面协商一致,由主管机构批准、注册,以标准的形式发Q作为共同遵守的准则和依据,并在其相应的级别范围内宣贯和推行。
数据标准化管理包括确定数据需求、制定数据标准、批准数据标准实施数据标准四个阶段
1.确定数据需求:将产生数据需求及相关的元数据、域值等文件。
2.制定数据标准:要处理“确定数据需求”阶段提出的数据需求。如果现有的数据标准不能满足该数据需求,可以建议制定新的数据标准,也可建议修改或者封存已有数据标准。
3.批准数据标准:数据管理机构对提交的数据标准建议、现行数据标准的修改或封存建加行审查一经批准,该数据标准将扩充或修改数据模型。
4.实施数据标准:涉及在各信息系统中实施和改进已批准的数据标准。

2.3 数据运维

过程解释说明
数据存储就是根据不同的应用环境,通过采取合理、安全、有效的方式将数据保存到物理介质上,并能保证对数据实施有效的访问
数据备份1.数据备份是为了防止由于用户操作失误、系统故障等意外原因导致的数据丢失, 而将整个应用系统的数据或一部分关键数据复制到其他存储介质上的过程。
2.数据备份结构可以分为四:DAS备份结构、基于LAN的备份结构、LANFREE备份结构SERVER-FREE备份结构
3.常见的备份策略主要有三种:完全备份、差分备份增量备份
数据容灾1.根据容灾系统保护对象的不同,容灾系统分为应用容灾数据容灾两类。
👉应用容灾用于克服灾难对系统的影响,保证应用服务的完整、可靠和安全等一系列要求,使得用户在任何情况下都能得到正常的服务;
👉 数据容灾关注于保证用户数据的高可用性,在灾难发生时能够保证应用系统中数据尽量少丢失或不丢失,使得应用系统能不间断地运行或尽快地恢复正常运行。
2.衡量容灾系统有两个主要指标:RPORTO,其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间
数据质量与评价控制1.数据质量描述:数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素数据质量非定量元素
2.数据质量评价过程
3.数据质量评价方法:直接评价法间接评价法
👉 直接评价法:通过将数据与内部或外部的参照信息,如理论值等进行对比。确定数据质量。
👉 间接评价法利用数据相关信息,如数据只对数据源、采集方法等的描述推断或评估数据质量。
4.数据质量控制:分成前期控制后期控制两个大部分。
👉前期控制包括数据录入前的质量控制、数据录入过程中的实时质量控制;
👉 后期控制为数据录入完成后的后处理质量控制与评价。
依据建库流程可分为:前期控制、过程控制、系统检测、精度评价
5,数据清理:三个步骤:数据分析一数据检测一数据修正
👉 数据分析:是指从数据中发现控制数据的一般规则,比如字段域、业务规则等, 通过对数据的分析,定义出数据清理的规则,并选择合适的清理算法。
👉 数据检测:是指根据预定义的清理规则及相关数据清理算法,检测数据是否正确,比如是否满足字段域业务规则等,或检测记录是否重复。
👉 数据修正:是指手工或自动地修正检测到的错误数据或重复的记录

2.4 数据开发利用

1、数据开发利用包括数据集成、数据挖掘和数据服务(目录服务、查询服务、浏览和下 载服务、数据分发服务)、数据可视化、信息检索等。

过程解释说明
数据集成1.将驻留在不同数据源中的数据进行整合,向用户提供统一的数据视图,使得用户能以透明的方式访问数据2.数据集成的目标就是充分利用已有数据,在尽量保持其自治性的前提下,维护数据源整体上的一致性,提高数据共享利用效率。实现数据集成的系统称为数据集成系统,它为用户提供了统一的数据源访问接口,用于执行用户对数据源的访问请求。
数据挖掘1.从大量数据中提取或“挖掘”知识,即从大量的、不完全的、有噪声的、模糊的、 随机的实际数据中,提取隐含在其中的、人们不知道的、却是潜在有用的知识。
2.数据挖掘主要任务:数据总结、关联分析、分类和预测、聚类分析和孤立点分析
3.数据挖掘流程:确定分析对象、数据准备、数据挖掘、结果评估与结果应用五阶段
数据服务数据服务主要包括数据且受服务、数据查询与浏览及下载服务、数据分发服务。

1 .数据目录服务:建立目录方便检索服务。
2.数据查询与浏览及下载服务:是网上数据共享服务的重要方式,用户使用数据的方式有查询数据和下载数据两种。
3.数据分发服务:是指数据的生产者通过各种方式将数据传送到用户的过程。
数据可视化1.指将抽象的事物或过程变成图形图像的表示方法
2.可视化的表现方式分为七类:一维数据可视化、二维数据可视化、三维数据可视化、 多维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化。
信息检索1.信息检索的方法:全文检索、字段检索、基于内容的多媒体检索、数据挖掘
2.信息检索的常用技术包括布尔逻辑检索技术、截词检索技术、临近检索技术、限定字段检索技术、限制检索技术等。

2.5 数据库安全

1、数据库安全对策

安全对策要点
防止非法的数据访问数据库管理系统必须根据用户或应用的授权来检查访问请求,以保证仅允许授权的用户访问数据库
防止推导指的是用户通过授权访问的数据,经过推导得出机密信息,而按照安全策略, 该用户是无权访问此机密信息的
保证数据库的完整性是保护数据库不受非授权修改,以及不会因为病毒、系统中的错误等导致的存储数据破坏。这种保护通过访问控制、备份/恢复以及一些专用的安全机制共同实现
保证数据的操作完整性定位于在并发事务中保证数据库中数据的逻辑一致性。由并发管理器子系统负责
保证数据的语义完整性在修改数据时,保证新值在一定范围内符合逻辑上的完整性。对数据值的约束通过完整性约束来描述。
审计和日志审计和日志是有效的威慑和事后追查、分析工具
标识和认证标识和认证是授权、审计等的前提条件是第一道安全防线
机密数据管理对于同时保存机密和公开数据的数据库而言,访问控制主要保证机密数据的保密性,仅允许授权用户的访问。这些用户被赋予对机密数据进行一系列操作的权限,并且禁止传播这些权限。
多级保护将数据划分不同保密级别,户只能访问拥有的权限所对应级别的数据
限界限界的意义在于防止程序之间出现非授权的信息传递

2、数据库安全机制包括用户的身份认证、存取控制、数据库加密、数据审计、推理控制等内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/41409.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】栈与队列

1 栈 1.1 栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出 LIFO (Last In First Out) 的原则。 压栈:栈…

力扣75——图广度优先搜索

总结leetcode75中的图广度优先搜索算法题解题思路。 上一篇:力扣75——图深度优先搜索 力扣75——图广度优先搜索 1 迷宫中离入口最近的出口2 腐烂的橘子1-2 解题总结 1 迷宫中离入口最近的出口 题目: 给你一个 m x n 的迷宫矩阵 maze (下标…

Kafka中的 ISR 机制

ISR 是什么 ISR 的全称叫做: In-Sync Replicas (同步副本集), 可以理解为和 leader 保持同步的所有副本的集合。ISR 动态维护了一个和 leader 副本保持同步副本集合,ISR 中的副本全部都和 leader 的数据保持同步。 设一个场景&a…

JupyterHub实战应用

一、JupyerHub jupyter notebook 是一个非常有用的工具,我们可以在浏览器中任意编辑调试我们的python代码,并且支持markdown 语法,可以说是科研利器。但是这种情况适合个人使用,也就是jupyter notebook以我们自己的主机作为服务器…

PostgreSQL逻辑备份pg_dump使用及其原理解析

一、原理分析 1、循环调用getopt_long解析命令行参数,将参数保存到static DumpOptions dopt;中 2、判断参数是否相容,不相容则退出: options -s/--schema-only and -a/--data-only cannot be used togetheroptions -c/--clean and -a/--data…

uni-app中监听网络状态,并在嵌入webView页面的组件中添加网络监测

uni-app中监听网络状态,并在嵌入webView页面的组件中添加网络监测 uni-app中监听网络状态 下载插件 打开网络异常组件页面,点击"下载插件并导入HBuilderX"按钮,打开HBuilderX软件后,选择需要导入插件的项目&#xff…

机器学习与模型识别1:SVM(支持向量机)

一、简介 SVM是一种二类分类模型,在特征空间中寻找间隔最大的分离超平面,使得数据得到高效的二分类。 二、SVM损失函数 SVM 的三种损失函数衡量模型的性能。 1. 0-1 损失: 当正例样本落在 y0 下方则损失为 0,否则损失为…

系统架构设计师-信息安全技术(1)

目录 一、信息安全基础 1、信息安全五要素 2、网络安全漏洞 3、网络安全威胁 4、安全措施的目标 二、信息加解密技术 1、对称加密 2、非对称加密 3、加密算法对比 三、密钥管理技术 1、数字证书 2、PKI公钥体系 四、访问控制技术 1、访问控制基本模型 2、访问控制的实现技术…

【Linux命令详解 | ssh命令】 ssh命令用于远程登录到其他计算机,实现安全的远程管理

文章标题 简介一,参数列表二,使用介绍1. 连接远程服务器2. 使用SSH密钥登录2.1 生成密钥对2.2 将公钥复制到远程服务器 3. 端口转发3.1 本地端口转发3.2 远程端口转发 4. X11转发5. 文件传输与远程命令执行5.1 文件传输5.1.1 从本地向远程传输文件5.1.2 …

TensorFlow 的基本概念和使用场景

简介 TensorFlow 是一个开源的人工智能框架,由 Google 公司开发,用于构建和训练机器学习模型。 TensorFlow 的基本概念包括: 1. 张量 (Tensor): TensorFlow 中的基本数据结构,可以理解为多维数组。 2. 计算图 (Graph): TensorF…

深度学习入门-3-计算机视觉-图像分类

1.概述 图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉的核心,是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用,如:安防领域的人脸识别…

软考笔记——9.软件工程

软件工程的基本原理:用分阶段的生命周期计划严格管理、坚持进行阶段评审、实现严格的产品控制、采用现代程序设计技术、结果应能清除的审查、开发小组的人员应少而精、承认不断改进软件工程事件的必要性。 软件工程的基本要素:方法、工具、过程 软件生…

babylonjs基于自定义网格生成围栏动画

效果: import { Vector3, Mesh, MeshBuilder, StandardMaterial, Texture, Animation, Color3 } from "babylonjs/core"; import imgUrl from "./image/headerwangge2.png" // 创建模型护栏特效 export default class CreateRail {constructor…

cocos creator 设置精灵镜像翻转效果

在 Cocos Creator 中,你可以通过代码来设置精灵节点的镜像翻转效果。具体来说,你可以使用精灵节点的 setScale 方法来实现这一点。以下是在代码中设置水平镜像翻转和垂直镜像翻转的示例: // 获取精灵节点的引用 let spriteNode cc.find(&qu…

小程序swiper一个轮播显示一个半内容且实现无缝滚动

效果图&#xff1a; wxml&#xff08;无缝滚动&#xff1a;circular"true"&#xff09;&#xff1a; <!--components/tool_version/tool_version.wxml--> <view class"tool-version"><swiper class"tool-version-swiper" circul…

数模论文写作细节要求

目录 优秀论文必要条件 数学建模的基本思路 第一步&#xff1a;了解问题——查文献、找数据 第二步&#xff1a;阐述要解决什么问题、用什么方法 其余步骤&#xff1a;给出数学模型、计算求解、对比结果与真实情况、应用于现实问题。 使用某种数学方法的理由和依据 创…

Python爬虫性能优化:多进程协程提速实践指南

各位大佬们我又回来了&#xff0c;今天我们来聊聊如何通过多进程和协程来优化Python爬虫的性能&#xff0c;让我们的爬虫程序6到飞起&#xff01;我将会提供一些实用的解决方案&#xff0c;让你的爬虫速度提升到新的高度&#xff01; 1、多进程提速 首先&#xff0c;让我们来看…

cs231n assignment2 q5 PyTorch on CIFAR-10

文章目录 嫌啰嗦直接看源码Q5 :PyTorch on CIFAR-10three_layer_convnet题面解析代码输出 Training a ConvNet题面解析代码输出 ThreeLayerConvNet题面解析代码输出 Train a Three-Layer ConvNet题面解析代码输出 Sequential API: Three-Layer ConvNet题面解析代码输出 CIFAR-1…

SpringBoot整合ArtemisMQ笔记

SpringBoot整合ArtemisMQ笔记 本案例是springboot2.4.2整合Apache ArtemisMQ, 发送jms信息和订阅jms消息的代码示例pom配置 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-artemis</artifactId><…

BT利器之wazuh

目录 一、什么是wazuh 二、wazuh的安装 1.仓库安装 2.虚拟机OVA安装 3.其他安装方式 三、浅析wazuh的规则、解码器等告警原理以及主动响应 1.主动响应(active-response) 2.告警信息(alerts) 3.规则以及解码器(rules and decoders) 3.1.规则 3.2.解码器 4.linux后门r…