【信息系统项目管理师】--【信息技术发展】--【现代化创新发展】--【大数据】

文章目录

  • 第二章 信息技术发展
    • 2.2 新一代信息技术及应用
      • 2.2.3 大数据
        • 1.技术基础
        • 2.关键技术
        • 3.应用和发展

第二章 信息技术发展

  信息技术是在信息科学的基本原理和方法下,获取信息、处理信息、传输信息和使用信息的应用技术总称。从信息技术的发展过程来看,信息技术在传感器技术、通信技术和计算机技术的基础上,融合创新和持续发展,孕育和产生了物联网、云计算、大数据、区块链、人工智能和虚拟现实等新一代信息技术,成为支撑当今经济活动和社会生活的基石,代表着当今先进生产力的发展方向。

  从宏观上讲,信息技术与信息化、信息系统密不可分。信息技术是实现信息化的手段,是信息系统建设的基础。信息化的需求驱动信息技术高速发展,信息系统的广泛应用促进了信息技术的迭代创新。近年来,随着新一代信息技术的发展,信息及其相关的数据成为重要生产要素和战略资源、使得人们能更高效地进行资源优化配置,持续推动传统产业不断升级、社会劳动生产率的不断提升,从而带动全球信息化发展和数字化转型,新一代信息技术已成为世界各国投资和重点发展的战略性产业。


2.2 新一代信息技术及应用

  信息技术在智能化、系统化、微型化、云端化的基础上不断融合创新,促进了物联网、云计算、大数据、区块链、人工智能、虚拟现实等新一代信息技术的诞生。新一代信息技术与信息资源充分开发利用形成的新模式、新业态等,是信息化发展的主要趋势,也是信息系统集成领域未来的重要业务范畴。


2.2.3 大数据

  大数据(Big Data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在这里插入图片描述

1.技术基础

  大数据是具有体量大、结构多样、时效性强等特征的数据,处理大数据需要采用新型计算架构和智能算法等新技术。大数据从数据源到最终价值实现一般需要经过数据准备、数据存储与管理、数据分析和计算、数据治理和知识展现等过程,涉及数据模型、处理模型、计算理论以及与其相关的分布计算、分布存储平台技术、数据清洗和挖掘技术、流式计算和增量处理技术、数据质量控制等方面的研究。一般来说,大数据主要特征包括:

●数据海量:大数据的数据体量巨大,从TB级别跃升到PB级别(1PB=1024TB)、EB级别(1EB=1024PB),甚至达到ZB级别(1ZB=1024EB)。
●数据类型多样:大数据的数据类型繁多,一般分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
●数据价值密度低:数据价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。
●数据处理速度快:为了从海量的数据中快速挖掘数据价值,一般要求要对不同类型的数据进行快速的处理,这是大数据区分于传统数据挖掘的最显著特征。

2.关键技术

  大数据技术作为信息化时代的一项新兴技术,技术体系处在快速发展阶段,涉及数据的处理、管理、应用等多个方面。具体来说,技术架构是从技术视角研究和分析大数据的获取、管理、分布式处理和应用等。大数据的技术架构与具体实现的技术平台和框架息息相关,不同的技术平台决定了不同的技术架构和实现。从总体上说,大数据技术架构主要包含大数据获取技术、分布式数据处理技术和大数据管理技术,以及大数据应用和服务技术。

  1)大数据获取技术

  目前,大数据获取的研究主要集中在数据采集、整合和清洗三个方面。数据采集技术实现数据源的获取,然后通过整合和清理技术保证数据质量。

  数据采集技术主要是通过分布式爬取、分布式高速高可靠性数据采集、高速全网数据映像技术,从网站上获取数据信息。除了网络中包含的内容之外,对于网络流量的采集可以使用
DPI或DFI等带宽管理技术进行处理。

  数据整合技术是在数据采集和实体识别的基础上,实现数据到信息的高质量整合。数据整合技术包括多源多模态信息集成模型、异构数据智能转换模型、异构数据集成的智能模式抽取和模式匹配算法、自动容错映射和转换模型及算法、整合信息的正确性验证方法、整合信息的可用性评估方法等。

  数据清洗技术一般根据正确性条件和数据约束规则,清除不合理和错误的数据,对重要的信息进行修复,保证数据的完整性。包括数据正确性语义模型、关联模型和数据约束规则、数据错误模型和错误识别学习框架、针对不同错误类型的自动检测和修复算法、错误检测与修复结果的评估模型和评估方法等。

  2)分布式数据处理技术

  分布式计算是随着分布式系统的发展而兴起的,其核心是将任务分解成许多小的部分,分配给多台计算机进行处理,通过并行工作的机制,达到节约整体计算时间,提高计算效率的目的。目前,主流的分布式计算系统有Hadoop、Spark和Storm。Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

  大数据分析与挖掘技术主要指改进已有数据挖掘和机器学习技术:开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术:创新基于对象的数据连接、相似性连接等大数据融合技术:突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

  3)大数据管理技术

  大数据管理技术主要集中在大数据存储、大数据协同和安全隐私等方面。

  大数据存储技术主要有三个方面。①采用MPP架构的新型数据库集群,通过列存储、粗粒度索引等多项大数据处理技术和高效的分布式计算模式,实现大数据存储:②围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,通过扩展和封装Hadoop来实现对大数据存储、分析的支撑:③基于集成的服务器、存储设备、操作系统、数据库管理系统,实现具有良好的稳定性、扩展性的大数据一体机。

  多数据中心的协同管理技术是大数据研究的另一个重要方向。通过分布式工作流引擎实现工作流调度、负载均衡,整合多个数据中心的存储和计算资源,从而为构建大数据服务平台提供支撑。

  大数据隐私性技术的研究,主要集中于新型数据发布技术,尝试在尽可能少损失数据信息的同时最大化地隐藏用户隐私。在数据信息量和隐私之间是有矛盾的,目前没有非常好的解决办法。

  4)大数据应用和服务技术

  大数据应用和服务技术主要包含分析应用技术和可视化技术。

  大数据分析应用主要是面向业务的分析应用。在分布式海量数据分析和挖掘的基础上,大数据分析应用技术以业务需求为驱动,面向不同类型的业务需求开展专题数据分析,为用户提供高可用、高易用的数据分析服务。

  可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的数据。大数据的可视化技术主要集中在文本可视化技术、网络(图)可视化技术、时空数据可视化技术、多维数据可视化和交互可视化等。在技术方面,主要关注原位交互分析(In Situ Interactive Analysis)、数据表示、不确定性量化和面向领域的可视化工具库。


3.应用和发展

  大数据像水、矿石、石油一样,正在成为新的资源和社会生产要素,从数据资源中挖掘潜在的价值,成为当前大数据时代研究的热点。如何快速对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态,是其应用价值的重要体现。

  (1)在互联网行业,网络的广泛应用和社交网络已深入到社会工作、生活的方方面面,海量数据的产生、应用和服务一体化。每个人都是数据的生产者、使用者和受益者。从大量的数据中挖掘用户行为,反向传输到业务领域,支持更准确的社会营销和广告,可增加业务收入,促进业务发展。同时,随着数据的大量生成、分析和应用,数据本身己成为可以交易的资产,大数据交易和数据资产化成为当前具有价值的领域和方向。

  (2)在政府的公共数据领域,结合大数据的采集、治理和集成,将各个部门搜集的信息进行剖析和共享,能够发现管理上的纰漏,提高执法水平,增进财税增收和加大市场监管程度,大大改变政府管理模式、节省政府投资、增强市场管理,提高社会治理水平、城市管理能力和人民群众的服务能力。

  (3)在金融领域,大数据征信是重要的应用领域。通过大数据的分析和画像,能够实现个人信用和金融服务的结合,从而服务于金融领域的信任管理、风控管理、借贷服务等,为金融业务提供有效支撑。

  (4)在工业领域,结合海量的数据分析,能够为工业生产过程提供准确的指导,如在航运大数据领域,能够使用大数据对将来航路的国际贸易货量进行预测分析,预知各个口岸的热度:能够利用天气数据对航路的影响进行分析,提供相关业务的预警、航线的调整和资源的优化调配方案,避免不必要的亏损。

  (5)在社会民生领域,大数据的分析应用能够更好地为民生服务。以疾病预测为例,基于大数据的积累和智能分析,能够透视人们搜索“流感、肝炎、肺结核和未病”的发病时间和地点分布,结合气温变化、环境指数、人口流动等因素建立预测模型,能够为公共卫生治理人员提供多种传染病的趋势预测,帮助其提早进行预防部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/710380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言:数据在内存中的存储

C语言:数据在内存中的存储 整数存储原码、反码、补码转换规则数据与内存的关系 大小端字节序浮点数存储IEEE 754标准存储过程取用过程 数据的存储范围 整数存储 原码、反码、补码 整数的2进制表示方法有三种,即原码、反码和补码 三种表示方法均有符号位…

【Linux】进程间通信之共享内存

文章目录 引入共享内存的原理共享内存的相关接口shmget()shmat()shmdt()shmctl() 共享内存的简单使用共享内存的特点 引入 进程间通信,顾名思义就是一个进程和另一个进程之间进行对话,以此完成数据传输、资源共享、通知事件或进程控制等。 众所周知&am…

Nodejs基于vue的个性化服装衣服穿搭搭配系统sprinboot+django+php

本个性化服装搭配系统主要根据用户数据信息,推荐一些适合的搭配穿搭,同时,用户也可自己扫描上传自身衣物以及输入存放位置,搭配后存储到“我的搭配”中,以便下次挑选,既可以节省搭配时间,也方便…

Stable Video Diffusion(SVD)视频生成模型发布 1.1版

前言 近日,随着人工智能技术的飞速发展,图像到视频生成技术也迎来了新的突破。特别是Stable Video Diffusion(SVD)模型的最新版本1.1,它为我们带来了从静态图像生成动态视频的全新能力。本文将深入解析SVD 1.1版本的核…

Vue3使用JSX/TSX

文章目录 1. 什么是 JSX & TSX?JSX(JavaScript XML)TSX(TypeScript XML) 2.Vue3 中使用 TSX基本渲染 & 响应式 & 事件 3.JSX 和 template 哪个好呢?总结 1. 什么是 JSX & TSX? 提示:JSX…

【K8s】初识PV和PVC

​ 目录 收起 O、致谢 一、前言 二、Volume 2.1 什么是Volume 2.2 为什么要引入Volume 2.3 Volume类型有哪些 2.4 Volume如何使用 2.4.1 通过emptyDir共享数据 2.4.2 使用HostPath挂载宿主机文件 2.4.3 挂载NFS至容器 三、PV和PVC 3.1 什么是PV和PVC 3.2 为什么要引入PV和PVC 3…

【QT+QGIS跨平台编译】之五十九:【QGIS_CORE跨平台编译】—【错误处理:字符串错误】

文章目录 一、字符串错误二、处理方法三、涉及到的文件四、宽字节与多字节问题五、字符转换处理一、字符串错误 常量中有换行符错误: 也有const char * 到 LPCWSTR 转换的错误 二、处理方法 需要把对应的文档用记事本打开,另存为 “带有BOM的UTF-8” 三、涉及到的文件 src…

J17资本合伙人SKY LAI确认出席Hack .Summit() 2024区块链开发者盛会

J17资本合伙人SKY LAI确认出席由 Hack VC 主办,并由 AltLayer 和 Berachain 联合主办,与 SNZ 和数码港合作,由 Techub News 承办的Hack.Summit() 2024区块链开发者盛会。 J17资本合伙人SKY LAI负责管理公司的Web3基金,投资领域涵盖…

vivo 在离线混部探索与实践

作者:来自 vivo 互联网服务器团队 本文根据甘青、黄荣杰老师在“2023 vivo开发者大会"现场演讲内容整理而成。 伴随 vivo 互联网业务的高速发展,数据中心的规模不断扩大,成本问题日益突出。在离线混部技术可以在保证服务质量的同时&…

第104讲:数据库分库分表的意义与实现策略(MyCat)

文章目录 1.分库分表的目的2.分库分表的拆分策略2.1.垂直拆分2.2.水平拆分 3.Mycat水平拆分的分片规则 1.分库分表的目的 互联网中的应用程序,随着公司的发展,应用系统的使用人数、数据量都再持续增长,数据库层面就会产生一定的瓶颈。 如果…

Transformer之Residuals Decoder

The Residuals 我们需要提到的编码器架构中的一个细节是,每个编码器中的每个子层(self-attention,,ffnn)周围都有一个残余连接,然后是 layer-normalization 步骤。 如果我们要可视化向量和与 self attention 相关的 layer-norm 运算&#x…

基于视觉识别的自动采摘机器人设计与实现

一、前言 1.1 项目介绍 【1】项目功能介绍 随着科技的进步和农业现代化的发展,农业生产效率与质量的提升成为重要的研究对象。其中,果蔬采摘环节在很大程度上影响着整个产业链的效益。传统的手工采摘方式不仅劳动强度大、效率低下,而且在劳…

图像处理基础——频域、时域

傅里叶分析不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界观的思维模式。 一、什么是频域 时域 时域是信号在时间轴随时间变化的总体概括;频域是把时域波形的表达式做傅立叶等变化得到复频域的表达式,所画出的波形就是频谱图&a…

Docker技术概论(8):Docker Desktop原生图形化管理

Docker技术概论(8) Docker 原生图形化管理 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:…

字节序转换函数

目录 为什么要字节序转换?网络协议指定通讯字节序为大端字节序转换函数主机字节序转换为网络字节序hton1 (host to network l是length指长整型)htons (host to network s是short指短整型)两个函数的代码案例 网络字节序转主机字节序ntoh1ntohs 为什么要字节序转换&a…

【报名指南】2024年第九届数维杯数学建模挑战赛报名全流程图解

1.官方报名链接: 2024年第九届数维杯大学生数学建模挑战赛http://www.nmmcm.org.cn/match_detail/32 2.报名流程(电脑与手机报名操作流程一致) 参赛对象为在校专科生、本科生、研究生,每组参赛人数为1-3人(指导老师不…

【MySQL】数据查询——DQL基本数据库查询

目录 查询语法1. 查询表中所有的数据行和列,采用“*”符号2. 查询表中指定列的数据。3. 在查询中使用别名,使用“AS”关键字。4. 在查询中使用常量列:如果需要将一些常量的默认信息添加到输出结果中,以方便统计或计算。可以使用常…

Unity 预制体与变体

预制体作用: 更改预制体,则更改全部的以预制体复制出的模型。 生成预制体: 当你建立好了一个模型,从层级拖动到项目中即可生成预制体。 预制体复制模型: 将项目中的预制体拖动到层级中即可复制。或者选择物体复制粘贴。…

Jenkins自动化部署之流水线模式部署

文章目录 任务类型Pipeline流水线项目声明式的Pipeline脚本式Pipeline 示例脚本生成Tools配置示例 高级Pipeline Script from SCM 任务类型 在Jenkins中,有不同类型的任务(项目)适用于不同的构建需求。以下是一些常见的Jenkins任务类型&…

MYSQL03高级_新增用户、授予权限、授权底层表结构、角色理解

文章目录 ①. 登录服务器操作②. 用户的增删改③. 修改用户密码④. MySQL8密码管理⑤. 权限列表及原则⑥. 授予查看回收权限⑦. 底层权限表操作⑧. 角色的理解 ①. 登录服务器操作 ①. 启动MySQL服务后,可以通过mysql命令来登录MySQL服务器,命令如下: mysql –h hostname|hos…