大数据技术1:大数据架构设计理论

1、传统数据处理系统存在的问题

随着信息时代互联网技术爆炸式的发展,人们对于网络的依赖程度日渐加深,在业务中需要处理的数据量快速增加,逐渐飙升到了一个惊人的数量级。并且数据产生的速度随着采集与 处理技术的更新仍在加快。

数据量从兆字节(MB)、   吉  节 (GB)  的级别到现在的太字节 (TB)、   (PB)  级别,数据量的变化促使数据管理系统 (DBMS)  和数据仓库 (Data  Warehouse,DW) 系统也在 悄然地变化着。传统应用的数据系统架构设计时,应用直接访问数据库系统。当用户访问量增 加时,数据库无法支撑日益增长的用户请求的负载,从而导致数据库服务器无法及时响应用户于数据修改的请求时,就需要增加多个工作处理层并发执行,数据库又将再次成为响应请求的 瓶颈。 一个解决办法是对数据库进行分区 (Horizontal  Partitioning)。分区的方式通常以 Hash   作为 key 。这样就需要应用程序端知道如何去寻找每个key 所在的分区。

但即便如此,问题仍然会随着用户请求的增加接踵而来。当之前的分区无法满足负载时, 就需要增加更多分区,这时就需要对数据库进行reshard resharding    的工作非常耗时而痛苦,因 为需要协调很多工作,例如数据的迁移、更新客户端访问的分区地址,更新应用程序代码。如 果系统本身还提供了在线访问服务,对运维的要求就更高。这种情况下,就可能导致数据写到 错误的分区,因此必须要编写脚本来自动完成,且需要充分的测试。

由此可见,在数据层和应用中增加了缓冲隔离,数据量的日渐增多仍然迫使传统数据仓库 的开发者一次又一次挖掘系统,试图在各个方面寻找一点可提升的性能。架构变得越来越复杂, 增加了队列、分区、复制、重分区脚本 (Resharding       Scripts)。应用程序还需要了解数据库的 schema, 并能访问到正确的分区。问题在于:数据库对于分区是不了解的,无法帮助你应对分 区、复制与分布式查询。

最严重的问题是系统并没有对人为错误进行工程设计,仅靠备份是不能治本的。归根结底, 系统还需要限制因为人为错误导致的破坏。然而,数据永不止步,传统架构的性能被压榨至极  限,检索数据的延迟和频繁的硬件错误问题逐渐使用户不可接受,在传统架构上进行继续挖掘 被证明是“挤牙膏”。帮助处理海量数据的新技术和新架构开发被提上日程,以求得让企业在现代竞争中占得先机。越来越多的开发者参与到新技术与新架构的研究探讨

中,结论与成果逐渐丰硕。人们发现,当系统的用户访问量持续增加时,就需要考虑读写分离技术 (Master-Slave)和分库分表技术。常见读写分离技术架构如图19-2所示。

现在,数据处理系统的架构变得越来越复杂了,相比传统的数据库, 一次数据处理的过程增加了队列、分区、复制等处理逻辑。应用程序不仅仅需要了解数据的存储位置,还需要了解数据库的存储格式、数据组织结构 (schema)    等信息,才能访问到正确的数据。

随着技术的不断发展,商业现实也发生了变化。除了要求同一时间内可以处理的数据量提 升,现代商业要求更快做出的决定更有价值。现在,KafkaStormTridentSamzaSpark Flink Parquet Avro Cloud       providers 等新技术成为了工程师和企业广泛采用的流行语。基 于新技术,不少企业开发了自己的数据处理方式,现代基于Hadoop   Map/Reduce    道 ( 使  Kafka,Avro     和数据仓库等现代二进制格式,即 Amazon  Redshift,用于临时查询)采用了 如图所示。

这个方式虽然看起来有其非常好的优势,但它仍然是一种传统的批处理方式,具有所有已 知的缺点,主要原因是客户端的数据在批处理花费大量时间完成之前的数据处理时,新的数据 已经进入而导致数据过时。

基于传统系统出现的上述问题和无数人对于新技术的渴求与探讨,“大数据”的概念被适时 的提出,研究与设计大数据系统成为了新的风潮。我们要学习的大数据系统架构设计理论,正 是为了解决在处理海量数据时出现的种种问题,并让系统在一定的度量属性下可以接受,成为 构造大数据系统的良好范式。


2、大数据处理系统架构分析

2.1  大数据处理系统面临挑战

当今,大数据的到来,已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候, 大数据就无处不在。大数据术语广泛地出现也使得人们渐渐明白了它的重要性。大数据渐渐向  人们展现了它为学术、工业和政府带来的巨大机遇。与此同时,大数据也向参与的各方提出了  巨大的挑战。那么主要挑战表现在以下三点。

(1)如何利用信息技术等手段处理非结构化和半结构化数据

大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据,它们大量存在 于社交网络、互联网和电子商务等领域。另一方面,也许有90%的数据来自开源数据,其余的 被存储在数据库中。大数据的不确定性表现在高维、多变和强随机性等方面。股票交易数据流 是不确定性大数据的一个典型例子。

大数据催生了大量研究问题。非结构化和半结构化数据的个体表现、 一般性特征和基本原 理尚不清晰,这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学 科交叉来研究和讨论。给定一种半结构化或非结构化数据,比如图像,如何把它转换成多维数 据表、面向对象的数据模型或者直接基于图像的数据模型?值得注意的是,大数据每一种表示 形式都仅为数据本身的一个侧面表现,并非全貌。

如果把通过数据挖掘提取“粗糙知识”的过程称为“一次挖掘”过程,那么将粗糙知识与被 量化后主观知识,包括具体的经验、常识、本能、情境知识和用户偏好,相结合而产生“智能 知识”过程就叫作“二次挖掘”。从“一次挖掘”到“二次挖掘”,就类似于事物由“量”到 “质”的飞跃。

由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所产生的结构化的 “粗糙知识”(潜在模式)也伴有一些新的特征。这些结构化的粗糙知识可以被主观知识加工处 理并转化,生成半结构化和非结构化的智能知识。寻求“智能知识”反映了大数据研究的核心 价值。

(2)如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模

这一问题的突破是实现大数据知识发现的前提和关键。从长远角度来看,依照大数据的个 体复杂性和随机性所带来的挑战将促使大数据数学结构的形成,从而促使大数据统一理论日趋 完备。从短期而言,学术界鼓励发展一种一般性的结构化数据和半结构化、非结构化数据之间 的转换原则,以支持大数据的交叉工业应用。管理科学,尤其是基于最优化的理论将在大数据 知识发现的一般性方法和规律性的研究中发挥重要的作用。

大数据的复杂形式导致许多对“粗糙知识”的度量和评估相关的研究问题。已知的最优 化、数据包络分析、期望理论、管理科学中的效用理论可以被应用到研究如何将主观知识 融合到数据挖掘产生的粗糙知识的“二次挖掘”过程中。这里人机交互将起到至关重要的 作用。

(3)数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响

由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题,对传统的数据挖掘理论   和技术提出了新的挑战。在大数据环境下,管理决策面临着两个“异构性”问题:“数据异构性” 和“决策异构性”。传统的管理决策模式取决于对业务知识的学习和日益积累的实践经验,而管   理决策又是以数据分析为基础的。

大数据已经改变了传统的管理决策结构的模式。研究大数据对管理决策结构的影响会成为 一个公开的科研问题。除此之外,决策结构的变化要求人们去探讨如何为支持更高层次的决策 而去做“二次挖掘”。无论大数据带来了哪种数据异构性,大数据中的“粗糙知识”仍可被看作 “一次挖掘”的范畴。通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性 之间的桥梁是十分必要的。探索大数据环境下决策结构是如何被改变的,相当于研究如何将决 策者的主观知识参与到决策的过程中。

大数据是一种具有隐藏法则的人造自然,寻找大数据的科学模式将带来对研究大数据之美 的一般性方法的探究,尽管这样的探索十分困难,但是如果我们找到了将非结构化、半结构化 数据转换成结构化数据的方法,已知的数据挖掘方法将成为大数据挖掘的工具。

2.2  大数据处理系统架构特征

Storm 之父Nathan Marz 在《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》 一书中,提出了他认为大数据系统应该具有的属性。

(1)鲁棒性和容错性(Robust and Fault-tolerant )

对大规模分布式系统来说,机器是不可靠的,可能会宕机,但是系统需要是健壮、行为正 确的,即使是遇到机器错误。除了机器错误,人更可能会犯错误。在软件开发中难免会有一些 Bug,   系统必须对有Bug 的程序写入的错误数据有足够的适应能力,所以比机器容错性更加重 要的容错性是人为操作容错性。对于大规模的分布式系统来说,人和机器的错误每天都可能会 发生,如何应对人和机器的错误,让系统能够从错误中快速恢复尤其重要。

(2)低延迟读取和更新能力 (Low Latency Reads and Updates)

许多应用程序要求数据系统拥有几毫秒到几百毫秒的低延迟读取和更新能力。有的应用程 序允许几个小时的延迟更新,但是只要有低延迟读取与更新的需求,系统就应该在保证鲁棒性 的前提下实现。

(3)横向扩容 (Scalable)

当数据量/负载增大时,可扩展性的系统通过增加更多的机器资源来维持性能。也就是常 说的系统需要线性可扩展,通常采用scale out(通过增加机器的个数)而不是 scale up (通过增 强机器的性能)。

(4)通用性(General)

系统需要支持绝大多数应用程序,包括金融领域、社交网络、电子商务数据分析等。

(5)延展性(Extensible)

在新的功能需求出现时,系统需要能够将新功能添加到系统中。同时,系统的大规模迁移 能力是设计者需要考虑的因素之一,这也是可延展性的体现。

(6)即时查询能力 (Allows Ad Hoc Queries)

用户在使用系统时,应当可以按照自己的要求进行即席查询(Ad过系统多样化数据处理,产生更高的应用价值。

(7)最少维护能力(Minimal   Maintenance)

系统需要在大多数时间下保持平稳运行。使用机制简单的组件和算法让系统底层拥有低复 杂度,是减少系统维护次数的重要途径。Marz 认为大数据系统设计不能再基于传统架构的增量 更新设计,要通过减少复杂性以减少发生错误的几率、避免繁重操作。

(8)可调试性 (Debuggable)

系统在运行中产生的每一个值,需要有可用途径进行追踪,并且要能够明确这些值是如何 产生的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/200394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# 雪花算法生成Id工具类

写在前面 传说自然界中并不存在两片完全一样的雪花的,每一片雪花都拥有自己漂亮独特的形状、独一无二;雪花算法也表示生成的ID如雪花般独一无二,该算法源自Twitter。 雪花算法主要用于解决分布式系统的唯一Id生成问题,在生产环境…

装修流程篇

装修流程 https://www.xiaohongshu.com/explore/627ba70d00000000210357b3 https://www.xiaohongshu.com/explore/63b6bc0c000000002203776f 半包装修流程 https://www.xiaohongshu.com/explore/64e5ea3b0000000003021711 户型图 效果 https://www.xiaohongshu.com/ex…

JVM之GC垃圾收集器(六)

GC 垃圾收集器 Java 堆内存被划分为新生代和年老代两部分,新生代主要使用复制和标记-清除垃圾回收算法;年老代主要使用标记-整理垃圾回收算法,因此 java 虚拟中针对新生代和年老代分别提供了多种不同的垃圾收集器,JDK1.6 中 Sun …

FluxMQ—2.0.8版本更新内容

FluxMQ—2.0.8版本更新内容 前言 FLuxMQ是一款基于java开发,支持无限设备连接的云原生分布式物联网接入平台。FluxMQ基于Netty开发,底层采用Reactor3反应堆模型,具备低延迟,高吞吐量,千万、亿级别设备连接&#xff1…

调试GMS应用,报错“此设备未获得play保护机制认证”问题解决

不少同学在调试GMS相关应用时,需登录Google账号,有时会弹出如下通知。 Google登录界面也会出现如下提示 这个报错的原因是设备未通过Google认证,google服务器未配置荣耀设备的型号白名单导致 国内网页有一些指导方法在鸿蒙\荣耀的设备上消除这…

07、pytest指定要运行哪些用例

官方用例 # 目录结构 | |----test_mod.py | |----testing||----test_dir.py# content of test_mod.py import pytestdef func(x):return x 1def test_mod():print("test_mod function was invoked")assert func(3) 5def test_func():print("test_func was in…

【机器学习】聚类(三):原型聚类:高斯混合聚类

文章目录 一、实验介绍1. 算法流程2. 算法解释3. 算法特点4. 应用场景5. 注意事项 二、实验环境1. 配置虚拟环境2. 库版本介绍 三、实验内容0. 导入必要的库1. 全局调试变量2. 调试函数3. 高斯密度函数(phi)4. E步(getExpectation&#xff09…

ssm农业信息管理系统源码和论文

摘 要 网络的广泛应用给生活带来了十分的便利。所以把农业信息管理与现在网络相结合,利用java技术建设农业信息管理系统,实现农业信息管理的信息化。则对于进一步提高农业信息管理发展,丰富农业信息管理经验能起到不少的促进作用。 农业信息…

QT 无法打开包括文件 “xxxx.h”: No such file or direcotry 提升控件后提示找不到头文件

问题复现 UI文件提升控件后,提示找不到头文件。 原因 Qt中的ui文件会经过moc编辑器生成ui_xxx.h头文件。 在主页面的ui文件中因为使用了提升的widget,所以ui的ui头文件因该包含自定义控件的头文件。但是头文件的路径可以看出已经错误了。 #include &…

圣诞节临近,外贸人怎么做才能让客户疯狂下单?

(1)提醒客户即将而至的节假日:圣诞节工厂会很忙,紧接着中国春节也快来了,给采购商制造紧张感! 建议在与海外采购商的沟通中善于运用各种技巧,可以告诉他们,因为假期临近、季节变化等…

消费数据可视化大屏,助力金融机构智慧运维

在今天的数字化时代,消费数据的可视化已经成为了一种重要的趋势。通过将消费数据以图表、图像等形式展现出来,可以帮助我们更直观地了解消费者的行为和趋势。同时,这也为企业提供了更多的分析和决策依据。无论是针对市场营销策略的制定&#…

在vscode下将ipynb文件转成markdown(.md文件)的方法

这里写自定义目录标题 写在最前面安装nbconvert工具vscode界面 or cmd终端 写在最前面 正常情况下,可以在vscode的ipynb界面点击上面的三个点,里面有export导出,可以选择直接输出html和pdf 但是没有markdown(.md文件)…

信号是怎么搞到电磁波上面去的呢?

在之前的文章中,我们曾多次讲到电磁波的美妙,但是有了电磁波就可以通信了吗? No,我们要把信息加载到电磁波上,这个电磁波就可以作为信息的载体来工作了。可是信号是怎么加载到电磁波上的呢? 今天我们一起…

【数据结构与算法篇】八种排序 (C++实现)

多种排序算法的Cpp实现 一. 排序的概念及其运用排序的概念 二. 一图速览常见排序三. 排序的C实现1> 直接插入排序2> 希尔排序希尔排序代码实现(希尔所实现)希尔排序代码实现(优化版) 3> 选择排序选择排序的代码实现(同时选出最大和最小的元素) 4> 堆排序堆排序的代…

multipath

目录 文章目录 目录什么是multipathmultipath配置文件demo1(最小化配置)demo2demo3字段解析 命令**案例:查看多路径设备的信息。(常用)****案例:刷新multipath状态**案例:-v2/-v3 打印信息案例:查看当前活动路径的设备信息案例&am…

第17章 匿名函数

第17.1节 匿名函数的基本语法 [捕获列表](参数列表) mutable(可选) 异常属性 -> 返回类型 { // 函数体 }语法规则:lambda表达式可以看成是一般函数的函数名被略去,返回值使用了一个 -> 的形式表示。唯一与普通函数不同的是增加了“捕获列表”。 …

羊大师讲解鲜羊奶的营养价值

羊大师讲解鲜羊奶的营养价值 鲜羊奶是一种天然、营养丰富的食品,拥有独特的健康价值。它不仅具备高蛋白、低脂肪的特点,还富含各种维生素和矿物质,对人体健康有着卓越的贡献。今天,我们就来一探鲜羊奶的营养奥秘。 鲜羊奶的营养…

Data Linked UI

DataLinkedUl是一个Unity框架,它允许您在为您的应用程序创建用户界面时实现专业的数据驱动方法。使用此资产,您可以创建灵活的基于瓦片的任意大小的复杂接口系统。 核心功能: 灵活性-允许适应和调整数据变化,允许各种结构和功能配置,而不需要对现有系统进行重大破坏。 可伸…

AI封测需求强劲, AMD、英伟达等巨头将助推产业链增长 | 百能云芯

近期,超微(AMD)和英伟达(NVIDIA)相继发布了新一轮AI芯片,为封测产业链注入了新的活力。据业内人士透露,客户端对AI封测的需求愈发强劲,整体量能超过原先的估计,其中日月光…

我有才满足于自媒体行业的知识付费平台课程

行业资讯 实时行业热点新闻、企业动态资讯、社区热门话题,一榜打尽 通过图文、音频、视频、动态在内的多元媒介形式,致力于为企业提供多元化的资讯内容展示方式。 自定义咨询专栏,归类资讯内容,建立结构化内容体系 可以把资讯归…