大数据开发--01.初步认识了解

一.环境准备

1.使用虚拟机构建至少三台linux服务器

2.使用公有云来部署服务器

 

 

 二.大数据相关概念

大数据是指处理和分析大规模数据集的一系列技术、工具和方法。这些数据集通常涉及海量的数据,包括结构化数据(如关系型数据库中的表格)以及非结构化的数据(如图像、音频或视频文件等)。

大数据的特点之一是规模巨大,可以达到数百TBPB级别。另一个特点是多样性,不同类型的数据可能需要不同的处理和分析方法。此外,大数据还具有高速增长的趋势,随着互联网的普及和社会化媒体的发展,大量的新数据源不断涌现。

为了有效地处理和分析这些大规模的数据集,大数据技术提供了一系列解决方案。其中一些常见的技术包括:

  1. 分布式存储系统:通过将数据分散存储在多个物理位置上,可以提高系统的可靠性、可扩展性和性能。

  2. 数据库管理系统(DBMS):用于组织和管理结构化数据的软件工具,如关系型数据库或NoSQL数据库。

  3. 数据挖掘技术:使用统计学、机器学习等方法从大规模数据中提取有价值的信息和模式。

  4. 实时分析:通过实时处理和分析大量流式数据来支持决策制定和业务运营。

  5. 云计算平台:提供弹性计算资源,可以根据需求动态扩展或缩减系统规模,以满足大数据的处理需求。

   三V

  • Volume(大量):大数据通常指的是数据量非常庞大,传统数据库管理系统无法有效处理的数据集合。随着互联网的发展和信息化程度的提高,大数据集合的规模越来越大,从几TB到PB、甚至EB级别的数据都很常见。

  • Variety(多样性):大数据来源多样,包括结构化数据(如关系型数据库中的表格数据)、半结构化数据(如XML、JSON格式的数据)和非结构化数据(如文本、音频、视频等)。这些不同类型的数据需要以不同的方式来进行处理和分析。

  • Velocity(高速度):大数据集的数据产生速度非常快,需要实时或近实时地对数据进行处理和分析。例如,社交媒体平台上的用户生成的数据、传感器产生的数据等都具有高速度的特点。

大数据技术被广泛应用于各个领域,如金融、医疗、零售、制造、互联网等,帮助企业和组织更好地理解市场趋势、用户行为、业务情况等,从而做出更明智的决策和规划。随着大数据技术的不断发展和普及,大数据在推动企业数字化转型和创新方面发挥着越来越重要的作用。

 

 

 

三.分布式存储相关概念

1.概念

分布式存储是一种将数据分散在多个物理位置的计算机系统中的技术。它允许用户从任何地方访问和共享数据,而不必依赖于单一的物理服务器或存储设备。

分布式存储通过使用多台计算机来实现数据冗余高可用性可扩展性。每个节点(即一台计算机)都负责存储一部分数据,并与其他节点进行通信以协调数据的更新和访问。这种架构可以提供更高的性能、更好的容错能力和更大的容量,适用于需要处理大量数据的应用程序或系统。

分布式存储通常使用一些常见的技术来实现,如文件系统复制(例如RAID)、网络文件系统(NFS)、对象存储(如Hadoop Distributed File System)和数据库分片等。这些技术可以提供不同的功能和性能特点,以满足不同应用的需求。

在分布式存储中,数据的一致性是关键问题之一。为了确保数据的正确性和可用性,通常使用一些机制来协调节点之间的通信、同步数据更新并解决冲突等问题。常见的解决方案包括基于Paxos算法的分布式一致性协议(如ZooKeeper)和基于Raft算法的分布式一致性协议(如Hazelcast)等。


 2.特点

分布式存储系统通常具有以下特点:

  1. 冗余和容错:分布式存储系统通常会在多个存储节点上存储数据的多个副本,以确保数据不会丢失。当某个存储节点发生故障时,系统能够继续提供数据访问服务,以保证数据的可靠性。

  2. 负载均衡:分布式存储系统会根据数据量和访问量等因素,将存储任务均匀地分配到不同的存储节点上,以确保系统的性能能够得到最大化的利用。

  3. 可扩展性:分布式存储系统可以根据需求方便地进行横向扩展,增加存储节点以支持更大规模的数据存储和访问需求。

  4. 高性能:通过在多个存储节点上并行地存储和访问数据,分布式存储系统能够提供更快的数据读写速度和响应时间,以满足用户对高性能的需求。

  5. 可用性:由于数据被分散存储在多个节点上,即使其中一部分节点发生故障,系统仍然可以继续提供数据访问服务,以确保数据的可用性。

 

 

 四.大数据常见两种架构

1.去中心化架构

 

 

2.中心化架构

五.分布式计算

分布式计算是一种通过将计算任务分解为多个独立的子任务,并将这些子任务分配到不同的计算机节点上进行并行处理的技术。这种技术可以提高系统的性能和可扩展性,适用于大规模数据集或复杂计算问题。

在分布式计算中,通常使用一个主进程来协调各个子进程之间的通信和资源管理。每个子进程负责执行特定的任务,并将结果返回给主进程。通过将任务分解为多个独立的子任务并进行并行处理,可以大大提高系统的性能和吞吐量。

常见的分布式计算框架包括HadoopSpark等。这些框架提供了一个统一的编程模型和工具链来管理大规模数据集和执行复杂的计算任务。它们支持多种存储格式(如文件系统、数据库)以及各种计算引擎(如MapReduce、Spark),可以根据需求灵活地选择不同的组件组合。

分布式计算在大数据处理中具有广泛的应用场景。例如,它可以用于大规模数据的存储和管理、数据分析和挖掘、机器学习模型训练等任务。通过将这些任务分解为多个并行执行的任务,可以大大提高系统的性能和吞吐量,从而更好地满足用户的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/753679.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美联社报道波场与亚马逊云计算重磅合作 称符合其去中心化使命

近日,波场TRON宣布已集成亚马逊云计算服务(AWS),引发美联社、金融时报、费加罗报等多家海外主流媒体高度关注。报道表示,此次集成旨在利用AWS 强大的云计算资源,降低用户和开发者参与波场网络的准入门槛,打造更加去中心化、更强大的区块链生态系统。 报道内容显示,通过此次合作…

基于spring boot的民宿预约管理系统的设计与实现

目录 摘要 I Abstract II 一、绪论 1 (一)研究背景 1 (二)社会调查 1 (三)研究意义 2 (四)研究内容 2 二、关键技术介绍 3 (一)Spring Boot框架 3 &#xff…

GESP2024年3月C++语言三级答案(均为自己的想法,C++没学太多,有不对的地方欢迎指正)

选择题(每题2分,共30分) 第 1 题 整数-5的16位补码表示是(D)。 A. 1005 B. 1006 C. FFFA D. FFFB 解析:0是FFFF,用0-5(即FFFF-5)得到是FFFB。 第 2 题 如果16位短整数-2的二进制是“FFFE”&…

YOLOv9改进策略:注意力机制 | 用于微小目标检测的上下文增强和特征细化网络ContextAggregation,助力小目标检测,暴力涨点

💡💡💡本文改进内容:用于微小目标检测的上下文增强和特征细化网络ContextAggregation,助力小目标检测 yolov9-c-ContextAggregation summary: 971 layers, 51002153 parameters, 51002121 gradients, 238.9 GFLOPs 改…

springboot277流浪动物管理系统

流浪动物管理系统设计与实现 摘 要 在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对流…

PSCA系统控制集成之复位层次结构

PPU 提供以下对复位控制的支持。 • 复位信号Reset signals:PPU 提供冷复位和热复位输出信号。PPU 还为实现部分保留的电源域管理提供了额外的热复位输出信号。 • 电源模式控制Power mode control:PPU 硬件适当地管理每个支持的电源模式转换的复位信号…

2024蓝桥杯每日一题(DFS)

备战2024年蓝桥杯 -- 每日一题 Python大学A组 试题一:奶牛选美 试题二:树的重心 试题三:大臣的差旅费 试题四:扫雷 试题一:奶牛选美 【题目描述】 听说最近两斑点的奶牛最受欢迎,…

华为畅享 60X 用了这么久,说说真实感受

华为畅享 60X 上市也有1年了,为什么还要说这款手机,是因为用了这么久这款手机真的让人忍不住竖起大拇指!给父母准备的这款机子,在千元机里没得说! 华为畅享 60X 很适合中老年人用户,日常长辈们在用机时对手…

SqlServer2008(R2)(二)SqlServer2008(R2)安装和卸载注意事项整理

二、注意事项 1、 安装数据中心版 说明:此激活版仅用于测试和学习使用。 这是官方的下载页面(需要付费订阅): http://msdn.microsoft.com/zh-cn/subscriptions/downloads/default.aspx 数据中心版: PTTFM-X467G-P7RH…

力扣模板题:检测字符串中数字是否递增

bool areNumbersAscending(char * s){//双指针操作&#xff0c;前指针保存前面一个数字字符int p0,q0;for(int i0;s[i];i){if(s[i]>0&&s[i]<9){pp*10s[i]-0;if(s[i1] ||s[i1]\0){//进行比较, 比较过后将p赋值q&#xff0c;q记录前面一个数字,因为数字均为小于100…

详解Python中的缩进和选择

缩进 Python最具特色的是用缩进来标明成块的代码。我下面以if选择结构来举例。if后面跟随条件&#xff0c;如果条件成立&#xff0c;则执行归属于if的一个代码块。 先看C语言的表达方式&#xff08;注意&#xff0c;这是C&#xff0c;不是Python!&#xff09; if ( i > 0 …

AI论文速读 | UniST:提示赋能通用模型用于城市时空预测

本文是时空领域的统一模型——UniST&#xff0c;无独有偶&#xff0c;时序有个统一模型新工作——UniTS&#xff0c;感兴趣的读者也可以阅读今天发布的另外一条。 论文标题&#xff1a;UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction 作者&…

CornerStone.js之点数据获取相关函数

向后端导出点的坐标数据&#xff1a;由于piexlData是Float32Arrat数据类型&#xff0c;传递给后端 会报错&#xff0c;于是将其转换为二维数组&#xff0c;然后传递给后端即可&#xff0c;后端将其写入txt文件中 二维数组表示是512*512的一个数组&#xff0c;元素值只有0和1

AI基础知识(3)--神经网络,支持向量机,贝叶斯分类器

1.什么是误差逆传播算法&#xff08;error BackPropagation&#xff0c;简称BP&#xff09;&#xff1f; 是一种神经网络学习算法。BP是一个迭代学习算法&#xff0c;在迭代的每一轮使用广义的感知机学习规则对参数进行更新估计。基于梯度下降&#xff08;gradient descent&am…

linux学习之Socket

目录 编写socket-udp 第一步&#xff0c;编写套接字 第二步&#xff0c;绑定端口号 第三步&#xff0c;启动服务器&#xff0c;读取数据 第四步&#xff0c;接收消息并发回信息给对方 编写socket-Tcp 第一步&#xff0c;编写套接字 第二步&#xff0c;绑定端口号 第三步…

等保测评的知识

结合自己所学的知识和网络上的一些知识做个小总结。 目录 一、概念&#xff1a; 二、等级划分&#xff1a; 三、技术要求&#xff1a; 四、管理要求&#xff1a; 五、等保测评实施过程&#xff1a; 六、典型的网络架构&#xff1a; 一、概念&#xff1a; 全称为信息安全等级保…

【涨薪技术】0到1学会性能测试 —— 参数化关联

前言 上一次推文我们分享了性能测试工作原理、事务、检查点&#xff01;今天给大家带来性能测试参数化&#xff0c;检查点知识&#xff01;后续文章都会系统分享干货&#xff0c;带大家从0到1学会性能测试&#xff0c;另外还有教程等同步资料&#xff0c;文末免费获取~ 01、性…

2024.03.18作业

封装一个动物的基类&#xff0c;类中有私有成员&#xff1a;姓名&#xff0c;颜色&#xff0c;指针成员年纪 再封装一个狗类&#xff0c;共有继承于动物类&#xff0c;自己拓展的私有成员有&#xff1a;指针成员腿的个数&#xff0c;共有成员函数&#xff1a;叫 要求&#xf…

PyTorch学习笔记之激活函数篇(四)

4、 Leaky ReLU 函数 4.1 公式 Leaky ReLU函数的公式&#xff1a; f ( x ) { x , x > 0 λ x , x < 0 , λ ∈ ( 0 , 1 ) f(x) \begin{cases} x&,x>0 \\ \lambda x&,x<0,\lambda \in(0,1) \end{cases} f(x){xλx​,x>0,x<0,λ∈(0,1)​ Leakly R…

JavaScript做一个贪吃蛇小游戏,无需网络直接玩。

用JavaScript做一个贪吃蛇小游戏&#xff0c;无需网络 > 打开即可玩。 html代码&#xff1a; <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><title>Title</title><style>#game{width: 344p…