大数据的关键技术

在大数据时代,传统的数据处理方法还适用吗?

大数据环境下的数据处理需求

大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。

传统数据处理方法的不足

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。

传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!

大数据的处理流程包括哪些环节?每个环节有哪些主要工具?

大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。

大数据技术为什么能提高数据的处理速度?

大数据的并行处理利器——MapReduce

大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。

MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。

MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。

MapReduce的工作原理其实是先分后合的数据处理方式。Map即“分解”,把海量数据分割成了若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。如右图所示,如果采用MapReduce来统计不同几何形状的数量,它会先把任务分配到两个节点,由两个节点分别并行统计,然后再把它们的结果汇总,得到最终的计算结果。

MapReduce适合进行数据分析、日志分析、商业智能分析、客户营销、大规模索引等业务,并具有非常明显的效果。通过结合MapReduce技术进行实时分析,某家电公司的信用计算时间从33小时缩短到8秒,而MKI的基因分析时间从数天缩短到20分钟。

说到这里,再看一看MapReduce与传统的分布式并行计算环境MPI到底有何不同?MapReduce在其设计目的、使用方式以及对文件系统的支持等方面与MPI都有很大的差异,使其能够更加适应大数据环境下的处理需求。

大数据技术在数据采集方面采用了哪些新的方法

系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如HadoopChukwaClouderaFlumeFacebookScribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

网络数据采集方法:对非结构化数据的采集

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

除了网络中包含的内容之外,对于网络流量的采集可以使用DPIDFI等带宽管理技术进行处理。

其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

 

本文节选自《大数据——大价值、大机遇、大变革(全彩)

李志刚 主编

电子工业出版社出版

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/302084.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

adf盖怎么打开_罐头好吃盖难开,学会这几招,再不靠蛮力了,女生也轻松拧开...

家里储备的罐头怎么开?学会这几招,不用蛮力,女生也轻松拧开。这段时期家里肯定储备了很多罐头食品,像水果罐头、腌菜罐头、果酱、调料酱罐头等等,家里的青菜水果不足了,可以临时用罐头食品顶上几天&#xf…

在 Ubuntu 上安装 .NET SDK 或 .NET 运行时

在wsl Ubuntu 20.04上面安装dotnet链接https://docs.microsoft.com/zh-cn/dotnet/core/install/linux-ubuntuUbuntu 支持 .NET。本文介绍如何在 Ubuntu 上安装 .NET。如果 Ubuntu 版本不受支持,则该版本不再支持 .NET。如果要开发 .NET 应用,请安装 SDK&…

skype linux 安装,Ubuntu 12.04 AMD64 安装 Skype

每次安装新版总是有些问题。一个个来解决。1: sudo apt-get install ia32-libs lib32asound2 libqt4-core libqt4-gui2: wget -O skype_Ubuntu-current_amd64.deb http://www.skype.com/go/getskype-linux-beta-ubuntu-643: sudo dpkg -i sky…

在学术论文投稿时你遇到过最奇葩的审稿意见是什么?

全世界只有3.14 % 的人关注了数据与算法之美论文投稿时,总会收到点奇葩审稿意见。就连大名鼎鼎的爱因斯坦也被美国《物理评论》期刊的审稿人怼过,审稿人认为文章的内容和结论存在严重问题,附上了 10 页审稿意见。物理大佬爱因斯坦当然不干了&…

WPF Treeview第三层横向排列

WPF 第三级横向排列效果&#xff0c;左侧使用WrapPanel&#xff0c;右侧使用StackPanel,效果见下图&#xff1a;代码如下&#xff1a;Mainwindow的xaml如下:<Window x:Class"WPFDemos.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presen…

联想 android 5.1 root权限,联想A520手机ROOT权限图文教程(附联想A520root工具)

联想A520 ROOT教程&#xff1a;2、将手机USB调试打开;步骤&#xff1a;设置----应用程序----开发-----USB调试设置----应用程序----未知源&#xff0c;后面的勾打上就行;3、打开了USB调试和未知源之后&#xff0c;双击联想A520 ROOT.exe&#xff0c;将它安装到电脑端;安装好后打…

入门深度学习,其实并不难!

深度学习的概念源于人工神经网络的研究&#xff0c;而深度学习的过程就是使用多个处理层对数据进行高层抽象&#xff0c;得到多重非线性变换函数的过程。虽然深度学习的概念看似高大上&#xff0c;让人有种莫名的距离感&#xff0c;实际上它在日常生活中随处可见&#xff0c;比…

Python应用02 Python服务器进化

作者&#xff1a;Vamei 出处&#xff1a;http://www.cnblogs.com/vamei 欢迎转载&#xff0c;也请保留这段声明。谢谢&#xff01; **注意&#xff0c;在Python 3.x中&#xff0c;BaseHTTPServer, SimpleHTTPServer, CGIHTTPServer整合到http.server包&#xff0c;SocketServer…

天赋差的程序员,难道就只能半途而废吗?

全世界只有3.14 % 的人关注了数据与算法之美在很多人看来&#xff0c;也许优秀的程序员靠的就是与生俱来的强大天赋&#xff0c;外加蜻蜓点水般的时间付出&#xff0c;就能够炼就算无遗漏的编码技能。那么果真是如此吗&#xff1f;身为不太聪明的开发者难道就活该中途止步吗&am…

String是一个奇怪的引用类型

点击蓝字关注我们开局两张图&#xff0c;内容全靠刷。马甲哥看到这样的现象&#xff0c;一开始还是有点懵逼。这个例子&#xff0c;string是纯粹的引用类型&#xff0c;但是在函数传值时类似于值传递&#xff1b;我之前给前后示例的内存变化图吧&#xff1a;根因就是大多数高级…

限时秒杀│中科院推荐!6个引自美国NASA盒子,玩转科学

比勤奋更重要的&#xff0c;是孩子的思维能力。从上幼儿园开始&#xff0c;很多父母很喜欢给孩子报各种兴趣班&#xff0c;比如钢琴班、英语班、乐高班、报各种各样的课程&#xff0c;就是希望孩子具有18般武艺&#xff0c;赢在起跑线上。其实除了外在的能力&#xff0c;不显山…

.NET6又出新版本,新增这几个大杀器!

.NET6 Preview4终于发布了&#xff0c;作为第4个预览版&#xff0c;伴随着Build2021发布的&#xff0c;器更新内容也是非常丰富的。推荐关注的有以下11项&#xff1a;引入最小 API异步流HTTP 日志中间件新项目中使用 Kestrel 作为默认启动IConnectionSocketFeature改进单页应用…

蜗杆参数法设计_技术贴 | 减速器结构及设计的注意事项

减速机器用于低转速大扭矩的传动设备&#xff0c;原理是把电动机、内燃机、马达或其它高速运转的动力&#xff0c;通过减速机的输入轴上齿数少的齿轮啮合输出轴上的大齿轮&#xff0c;从而达到减速的目的&#xff1b;大小齿轮的齿数之比&#xff0c;就是传动比。减速器是一种由…

听说热爱生活的人都关注了他们

全世界有3.14 % 的人已经关注了数据与算法之美在信息爆炸的时代快节奏的生活里 你是否曾有一瞬间觉得忙碌而空虚&#xff1f;以下10个优质公众号能让你在闲暇的时候不断的提升自我&#xff0c;拓宽视野愿以书卷气&#xff0c;行我路千里近现代史研究通讯ID&#xff1a;jxsdyjtx…

基于abp vnext制作项目脚手架

首先说明&#xff0c;尊重原创&#xff0c;本文是参考https://www.cnblogs.com/myshowtime/p/14507675.html这篇文章写的&#xff0c;里面内容有部分是直接拷贝过来的。感谢作者分享&#xff01;&#xff01;&#xff01;前期准备工作使用命令 abp new LS.Template --template …

Windows Server 2012 DHCP 服务器中的新功能:故障转移和策略

Windows Server 2012 DHCP 服务器中的新功能如下&#xff1a; DHCP 故障转移&#xff1a;此功能提供让两个 DHCP 服务器服务于 同一子网或作用域的 IP 地址和选项配置的能力&#xff0c;前提是 DHCP 服务对客户端持续可用。两个 DHCP 服务器复制它们之间的租用信息&#xff0c;…

android mvc mvp 简书,浅析 MVP,MVC,MVVM模式(Android)

前言当我们接手一个项目的时候&#xff0c;经常会发现一个activity或fragment动辄上千行甚至上万行代码&#xff0c;这给阅读带来很大的困扰&#xff0c;如果想读懂代码&#xff0c;需要花费很多时间跟精力。引起这个问题的原因想必大家都了解&#xff0c;随着人员不断变动&…

android studio插入数据表中没有_学Java能拿高薪吗 Java中常见排序算法有哪些

学Java能拿高薪吗&#xff1f;Java中常见排序算法有哪些&#xff1f;作为老牌编程语言&#xff0c;Java拥有广阔的市场占有率&#xff0c;几乎90%以上的大中型互联网应用系统在服务端开发都会首选Java。为了加入到Java这一高薪行业&#xff0c;很多人会选择专业学习一下&#x…

最全知识点总结!| 大数据学习路线指南

全世界只有3.14 % 的人关注了数据与算法之美大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段&#xff0c;处理的数据量通常是TB级&#xff0c;甚至是PB或EB级的数据&#xff0c;这是传统数据处理手段所无法完成的&#xff0c;其涉及的技术有分布式计算、高并…

欢迎来到开源的世界!

✉️ 请查收您的保姆级开源百科编程导航 致力于推荐优质编程资源 ????项目开源仓库&#xff1a;https://github.com/liyupi/code-nav跪求一个 star ⭐️大家好&#xff0c;我是鱼二&#xff0c;今天推荐一份开源知识入门的在线电子书《开源指北》。正如官方对这本书的描述&…