大数据的关键技术

在大数据时代,传统的数据处理方法还适用吗?

大数据环境下的数据处理需求

大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。

传统数据处理方法的不足

传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。

传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,减少数据移动带来的开销。因此,传统的数据处理方法,已经不能适应大数据的需求!

大数据的处理流程包括哪些环节?每个环节有哪些主要工具?

大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。

大数据技术为什么能提高数据的处理速度?

大数据的并行处理利器——MapReduce

大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。

MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。

MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。

MapReduce的工作原理其实是先分后合的数据处理方式。Map即“分解”,把海量数据分割成了若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。如右图所示,如果采用MapReduce来统计不同几何形状的数量,它会先把任务分配到两个节点,由两个节点分别并行统计,然后再把它们的结果汇总,得到最终的计算结果。

MapReduce适合进行数据分析、日志分析、商业智能分析、客户营销、大规模索引等业务,并具有非常明显的效果。通过结合MapReduce技术进行实时分析,某家电公司的信用计算时间从33小时缩短到8秒,而MKI的基因分析时间从数天缩短到20分钟。

说到这里,再看一看MapReduce与传统的分布式并行计算环境MPI到底有何不同?MapReduce在其设计目的、使用方式以及对文件系统的支持等方面与MPI都有很大的差异,使其能够更加适应大数据环境下的处理需求。

大数据技术在数据采集方面采用了哪些新的方法

系统日志采集方法

很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如HadoopChukwaClouderaFlumeFacebookScribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

网络数据采集方法:对非结构化数据的采集

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

除了网络中包含的内容之外,对于网络流量的采集可以使用DPIDFI等带宽管理技术进行处理。

其他数据采集方法

对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

 

本文节选自《大数据——大价值、大机遇、大变革(全彩)

李志刚 主编

电子工业出版社出版

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/302084.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

adf盖怎么打开_罐头好吃盖难开,学会这几招,再不靠蛮力了,女生也轻松拧开...

家里储备的罐头怎么开?学会这几招,不用蛮力,女生也轻松拧开。这段时期家里肯定储备了很多罐头食品,像水果罐头、腌菜罐头、果酱、调料酱罐头等等,家里的青菜水果不足了,可以临时用罐头食品顶上几天&#xf…

在 Ubuntu 上安装 .NET SDK 或 .NET 运行时

在wsl Ubuntu 20.04上面安装dotnet链接https://docs.microsoft.com/zh-cn/dotnet/core/install/linux-ubuntuUbuntu 支持 .NET。本文介绍如何在 Ubuntu 上安装 .NET。如果 Ubuntu 版本不受支持,则该版本不再支持 .NET。如果要开发 .NET 应用,请安装 SDK&…

skype linux 安装,Ubuntu 12.04 AMD64 安装 Skype

每次安装新版总是有些问题。一个个来解决。1: sudo apt-get install ia32-libs lib32asound2 libqt4-core libqt4-gui2: wget -O skype_Ubuntu-current_amd64.deb http://www.skype.com/go/getskype-linux-beta-ubuntu-643: sudo dpkg -i sky…

在学术论文投稿时你遇到过最奇葩的审稿意见是什么?

全世界只有3.14 % 的人关注了数据与算法之美论文投稿时,总会收到点奇葩审稿意见。就连大名鼎鼎的爱因斯坦也被美国《物理评论》期刊的审稿人怼过,审稿人认为文章的内容和结论存在严重问题,附上了 10 页审稿意见。物理大佬爱因斯坦当然不干了&…

无符号数、有符号数、补码在汇编中的运用及相关注意事项

1、原码、反码、补码知识的复习: 三者的最高位均为符号位。我以前一直没弄明白的是为何8位补码的表示范围是-128~127,今天查阅了相关资料,于此记下。 仍然以8位为例: 原码的表示范围:-127~-0,0~127&#xf…

WPF Treeview第三层横向排列

WPF 第三级横向排列效果&#xff0c;左侧使用WrapPanel&#xff0c;右侧使用StackPanel,效果见下图&#xff1a;代码如下&#xff1a;Mainwindow的xaml如下:<Window x:Class"WPFDemos.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presen…

联想 android 5.1 root权限,联想A520手机ROOT权限图文教程(附联想A520root工具)

联想A520 ROOT教程&#xff1a;2、将手机USB调试打开;步骤&#xff1a;设置----应用程序----开发-----USB调试设置----应用程序----未知源&#xff0c;后面的勾打上就行;3、打开了USB调试和未知源之后&#xff0c;双击联想A520 ROOT.exe&#xff0c;将它安装到电脑端;安装好后打…

入门深度学习,其实并不难!

深度学习的概念源于人工神经网络的研究&#xff0c;而深度学习的过程就是使用多个处理层对数据进行高层抽象&#xff0c;得到多重非线性变换函数的过程。虽然深度学习的概念看似高大上&#xff0c;让人有种莫名的距离感&#xff0c;实际上它在日常生活中随处可见&#xff0c;比…

怎样自己写一个MVC框架

最近想学习php的mvc结构&#xff0c;在网上找了一些资料&#xff0c;可是大部分都是相同的&#xff0c;或者写的不是很满意。接着看了一个cakephp的框架&#xff0c;感觉太多的函数了&#xff0c;让人觉得就是一个记函数的过程&#xff0c;所以觉得不是很好。 我对mvc的理解是&…

NET问答: LINQ 中为啥不能将 StartsWith() 转成 Like('abc%') ?

咨询区 Techy&#xff1a;我有下面的一段 asp.net core LINQ 代码。List<UserSearchResult> results await db.ApplicationUsers.Where(u > u.Name.StartsWith(name) && !u.Deleted && u.AppearInSearch).OrderByDescending(u > u.Verified).Then…

python for net_转:.NET 4.0 下使用 Python for .NET

转&#xff1a;首先&#xff0c;我要搞清楚Python for .NET ,IronPython 它们之间的区别。Python 作为一门语言&#xff0c;其解释器(因为是解释型动态语言&#xff0c;所以我觉得称之为解释器 interpreter 比编译器 compiler 更合适)并不是只有唯一实现的。通常我们从 Python…

Python应用02 Python服务器进化

作者&#xff1a;Vamei 出处&#xff1a;http://www.cnblogs.com/vamei 欢迎转载&#xff0c;也请保留这段声明。谢谢&#xff01; **注意&#xff0c;在Python 3.x中&#xff0c;BaseHTTPServer, SimpleHTTPServer, CGIHTTPServer整合到http.server包&#xff0c;SocketServer…

天赋差的程序员,难道就只能半途而废吗?

全世界只有3.14 % 的人关注了数据与算法之美在很多人看来&#xff0c;也许优秀的程序员靠的就是与生俱来的强大天赋&#xff0c;外加蜻蜓点水般的时间付出&#xff0c;就能够炼就算无遗漏的编码技能。那么果真是如此吗&#xff1f;身为不太聪明的开发者难道就活该中途止步吗&am…

html让ul的li自动居中,css ul li导航菜单居中问题解决方法

昨晚群里一个朋友帮忙解决的问题&#xff0c;之前没有遇到过&#xff0c;题目如下&#xff1a;不改变html结构&#xff0c;使导航菜单垂直水平居中&#xff0c;导航宽度自适应屏幕100%&#xff0c;高度30px;单项高度28px,宽80px;兼容&#xff1a;ie6,ff,chrome,opera等主流浏览…

String是一个奇怪的引用类型

点击蓝字关注我们开局两张图&#xff0c;内容全靠刷。马甲哥看到这样的现象&#xff0c;一开始还是有点懵逼。这个例子&#xff0c;string是纯粹的引用类型&#xff0c;但是在函数传值时类似于值传递&#xff1b;我之前给前后示例的内存变化图吧&#xff1a;根因就是大多数高级…

js 浅拷贝直接赋值_浅析JavaScript解析赋值、浅拷贝和深拷贝的区别

一、赋值(Copy)赋值是将某一数值或对象赋给某个变量的过程&#xff0c;分为&#xff1a;1、基本数据类型&#xff1a;赋值&#xff0c;赋值之后两个变量互不影响2、引用数据类型&#xff1a;赋**址**&#xff0c;两个变量具有相同的引用&#xff0c;指向同一个对象&#xff0c;…

限时秒杀│中科院推荐!6个引自美国NASA盒子,玩转科学

比勤奋更重要的&#xff0c;是孩子的思维能力。从上幼儿园开始&#xff0c;很多父母很喜欢给孩子报各种兴趣班&#xff0c;比如钢琴班、英语班、乐高班、报各种各样的课程&#xff0c;就是希望孩子具有18般武艺&#xff0c;赢在起跑线上。其实除了外在的能力&#xff0c;不显山…

html语言可以写模版继承吗,Django框架(十一):模板介绍、模板语言、模板继承、HTML转义...

1. 模板介绍1.1 模板的功能产生html&#xff0c;控制页面上展示的内容。模板文件不仅仅是一个html文件。模板文件包含两部分内容&#xff1a;静态内容&#xff1a;css、js、html。动态内容&#xff1a;用于动态去产生一些页面内容。通过模板语言来产生。1.2 模板文件的使用通常…

sed-笔记

一&#xff0e;sed脚本编程的方法论 1. 在着手做之前要弄清楚想做什么。2. 明确地描述处理的过程。3. 在提交最终的改变之前反复测试这个过程。注1&#xff1a;检测脚本最好的方式&#xff0c;是使用不同的输入样本进行测试并观察结果。二&#xff0e;…

.NET6又出新版本,新增这几个大杀器!

.NET6 Preview4终于发布了&#xff0c;作为第4个预览版&#xff0c;伴随着Build2021发布的&#xff0c;器更新内容也是非常丰富的。推荐关注的有以下11项&#xff1a;引入最小 API异步流HTTP 日志中间件新项目中使用 Kestrel 作为默认启动IConnectionSocketFeature改进单页应用…