您在2016年会做什么? Apache Spark,Kafka,Drill等

让我们玩得开心。

这是新的一年的开始-我们正处于新事物的门槛上-因此让我们期待您在2016年可能会做的事情。现在我知道做出预测的风险,尤其是有记录的预测,但是我很高兴您能在一年后回访,看看我对2016年的预测是如何完成的。

您在2016年会做什么?

在我做出2016年预测之前,首先要更普遍(好玩地)思考推测未来的挑战。 我们是否根据数据和模型进行工作? 从观察和预感? 请记住,描述未来的准确性部分取决于目标的未来时间。

传统上遥远地预测人们的生活将是未来。 有时,它们是准确的,并且更经常是滑稽的错误。 回顾未来应该是一种娱乐,我称之为“记住未来”。

例如,2000年引起了人们多年的想像力。 我遇到了一篇发表于1900年的女士家庭杂志上的文章,其中对我们2000年的生活做出了预测。在大致正确的预测中,有汽车将大量涌现的情况,可以从遥远的国家以电报的形式拍摄照片,它们可以在一小时内在报纸上印制出来,包括领土在内的美国人口将超过3.5亿(2000年人口普查使美国人口为2.82亿,有点短)。 预测不会有更多的苍蝇或蚊子,城市中的交通将在地下或高架上发生,因此城市将“没有噪音”,而我们将不再使用字母C,X或Q 。

未来并没有如前所述,部分是因为我们经常以与预期不同的方式解决相同的问题:今天,高速公路上的城市交通被分流了,但是-不能消除噪音。 而且,我们不是依靠“发射”某些辅音来规范拼写,而是依靠自动拼写纠正系统(有时会产生可笑的结果)。

返回大数据

Ted Dunning在那个城市的Strata Hadoop World会议的一周期间,在新加坡大数据聚会上对当前和未来的大数据趋势进行了生动的演讲,提出了“记住未来”的主题。 另一位演讲者,Hadoop创始人Doug Cutting,也谈到了大数据系统在不久的将来的发展方向。

apachespark-kafka-blog-img1

Doug谈到了Hadoop生态系统的发展,特别是在分析方面。 在许多情况下,基于批处理的计算已被内存中的微批处理计算能力所取代,因此,人们对Apache Spark的兴趣日益浓厚。

泰德(Ted)最初以文化趋势招待人们,但并未像预期的那样成功,然后他描述了一个成功的,具有前瞻性的大数据项目-这是19世纪的开源项目,该项目很好地利用了海洋和风能数据来建立航行航海图。 跳到了今天,Ted解释了当前大数据趋向于简化机器学习项目的趋势,从而使其具有实用价值。 Ted还谈到了需要更简化的方式来处理复杂数据以避免必须构建数百个表的情况(传统关系系统就是如此),他展示了在这种情况下利用SQL引擎Apache Drill的灵活性的优势。

2016年的六大预测

受描述大数据趋势的其他人的启发,现在我伸出我的脖子,对自己在2016年的工作做出自己的预测(纯观点)。毕竟,这仅仅是未来一年……

流数据

我有信心在整个2016年对流数据和流分析产生爆炸性的兴趣。 流数据将以比以前更多的方式和新的方式被更多的组织使用。 物联网传感器数据量的增加只是流数据的来源之一。 一系列事件(例如来自网络流量的点击流数据或机器日志文件)将越来越多地使用Apache Spark进行近实时处理或使用更新的工具Apache Flink进行实时分析,以流的形式进行分析。

重大变化之一将是以不同的方式来考虑最能支持这些应用程序的体系结构: 消息队列将成为设计这些系统的中心焦点。 在流分析程序的工作流中,消息传递层将不仅仅是一个安全缓冲区。 正确完成后,消息队列将成为可重播,不变的持久日志,为多个主服务器(例如实时分析应用程序,数据库或搜索文档)提供服务。 由于这些原因,我预计将大大增加已经流行的消息传递工具Apache Kafka的使用,并对新的MapR Streams (支持Kafka API的集成消息传递技术)产生浓厚的兴趣。

缩短实现价值的时间

企业需要实用的方法来更快地实现价值,因此,如果您的企业需要SQL ,我相信您可能会在2016年尝试Apache Drill 。 随着发布次数的增加,Drill的功能不断扩展,但它已经是使用标准SQL的高性能,高可伸缩性和极其灵活的查询引擎。 这对于来自传统背景的大数据用户以及Hadoop和NoSQL世界的资深人士来说同样具有吸引力,他们希望查询引擎能够轻松处理各种非结构化和嵌套的数据类型,例如JSON和Parquet。

Drill的特性也许最有可能让您尝试使用它,而它几乎无需准备就可以查询数据,从而可以减少从数据获取见解所需的时间或数天。 在开始查询之前,只需花费较少的时间,借助Drill,您就可以根据从第一个查询中学到的知识快速构建第二个查询。 更快的开发,更快的洞察力,更短的价值实现时间。

apacespark-kafka-blog-img2

集权

人们越来越多地将大数据平台视为其整个组织的中心部分,而不是一个特殊目的的项目。 大数据平台(例如基于Hadoop和NoSQL的系统)将需要轻松地连接到传统技术,例如企业数据仓库,关系数据库或BI工具。

对于全球组织而言,集中化的一个自相矛盾的方面是需要在全球范围内分发数据。 您组织的不同部门需要访问统一的数据集。 在分解地理位置不同的中心内或中心之间不必要的孤岛时,您将要避免传播延迟。 可能存在法律问题,需要对数据进行本地化。 出于这些原因,我预测许多组织将希望使用一种具有安全可靠方法的系统来维护可以快速同步的多个数据中心。

专题:医疗保健

我认为医疗保健行业中的大数据使用有望在2016年实现快速扩展。人们认识到使用数据来减少欺诈并通过使用电子病历,机器的长期维护记录来改善医疗保健的力量。 ,以及传感器信息流。 对于这些用例而言,出色的数据安全性和治理无疑将非常重要。

专题:电信

电信将在2016年在大数据领域中脱颖而出的另一个领域。 电信公司已经有很好的大数据用例:将ETL的压力转移到Hadoop,同时维持企业仓库的复杂账单; 对进出蜂窝塔的数据进行异常检测以发现并快速响应突然的使用变化,并在通话中断后采用实时分析快速响应用户,以改善体验并减少用户流失。

流数据架构和技术(如上所述)的扩展将使电信受益。 但是,即使您自己不使用电信,这种特殊情况也可能会影响您。 越来越多的非电话应用正在利用电信网络。 例如,汽车中的传感器通常通过电信网络发送数据。 综上所述,我预计您可能会在2016年将高级电信与大数据结合起来。

最好的预测:你会让我惊讶

我对2016年的最佳预测是,您将想出一些创新的方法来使用尚未出现的大数据。 也许它将以一种新颖的方式解决我已经意识到的问题。 也许这将是全新的东西。 无论哪种方式,到2017年1月,我都会“记住未来”,即使我的其他五个预测都是准确的,我也会为新事物感到惊讶。

其他资源

对于作者的相关内容,请参见以下免费资源:

  • 实用机器学习:异常检测的新视角
  • 真实世界的Hadoop
  • O'Reilly Radar博客上有关Apache Drill的文章

翻译自: https://www.javacodegeeks.com/2016/01/will-2016-apache-spark-kafka-drill.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/356188.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

话筒好坏测试软件,如何简单地判断麦克风的质量好坏?

如何简单地判断麦克风的质量好坏?麦克风质量好不好,主要看三点:咪芯,线材和外壳。在挑选麦克风时,我们通常都不会一一上手试用,而是通过它自身的规格参数来进行初步地判断,一般来说,…

怎么保证读取最新数据_Kafka怎么保证数据不丢失?

Kafka怎么保证数据不丢失?这个问题要从3个方面来保证数据不丢失:生产者、服务端、消费者。01producer 生产端是如何保证数据不丢失的1.ack的配置策略acks all (或-1)生产者在发送消息之后,需要等待ISR中所有的副本都成功写入消息之后才能够收…

怎么圆角变直角_衣柜设计个圆角有什么用?效果好看又实用,会这样装的都是老木工...

衣柜设计个圆角有什么用?效果好看又实用,会这样装的都是老木工随着生活水平的不断提高,大家对于生活质量也有着越来越高的期望。从生活起居以及房子的装修中,我们可以看出来。因此家里的东西堆积的也更加的多,这对于储…

浙大计算机硕士比本科985,二本出身的985研究生与985本科生,哪个更厉害?网友:差的太多!...

原标题:二本出身的985研究生与985本科生,哪个更厉害?网友:差的太多!概率,还是概率问题。即便2本考研到985是很优秀,但能优秀到让985本科生服气的还是少数。说到底,是因为考研不是绝对…

5调用外部浏览器打开代码_浏览器事件循环

浏览器运行过程中会同时面对多种任务,用户交互事件(鼠标、键盘)、网络请求、页面渲染等。而这些任务不能是无序的,必须有个先来后到,浏览器内部需要一套预定的逻辑来有序处理这些任务,因此浏览器事件循环诞生了,再次强…

JVM上的高并发HTTP客户端

HTTP可能是最流行的应用程序级别协议,并且有许多库在网络I / O之上实现它,这是常规I / O的一种特殊(面向流)情况。 由于所有I / O都有很多共同点1 ,所以让我们开始对其进行一些讨论。 我将集中讨论具有大量并发HTTP请…

win10系统卷影复制服务器,如何使用Windows卷影拷贝服务恢复文件和文件夹

本文介绍了如何使用Windows卷影拷贝服务恢复文件和文件夹,分享给大家,具体如下:什么是卷影拷贝?从Windows XP SP2和Windows Server 2013开始,微软就向Windows操作系统中引入了一项名叫卷影拷贝的服务(Volume Shadow Co…

Nginx下配置Http Basic Auth

nginx basic auth指令 第一条语句: 语法: auth_basic string | off;默认值: auth_basic off;配置段: http, server, location, limit_except 默认表示不开启认证,后面如果跟上字符,这些字符会在弹窗中显示。 第二条语句&#xff…

服务器多核性能排行,服务器内存多核性能

服务器内存多核性能 内容精选换一换本文介绍了弹性云服务器ECS的功能发布和对应的文档动态,新特性将在各个区域(Region)陆续发布,欢迎体验。关于弹性云服务器(ECS)更多历史版本变更内容,请单击“查看PDF”详细了解。超高I/O型弹性云服务器使用…

从去除毛刺的策略看开运算opening_circle和闭运算closing_circle的异同

例一:毛刺在往外凸的面上 策略1:分割出黑色部分,然后通过开运算去掉毛刺,再通过原黑色部分区域减去开运算之后的区域,得到毛刺部分的区域。 1 read_image (Tu, C:/Users/xiahui/Desktop/tu.jpg) 2 binary_threshold (…

买服务器带操作系统,买服务器带操作系统

买服务器带操作系统 内容精选换一换只有运行中的弹性云服务器才允许用户登录。Linux操作系统用户名“root”。忘记密码,请先通过“重置密码”功能设置登录密码。重置密码:选中待重置密码的云耀云服务器,并选择“操作”列下的“ 重置密码”。重…

自定义sql_【PL/SQL 自定义函数】 常用场景

看完这章后你会学习到以下内容:1.练习场景2.面试场景3.工作应用场景总览思维导图:面试部分:1.创建函数,从emp表中查询指定员工编号的职工的工资CREATE OR REPLACE FUNCTION CHECK_SAL(F_EMPNO IN EMP.EMPNO%TYPE) RETURN NUMBER ISV_SAL VARC…

进阶– Java EE 7前端5强

系列继续。 在初步概述和Arjan关于最重要的后端功能的文章之后 ,我现在非常高兴让Ed Burns( edburns )使用他最喜欢的Java EE 7前端功能完成本系列。 感谢Markus Eisele让我有机会在他非常受欢迎的博客上发表帖子。 我和Markus的关系可以追溯…

一杯水怎么测试_一杯水就能鉴别翡翠真假的高招

大家好,小生有礼!鄙人是秋玉蝉珠宝的杨杨,很高兴能在茫茫互联网中相识就是有缘。先简单介绍一下秋玉蝉珠宝,我们是年轻的品牌,我们的理念一直秉承坚持做真翡翠,好翡翠,把握翡翠的精髓&#xff0…

php连接mysql_PHP连接MySQL数据库的三种方式

本篇文章给大家介绍一下PHP连接MySQL数据库的三种方式(mysql、mysqli、pdo),结合实例形式分析了PHP基于mysql、mysqli、pdo三种方式连接MySQL数据库的相关操作技巧与注意事项。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助…

idea内置junit5_JUnit的内置Hamcrest Core Matcher支持

idea内置junit5在通过JUnit和Hamcrest改善对assertEquals的文章中,我简要讨论了Hamcrest “ 核心 ”匹配器与JUnit的现代版本“结合”在一起的情况。 在那篇文章中,我特别关注了JUnit的assertThat(T,Matcher)静态方法与…

jenkins 发送邮件模板

jenkins 发送邮件模板 <!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title>${ENV, var"JOB_NAME"}-第${BUILD_NUMBER}次构建日志</title> </head><body leftmargin"8" marginwidth"…

Oracle Spring Clean JavaFX应该吗?

我们确实在Codename One上依赖JavaFX&#xff0c;我们的模拟器需要它。 我们的桌面版本使用它&#xff0c;而我们的设计器工具基于Swing。 我们希望它成功&#xff0c;这对我们的业务至关重要&#xff01; 即使您是Java EE开发人员并且不关心桌面编程&#xff0c;我们也不是一个…

laravel mysql 锁表_Laravel中MySQL的乐观锁与悲观锁

MySQL/InnoDB的加锁&#xff0c;是一个老生常谈的话题。在数据库高并发请求下&#xff0c;如何兼顾数据完整性与用户体验的敏捷性是一代又一代程序员一直在思考的问题。乐观锁乐观锁之所以叫乐观&#xff0c;是因为这个模式不会对数据加锁。而是对数据操作保持一种乐观的心态&a…

mysql 超长记录_谁记录了mysql error log中的超长信息(记pt-stalk一个bug的定位过程)...

【问题】最近查看MySQL的error log文件时&#xff0c;发现有很多服务器的文件中有大量的如下日志&#xff0c;内容很长(大小在200K左右)&#xff0c;从记录的内容看&#xff0c;并没有明显的异常信息。有一台测试服务器也有类似的问题&#xff0c;为什么会记录这些信息&#xf…