Storm精华问答 | 为什么这么多人用Spark而不用Storm?

戳蓝字“CSDN云计算”关注我们哦!


640?wx_fmt=png

Storm被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,以及大数据实时处理解决方案的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流。


640?wx_fmt=gif1
















Q:为什么这么多人用Spark而不用Storm?


A:Storm和Spark Streaming都是分布式流处理的开源框架。区别如下:

1、处理延时和吞吐量

Storm处理的是每次传入的一个事件,Spark Streaming是处理某个时间段窗口内的事件流,Storm处理一个事件可以达到秒内的延迟,而Spark Streaming则有几秒钟的延迟。因此,Spark Streaming比Storm的延时更长,但是吞吐量比Storm大。

2、容错、数据保证

Spark Streaming在容错方面提供了对状态计算的更好的支持。在Storm中,任一条单独的记录在经过系统时必须可以被追踪到,所以Storm仅保证所有记录都会至少处理一次,但是从错误中恢复过来时允许出现重复记录。这意味着可变状态有可能被错误的更新两次。

3、支持的API

Storm(由Closure语言开发的)支持JAVA编程,Spark支持Scala编程,也支持java开发。

如果需要秒内的延迟,Storm是一个不错的选择,而且没有数据丢失。如果需要有状态的计算,而且要完全保证每个事件只被处理一次,Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易,因为它类似于批处理程序(Hadoop),特别是在你使用批次(尽管是很小的)时。


640?wx_fmt=gif2

Q:在一台机器上安装Storm客户端,这台客户端会变成一台Supervisor吗? 客户端与Storm集群是什么关系?因为看yaml配置里只配了nimbus,而没有说明哪台是Supervisor,是不是就是默认有这样配置的都是Supervisor呢?


A:yaml是Storm配置,除去配置的nimbus角色,所有机器,只要选择启动supervisor,就可以作为supervisor,安装客户端成功后,角色是根据是否启动角色选项决定的。


640?wx_fmt=gif3

Q:这两天一直在玩storm,在本地运行起来了,可是一旦切换到集群环境,所有的写操作都无法完成,无论是通过socket还是文件读写还是数据库读写,到最后提交到集群后,运行起来都会出现

filename not matched: resources/** 
kill 10936: 没有那个进程

这样的错误,我知道提交到集群环境后由于写操作不在一个节点上了,所以难免会出现问题,那么,Storm最后的数据应该怎样保存下来呢?


A:Storm数据保存有很多种方式,可以保存MySQL,保存HBase都可以;这个需要自己编写bolt来做实现;或者通过相关的插件做实现。


640?wx_fmt=gif4

Q:Storm启动出现错误,错误描述为:org.apache.storm.utils.NimbusLeaderNotFoundException: Could not find leader nimbus from seed hosts ["192.168.226.13"]. Did you specify a valid list of nimbus hosts for config nimbus.seeds?

这如何解决?


A:出现这种错误有两种情况:

第一种情况:在storm的配置文件中配置一下nimbus.seeds: ["localhost"]。(如果确保这个配置没有问题,可以进行第二种情况的修改了)。

第二种情况:在zookeeper中找到/storm节点,使用rmr将storm节点删除,即可恢复正常。


640?wx_fmt=gif5

Q:Storm 怎么处理重复的tuple?


A:因为Storm 要保证tuple 的可靠处理,当tuple 处理失败或者超时的时候,spout 会fail并重新发送该tuple,那么就会有tuple 重复计算的问题。这个问题是很难解决的,storm也没有提供机制帮助你解决。不过也有一些可行的策略:

(1)不处理,这也算是种策略。因为实时计算通常并不要求很高的精确度,后

续的批处理计算会更正实时计算的误差。

(2)使用第三方集中存储来过滤,比如利用MySQL、MemCached 或者Redis 根据逻辑主键来去重。

(3)使用bloom filter 做过滤,简单高效。


----------------    --------------

小伙伴们冲鸭,后台留言区等着你!

关于Storm,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


----------------    --------------


1.微信群:

添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


2.征稿:

投稿邮箱:liudan@csdn.net;微信号:color_ld。请备注投稿+姓名+公司职位。


推荐阅读

  • Gartner的预言:通向混合IT之旅

  • 崩溃!新浪程序员加班错失 77 万年会大奖

  • 刚刚!华为又被美国盯上了!

  • 阿里“菜鸟”AI?

  • 以太坊升级的拖油瓶,竟只是这几行代码

  • 程序员有话说 | 程序猿在乘地铁的时候都在想什么?

  • 清华北大“世界排名断崖式下跌”?


640?wx_fmt=gif点击“阅读原文”,打开 CSDN App 阅读更贴心!


640?wx_fmt=png喜欢就点击“好看”吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/524775.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊聊云计算:为什么构建网站时常会用到负载均衡

戳蓝字“CSDN云计算”关注我们哦!作者:疯子程序员来源:https://blog.csdn.net/qq_40196321/article/details/85075746 负载均衡可以将客户端请求分摊到多个操作单元上进行处理硬件负载均衡负载均衡有很多种不同的实现方式,总的来说…

要闻君说:阿里云联合8家芯片模组商推出“全平台通信模组”;北汽与小桔车服联合“京桔”;IBM要帮助印度公司打造5G战略!...

关注并标星星CSDN云计算每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 嗨,大家好!偶是要闻君。盼望着、盼望着,放假的日子又临近了一步,抢先祝福各位看官们新年快乐哈!文/要闻君近日&#xff0…

揭开容器的神秘面纱:帮助初学者深入了解容器技术

戳蓝字“CSDN云计算”关注我们哦!本文转载自:Docker 简介无论你是学生,还是公司的开发人员,或是软件爱好者,相信你都听说过容器。 你可能还听说容器是轻量级虚拟机,但这究竟意味着什么,容器究竟…

微服务精华问答 | 微服务有什么优点和不足呢?

戳蓝字“CSDN云计算”关注我们哦!过去几年来,“微服务架构”这个术语出现了,它描述了一种将软件应用程序设计为可独立部署的服务套件的特定方式。尽管这种架构风格没有确切的定义,但围绕业务能力,自动化部署&#xff0…

Gartner预测2019年全球IT支出将达到3.8万亿美元

戳蓝字“CSDN云计算”关注我们哦!【2019年1月29日】全球领先的信息技术研究和顾问公司Gartner表示,2019年全球IT支出将达到3.76万亿美元,较2018年增长3.2%。Gartner研究副总裁John-David Lovelock表示:“尽管经济衰退传闻、英国脱…

4个最受欢迎的大数据可视化工具!

戳蓝字“CSDN云计算”关注我们哦!想像阅读书本一样阅读数据流?这只有在电影中才有可能发生。 在现实世界中,企业必须使用数据可视化工具来读取原始数据的趋势和模式。大数据可视化是进行各种大数据分析解决的最重要组成部分之一。 一旦原始数…

边缘计算与物联网精华问答 | 边缘计算和物联网有什么关系?

戳蓝字“CSDN云计算”关注我们哦!随着物联网时代到来,云计算平台将面临着海量设备接入、海量数据等高难度挑战,这使得云计算中心实时返回数据决策也变成了不可能的任务。于是,边缘计算开始进入到公众的视线。1Q:边缘计算和物联网有…

要闻君说:FaceTime的服务究竟坑有多大?CNCF 技术监督委员会首添中国面孔,来自阿里!高通华为暂和解……...

关注并标星星CSDN云计算每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 嗨,大家好!偶是要闻君。终于等到了工作日的最后一天,内心狂喜,想必有的看官已经放假啦。十分感谢小伙伴们长达一月的陪伴&#xff0c…

C语言 fprintf 函数 - C语言零基础入门教程

目录 一.fprintf 函数简介二.fprintf 函数使用三.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.fprintf 函数简介 fprintf 是 C / C 中的一个格式化库函数,位于头文件 中,其作用是格式化输出到一个流文件中&#xff1…

云漫圈 | 漫画:什么是加密算法?

戳蓝字“CSDN云计算”关注我们哦!文章来自:程序员小灰作者:小灰加密算法的历史加密算法最早诞生在什么时候?是在计算机出现之后吗?不不不,早在古罗马时期,加密算法就被应用于战争当中。在大规模…

深入浅出大数据:到底什么是Hadoop?

戳蓝字“CSDN云计算”关注我们哦!作者:小枣君来源:鲜枣课堂1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司。无独有偶,一位名叫Doug Cutting的美国工程师&#xff0c…

趣挨踢 | 30 个让程序员崩溃的瞬间,笑死我了!

戳蓝字“CSDN云计算”关注我们哦!文章来自:程序员最幽默前方高能,看完不笑的来找我。我自己看了好几遍,程序员真的是一群逗比的人才!1. 公司实习生找 Bug2. 在调试时,将断点设置在错误的位置3. 当我有一个很…

“史上最强春节档”来袭!数据解读值得看的影片是......

戳蓝字“CSDN云计算”关注我们哦!作者介绍:徐麟,目前就职于互联网公司数据部,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据个人公众号:数据森麟&#xff08…

大厂必问的分布式究竟是什么鬼?

戳蓝字“CSDN云计算”关注我们哦!新的一年又开始了,各大招聘咨询机构都会对过去一年市场上的人才供需进行盘点。根据高端招聘平台100 offer发布的Java人才盘点报告,在过去的2018年,Java仍然是最流行、招聘供需量最大的技术语言。在…

为什么不用原生Spring-Cloud-Config

戳蓝字“CSDN云计算”关注我们哦!引言近几年传统应用架构已经逐渐朝着微服务架构演进。那么随着业务的发展,微服务越来越庞大,此时服务配置的管理变得会复杂起来。为了方便服务配置文件统一管理,实时更新,配置中心应运…

cesium实现区域贴图及加载多个gif动图

1、cesium加载多个gif动图 Cesium的Billboard支持单帧纹理贴图,如果能够将gif动图进行解析,获得时间序列对应的每帧图片,然后按照时间序列动态更新Billboard的纹理,即可实现动图纹理效果。为此也找到了相对于好一点的第三方库libg…

DevOps“兵器”60样,你都会使哪几样?

戳蓝字“CSDN云计算”关注我们哦!编前按:获得开发者社区支持的自动化,开源的工具是大家梦寐以求的。这里列举了 60 多款最棒的开源工具,可以帮助你很好的实行 DevOps。一、开发工具版本控制&协作开发1.版本控制系统 GitGit是一…

云漫圈 | 腾讯面试,我竟然输给了final关键字

戳蓝字“CSDN云计算”关注我们哦!作者:乔戈里来源:程序员乔戈里腾讯面试现场——————final 在 Java 中是一个保留的关键字,可以声明变量、方法、类。什么是final变量 / 类 / 方法?任何变量前被 final 修饰就是 fin…

学习微服务网关zuul,看这篇就够了

戳蓝字“CSDN云计算”关注我们哦!作者:爱撒谎的男孩 原文:https://chenjiabing666.github.io/2018/12/25/zuul%E6%9C%8D%E5%8A%A1%E7%BD%91%E5%85%B3/本文系读者投稿,已获作者原创授权。如果你有好文章,可以戳这里投稿…

写给程序员的裁员防身指南

戳蓝字“CSDN云计算”关注我们哦!大家都知道 18 年底许多大公司都开始了「人员优化」动作,不仅仅美团等大厂有所行动,就连一些平时求贤若渴的小公司也有所动作。本来我以为关于劳动法的事情,许多人应该多多少少都应该了解。但最近…