Storm编程模型总结

  • 目录
    • 前言:
    • 1、Storm编程模型
    • 2、对应的的WordCount案例
    • 总结:

目录

前言:

对于Storm的编程模型有必要做一个详细的介绍(配合WC案例来介绍)

1、Storm编程模型

这里写图片描述
上图中组件的解释:

  • DataSource:外部数据源

  • Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt

  • Bolt:接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介质可以是Redis可以是mysql,或者其他。

  • Tuple:Storm内部中数据传输的基本单元,里面封装了一个List对象,用来保存数据。

  • StreamGrouping:数据分组策略

    7种:shuffleGrouping(Random函数),Non Grouping(Random函数),FieldGrouping(Hash取模)、Local or ShuffleGrouping 本地或随机,优先本地。

    1. Shuffle Grouping: 随机分组, 随机派发stream里面的tuple,保证每个bolt接收到的tuple数目大致相同。
    2. FieldsGrouping:按字段分组,比如按userid来分组,具有同样userid的tuple会被分到相同的Bolts里的一个task,而不同的userid则会被分配到不同的bolts里的task。
    3. All Grouping:广播发送,对于每一个tuple,所有的bolts都会收到。
    4. Global Grouping:全局分组,这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。
    5. Non Grouping:不分组,这stream grouping个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle
      grouping是一样的效果, 有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。
    6. Direct Grouping: 直接分组,这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id(OutputCollector.emit方法也会返回task的id)。
    7. Local or shuffle grouping:如果目标bolt有一个或者多个task在同一个工作进程中,tuple将会被随机发生给这些tasks。否则,和普通的Shuffle Grouping行为一致。

FieldGrouping和shuffleGrouping 运行过程分析:

FieldsGroup:你会发现相同的数据被分到相同的线程中。
95    word:am
95    word:am
95    word:am
95    word:am
95    word:am
91    word:love
91    word:love
91    word:love
91    word:love
91    word:love
95    word:am
89    word:i
89    word:hanmeimei
89    word:i
89    word:hanmeimei
89    word:i
93    word:lilei
93    word:lilei
93    word:lilei
93    word:lilei-----------------------------------
shuffleGroup:你会发现相同的数据被分到不同的线程中(数字代表线程id95    word:hanmeimei
89    word:love
95    word:hanmeimei
89    word:am
95    word:am
89    word:love
89    word:love
89    word:hanmeimei
89    word:am
95    word:love
95    word:hanmeimei
89    word:i
95    word:am
95    word:i
95    word:hanmeimei
95    word:i
95    word:hanmeimei
89    word:am
95    word:love
89    word:love
95    word:love

2、对应的的WordCount案例

2.1、功能说明
设计一个topology,来实现对文档里面的单词出现的频率进行统计。
整个topology分为三个部分:

  • RandomSentenceSpout:数据源,在已知的英文句子中,随机发送一条句子出去。
  • SplitSentenceBolt:负责将单行文本记录(句子)切分成单词
  • WordCountBolt:负责对单词的频率进行累加

执行wc时,通过Spout来读取数据,然后通过Bolt来切分数据(如map阶段)再通过另一个Bolt和上一个Bolt相连来进一步做单词的统计(通过hashmap来实现)
2.2、项目主要流程
这里写图片描述
首先new TopologyBuilder->setSpout(spot的id,new spot的实现类,并发度)->setBolt(Bolt的id,new Bolt的实现类,并发度)<可设置多个Bolt>->new Config->config设置worker的数量。

2.3、RandomSentenceSpout的实现及生命周期
这里写图片描述
Spout的生命周期:open(初始化)->nextTuple(框架一直调用)->declareOutputFields(该方法用于声明自己发射出去的数据的类型(自定义或者可以理解为标识自己发射出去的数据))

2.4、SplitSentenceBolt的实现及生命周期
这里写图片描述
Bolt的生命周期:prepare(初始化)->execute(对传过来的tuple进行处理)->declareOutoutFields(声明输出的数据类型若输出数据类型为多个则声明多个如下图所示(自定义))
2.5、WordCountBolt的实现及生命周期
这里写图片描述

代码执行图:
这里写图片描述

总结:

这篇文章最主要的目的还是让读者能够对Storm的编程模型有个初步的认识;至少你得能够看懂简单的WC案例,知道里面各个参数的含义,以及整个程序的执行流程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

13_观察者模式

【观察者模式】 也叫作发布/订阅模式&#xff0c;使用较为频繁。 定义了对象间一种一对多的依赖关系&#xff0c;当一个对象改变状态时&#xff0c;则所有依赖于它的对象都会得到通知并被自动更新。 观察者模式由以下几个角色组成&#xff1a; * Subject 被观察者 定义被观察者…

【python】内建异常类的层次

内建异常类的层次 BaseException-- SystemExit-- KeyboardInterrupt-- GeneratorExit-- Exception-- StopIteration-- StopAsyncIteration-- ArithmeticError| -- FloatingPointError| -- OverflowError| -- ZeroDivisionError-- AssertionError-- AttributeError-- …

《黑客秘笈——渗透测试实用指南》—第2章2.3节 外部或内部的主动式信息收集...

本节书摘来自异步社区《黑客秘笈——渗透测试实用指南》一书中的第2章2.3节 外部或内部的主动式信息收集&#xff0c;作者【美】Peter Kim&#xff08;彼得 基姆&#xff09;,更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.3 外部或内部的主动式信息收集黑客秘笈——…

Storm集群的安装及简单使用

目录前言&#xff1a;1、集群部署的基本流程2、Storm常用操作命令&#xff08;了解&#xff09;3、Storm集群的进程及日志熟悉&#xff08;知道对应的日志的位置出了问题知道去哪找原因&#xff09;4、Storm源码目录分析&#xff08;重要&#xff09;总结&#xff1a; 目录 前…

【python】错误、异常和文件---复习笔记

错误、异常和文件 1. 异常处理 错误指的是代码有语法问题&#xff0c;无法解释运行&#xff0c;必须改正后才能运行 如果代码没有语法问题&#xff0c;可以运行&#xff0c;但会出运行时的错误&#xff0c;例如除零错误&#xff0c;下标越界等问题&#xff0c;这种在运行期间…

关于使用百度ueditor时的一些问题

本来这些问题直接在百度贴吧里回答不就完事了,可是好死不死的,百度贴吧里老出现 未知错误&#xff0c;错误号&#xff1a;230274 看来还是算了,自己做一个随笔记录一下好了 关于我们获取里面的内容时,老是会有一个<p>来包着,而且还老是多出来一个<br/> 这边是这么处…

Storm的通信机制

目录前言&#xff1a;1、Worker进程间通信原理2、Worker进程间技术(Netty、ZeroMQ)3、Worker 内部通信技术(Disruptor)总结&#xff1a; 目录 前言&#xff1a; 这篇文章&#xff0c;博客主要介绍下Storm中Worker进程间和进程内部通信的原理和技术。整篇内容仅供了解&#x…

《Windows PowerShell实战指南(第2版)》——1.4 搭建自己的实验环境

本节书摘来自异步社区《Windows PowerShell实战指南&#xff08;第2版&#xff09;》一书中的第1章&#xff0c;第1.4节&#xff0c;作者&#xff1a;【美】Don Jones&#xff08;道琼斯&#xff09; , Jeffery Hicks&#xff08;杰弗瑞希克斯&#xff09;著&#xff0c;更多章…

已解决]求问not 1 or 0 and 1 or 3 and 4 or 5 and 6 or 7 and 8 and 9为什么不等于0呢???

not 1 or 0 and 1 or 3 and 4 or 5 and 6 or 7 and 8 and 9 ----> (not 1&#xff09;)or (0 and 1) or (3 and 4) or (5 and 6) or (7 and 8 and 9) ----> 0 or 0 or 4 or 6 or 9 ----> 0 or 4 or 6 or 9 ----> 4 or 6 or 9 4

C#外围工具资源

1、MATH.NET数学库:可以用于 矩阵计算方程求根插值拟合。。。2、转载于:https://www.cnblogs.com/liq07lzucn/p/6227443.html

Storm程序的并发机制原理总结

文章目录目录前言&#xff1a;1、概念2、配置并行度总结&#xff1a;目录 前言&#xff1a; 为了在以后的实践中提高Storm程序执行的效率&#xff0c;我们还是有必要了解下对应的Storm程序的并发机制。&#xff08;哈哈&#xff0c;虽然以博主小菜鸟的水平还没有接触到这种提…

《无线网络:理解和应对互联网环境下网络互连所带来的挑战》——第2章 无线生态系统 2.1无线标准化过程...

本节书摘来自华章出版社《无线网络&#xff1a;理解和应对互联网环境下网络互连所带来的挑战》一书中的第2章&#xff0c;第2.1节&#xff0c;作者&#xff1a;&#xff08;美&#xff09;杰克L.伯班克&#xff08;Jack L. Burbank&#xff09;等著&#xff0c;更多章节内容可以…

Flask模板01

模板 在前面的示例中&#xff0c;视图函数的主要作用是生成请求的响应&#xff0c;这是最简单的请求。实际上&#xff0c;视图函数有两个作用&#xff1a;处理业务逻辑和返回响应内容。在大型应用中&#xff0c;把业务逻辑和表现内容放在一起&#xff0c;会增加代码的复杂度和…

★数学上最大的数是多少?

数学上最大的数是多少&#xff1f; 怪罗科普 收藏(282)| 阅读(117678)人类已经使用数长达千年之久。普遍认为&#xff0c;数的概念最先源于史前人类开始使用手指进行计数。这最终演变成符号语言&#xff0c;然后在沙子、墙壁和木头等物体上作标记。 我们已经向前发展了一大步&…

Flask模板02

3.4 控制语句 常用的几种控制语句&#xff1a; 模板中的if控制语句 app.route(/user) def user():user dongGereturn render_template(user.html,useruser)<html><head>{% if user %}<title> hello {{user}} </title>{% else %}<title> welc…

Storm任务提交过程及目录树介绍

目录前言&#xff1a;1、Storm 任务提交的过程2、Storm相关的目录树总结&#xff1a; 目录 前言&#xff1a; 对于任何一个组件来说&#xff0c;了解它相关的任务提交的过程是非常有必要的&#xff08;毕竟生产中遇到一些Bug时&#xff0c;你如果知道内部执行的过程&#xf…

《Adobe InDesign CS6中文版经典教程》—第1课1.5节修改文档的缩放比例

本节书摘来自异步社区《Adobe InDesign CS6中文版经典教程》一书中的第1课1.5节修改文档的缩放比例&#xff0c;作者【美】Adobe公司,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.5 修改文档的缩放比例Adobe InDesign CS6中文版经典教程InDesign中的控件让用户能…

随机生成一定范围的随机数

function randomNum(min,max) { return Math.ceil(Math.random()*(max-min)min); } min,max最小最大范围数字。转载于:https://www.cnblogs.com/kingzlz/p/6229586.html

【python】Flask视图

2.1 从 Hello World 开始 Flask程序运行过程&#xff1a; 所有Flask程序必须有一个程序实例。 Flask调用视图函数后&#xff0c;会将视图函数的返回值作为响应的内容&#xff0c;返回给客户端。一般情况下&#xff0c;响应内容主要是字符串和状态码。 当客户端想要获取资源…

大数据之Kafka入门简介

目录前言&#xff1a;1、Kafka是什么2、JMS是什么3、Kafka核心组件&#xff08;重点&#xff09;总结&#xff1a; 目录 前言&#xff1a; 作为流式计算中的一个组件&#xff0c;对于它的组成以及运行的原理&#xff0c;学习者也需要相关的了解。以下主要简单介绍了kafka是什…