任务5.2 掌握DStream基础操作

在这里插入图片描述

实战:DStream基础操作

  1. 了解DStream编程模型:DStream是Spark Streaming中对实时数据流的抽象,可以看作一系列持续的RDD。DStream可以通过外部数据源获取或通过现有DStream的高级操作获得。

  2. 操作本质:DStream上的操作最终会转化为对底层RDD的操作,例如使用flatMap()方法进行文本数据的扁平化和分割。

  3. 操作类型:包括转换操作(如map、flatMap、filter、reduce等),窗口操作(允许对滑动窗口内的数据进行计算),以及输出操作(将处理结果持久化,如保存到HDFS、数据库)。

使用DStream转换操作

  • 知识储备:熟悉DStream转换操作的常用方法,如map、flatMap、filter等,以及transform操作,后者可以调用任意RDD上的方法。

  • 实战练习

    • 使用transform()方法拆分单词,并演示如何在控制台查看分词结果。

使用DStream窗口操作

  • 窗口函数:通过配置窗口长度和滑动间隔,对DStream上的数据执行计算操作。

  • 窗口转换操作方法:包括window()函数和其他需要窗口长度和滑动间隔参数的操作。

  • 实战练习

    • 使用window()函数演示单词在滑动窗口中的聚合。
    • 使用reduceByKeyAndWindow()函数统计当前窗口内不同单词出现的次数,并演示结果。

使用DStream输出操作

  • 输出操作概念:DStream的输出操作是触发所有转换操作的真正触发点,类似于RDD中的动作操作。

  • 实战练习

    • 演示如何将词频统计结果保存到HDFS文件。
    • 演示如何将统计结果写入MySQL数据库,包括创建数据库和表、添加数据库驱动依赖、刷新项目依赖等步骤。

实战练习步骤

  1. 启动nc监听:在master主机上执行nc -lk 9999命令启动监听。

  2. 启动Spark Streaming应用程序:运行相应的Spark Streaming对象,如TransformDemoWindowDemoReduceByKeyAndWindowDemoSaveAsTextFilesDemoWriteDataToMySQL等。

  3. 输入数据:在nc监听端口中输入数据,如多行文本或每秒一个字母。

  4. 查看结果

    • 对于保存到HDFS的情况,使用hdfs dfs -ls命令查看生成的文件,并使用hdfs dfs -cat命令查看文件内容。
    • 对于写入MySQL数据库的情况,使用SQL查询select * from searchKeyWord;来查看表中的记录。

通过这些实战练习,您将能够深入理解Spark Streaming的DStream操作,包括数据流的转换、窗口操作、以及数据的输出和持久化。这些技能对于处理实时数据流和实现复杂的流处理逻辑至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/32673.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kettle从入门到精通 第七十三课 ETL之kettle kettle调用http分页接口教程

场景:kettle调用http接口获取数据(由于数据量比较大,鉴于网络和性能考虑,所以接口是个分页接口)。 方案:构造页码list,然后循环调用接口。 1、总体设计 1)、初始化分页参数pageNum1…

[MYSQL] 数据库基础

1.什么是数据库 从数据库的名字可以看出,它是用来操作(增删查改....)数据的,事实上也的确如此,通过数据库,我们可以更方便.更高效的来操作.管理数据 以文件形式存储数据的缺点 文件的安全问题文件不利于数据的查询和删除文件不利于存储海量数据操作文件并不方便 为了解决上述问…

Day 31:100334. 包含所有1的最小矩形面积Ⅰ

Leetcode 100334. 包含所有1的最小矩形面积Ⅰ 给你一个二维 **二进制 **数组 grid。请你找出一个边在水平方向和竖直方向上、面积 最小 的矩形,并且满足 grid 中所有的 1 都在矩形的内部。 返回这个矩形可能的 **最小 **面积。 确定首次出现 1 的第一行 top&#xf…

Pip换源秘籍:让你的Python包飞行起来!

在Python的包管理中,Pip是最重要的工具之一。它允许开发者从Python Package Index (PyPI)安装包,但有时由于网络问题或服务器负载过高,直接从PyPI安装包可能会非常慢。这时,更换Pip源到一个更快的镜像站点是一个常见的解决方案。本…

基于SSM的校园闲置物品交易系统【附源码】

题目: 基于SSM的校园闲置物品交易系统 摘 要 伴随着电子商务的飞速发展,网上交易日益发挥出其不可替代的优越性。但由于电子商务在校园的应用起步较晚,以及校园电子商务模式应用的不成熟,使高校校园电子商务的发展缓慢。 二手商品…

基于S7-200PLC的全自动洗衣机控制系统设计

wx供重浩:创享日记 那边对话框发送:plc洗衣 获取完整无水印设计说明报告(含程序梯形图) 1.自动洗衣机PLC控制的控制要求 1.1全自动洗衣机的基本结构、工作流程和工作原理 1.自动洗衣机的基本结构 2.自动洗衣机的工作流程 自动洗…

MySQL锁详解

目录 前言 MySQL锁 共享锁和排他锁 - Shared and Exclusive Locks 意向锁 - Intention Locks 索引记录锁 - Record Locks 间隙锁 - Gap Locks 临键锁 - Next-Key Locks 插入意向锁 - Insert Intention Locks AUTO-INC Locks 死锁 死锁产生条件 InnoDB对死锁的检测…

海康威视-下载的录像视频浏览器播放问题

目录 1、播放异常比对 2、视频编码检查 2.1、正常视频解析 2.2、海康视频解析 2.3、比对工具 3、转码 3.1、maven依赖 3.2、实现代码 4、验证 在前面的文章(海康威视-按时间下载录像文件_海康威视 sdk 下载录像 大小0-CSDN博客)中,通…

计算机网络之奇偶校验码和CRC冗余校验码

今天我们来看看有关于计算机网络的知识——奇偶校验码和CRC冗余校验码,这两种检测编码的方式相信大家在计算机组成原理当中也有所耳闻,所以今天我就来跟大家分享有关他们的知识。 奇偶校验码 奇偶校验码是通过增加冗余位使得码字中1的个数恒为奇数或偶数…

汽车网络安全 -- 漏洞该如何管理

目录 1.漏洞获取途径汇总 2.CAVD的漏洞管理规则简析 2.1 通用术语简介 2.2 漏洞评分指标 2.3.1 场景参数 2.3.2 威胁参数 2.3.3 影响参数 2.3 漏洞等级判定 ​3.小结 在汽车网络安全的时代背景下,作为一直从事车控类ECU基础软件开发的软件dog,…

mysql启动时遇到:本地计算机上的MySQL服务启动后停止

1.问题重述: 今早启动数据库时发现无法启动,报错:本地计算机 上的 MySQL服务启动后停止。某些服务在未由其他服务或程序使用时将自动停止。 2.解决方案: 1.数据备份: 2.在bin目录下,命令行中输入 mysqld …

版本控制工具-git的基本使用

目录 前言一、git简介二、git工作流程三、git基本命令3.1 创建本地仓库3.2 将工作区内容提交到本地仓库3.3 将本地仓库内容推送到远程仓库 前言 本篇文章介绍git的一般工作流程 一、git简介 Git是一个开源的分布式版本控制软件,常用于项目的版本管理 Git是Linux …

196.每日一题:检测大写字母(力扣)

代码解决 class Solution { public:bool detectCapitalUse(string word) {int capitalCount 0;int n word.size();// 统计大写字母的数量for (char c : word) {if (isupper(c)) {capitalCount;}}// 检查是否满足三种情况之一if (capitalCount n) {// 全部字母都是大写return…

2024.06.23 刷题日记

〇、前言 今天重点刷了回溯,以及常见的题目。 46. 全排列 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3],[1,3,2],[2,1,3…

Node.js是什么(基础篇)

前言 Node.js是一个基于Chrome V8 JavaScript引擎的开源、跨平台JavaScript运行时环境,主要用于开发服务器端应用程序。它的特点是非阻塞I/O模型,使其在处理高并发请求时表现出色。 一、Node JS到底是什么 1、Node JS是什么 Node.js不是一种独立的编程…

C/C++ - 编码规范(USNA版)

[IC210] Resources/C Programming Guide and Tips 所有提交的评分作业(作业、项目、实验、考试)都必须使用本风格指南。本指南的目的不是限制你的编程,而是为你的程序建立统一的风格格式。 * 这将有助于你调试和维护程序。 * 有助于他人&am…

USB - USB在消费领域的应用

Switching in USB Consumer Applications 通用串行总线(USB)已成为满足终端设备之间日益增长的快速数据传输需求的主流接口--例如,在个人电脑和便携式设备(如手机、数码相机和个人媒体播放器)之间下载和上传数据。 The…

Go WebSocket入门+千万级别弹幕系统架构设计

Go实现WebSocket(千万级别弹幕系统架构设计) 1 websocket简介(基于HTTP协议的长连接) 使用WebSocket可以轻松的维持服务器端长连接,其次WebSocket是架构在HTTP协议之上的,并且也可以使用HTTPS方式,因此WebSocket是可靠…

国产化操作系统杂谈

目录 操作系统国产化背景国产化操作系统名录优秀操作系统介绍1.深度Linux(deepin)2.FydeOS3.AliOS(openAliOS)4.openEuler5.红旗Linux6. startOS 总结 操作系统国产化背景 官方的说法是为了打破长期以来国外对中国的操作系统的垄…

OGG几何内核开发-复杂装配模型读取、显示、分析

OGG几何内核读取STEP模型文件的API有STEPCAFControl_Reader、STEPControl_Reader。 STEPCAFControl_Reader使用很复杂,但可以展示装配树,有利于模型的详细分析。 本文演示了《插件化算法研究平台V2》的OCC几何模型插件的部分功能:显示装配树…