Spark实时(一):StructuredStreaming 介绍

文章目录

StructuredStreaming 介绍

一、SparkStreaming实时数据处理痛点

1、复杂的编程模式

2、SparkStreaming处理实时数据只支持Processing Time

3、微批处理,延迟高

4、精准消费一次问题

二、StructuredStreaming概述

三、​​​​​​​​​​​​​​StructuredStreaming 特点


Structured Streaming 介绍

一、SparkStreaming实时数据处理痛点

在Spark2.0之前版本中处理流式数据时使用SparkStreaming模块,SparkStreaming模块有一些痛点问题,问题如下:

1、复杂的编程模式

SparkStreaming编写代码是基于DStream进行,DStream底层是RDD操作,编程时需要编写很多DStream API非常不方便。由于不同开发者编码水平不同,导致不同人编写相同业务逻辑程序执行效率也有很大不同。并且在SparkStreaming中编程时需要创建StreamingContext对象,如果想要使用SQL方式对实时数据进行处理,那么还需要创建SparkSession对象,编程方式非常不方便。

2、SparkStreaming处理实时数据只支持Processing Time

在流式数据处理场景中,实时事件产生时会对应一个时间,这个时间一般包含在事件信息中,这个时间我们一般称为“Event Time”(事件时间),实时事件产生后通过网络传输被实时处理框架处理时间我们称为“Processing Time”(处理时间)。由于实时事件通过网络传递时会出现延迟现象,所以计算框架在对数据进行窗口划分时最好使用“Event Time”进行窗口划分,这样数据统计更精准,而SparkStreaming中仅支持“Processing Time”。

3、微批处理,延迟高

SparkStreaming仅支持微批处理数据,很难做到毫秒级数据延迟,延迟高。

4、精准消费一次问题

SparkStreaming中要想实现精准消费一次数据需要自己代码实现,比较麻烦。

二、​​​​​​​​​​​​​​StructuredStreaming概述

Spark2.0版本之后引入StructuredStreaming,StructuredStreaming提供快速、可扩展、容错、端到端exactly-once流处理,Structured Streaming 是基于SparkSQL引擎构建的可扩展且容错的流处理引擎,可以使用SparkSQL方式像处理批数据一样处理实时数据,可以随着实时数据产生持续不断的增量处理数据并且更新最终结果。StructStreaming的出现解决了SparkStreaming流处理的很多痛点。

在内部,默认情况下,Structured Streaming查询使用微批处理引擎,该引擎将数据流处理成一系列小批量作业,从而实现低至100ms的端到端数据延迟和“exactly-once”容错保证。但是在Spark2.3版本之后,Structured Streaming引入了“Continuous Processing”连续处理,可以实现在“at-lest-once”至少一次保证的情况下实现低至1ms的端到端数据延迟,在代码编程层面,我们不需要修改对应的Dataset和DataFrame代码,只需要选择对应的模式即可使用Continuous Processing。

SparkStreaming与Structured Streaming相比较,SparkStreaming是Spark最初的流处理框架,只能使用DStream算子编程,底层是RDD操作,而Structured Streaming是Spark2.0后退出的流式处理框架,处理支持Spark,底层操作是基于DataFrame/Dataset,目前也支持连续流处理模型,但是目前在实验阶段。

三、​​​​​​​​​​​​​​StructuredStreaming 特点

  1. 可以基于Scala/Java/Python语言进行编程。
  2. 可以使用Dataset/DataFrame方式开发流式作业,性能相对于RDD编程高。
  3. 通过Checkpoint和WAL预写日志机制自动实现端到端exactly-once数据仅一次消费语义。
  4. Structured Streaming底层模式是微批处理模式,在Spark2.3后支持连续实时数据处理。

  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/48254.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BGP选路之AS-PATH

原理概述 当一台BGP路由器中存在多条去往同一目标网络的BGP路由时,BGP协议会对这些BGP路由的属性进行比较,以确定去往该目标网络的最优BGP路由。首先要比较的属性是 Preferred Value,然后是Local Preference,再次是路由生成方式&a…

算法学习笔记:回溯法

回溯法有“通用的解题法”之称。用它可以系统地搜索一个问题的所有解或任一解。回溯法是一个既带有系统性又带有跳跃性的搜索算法。它在包含问题的所有解的解空间树中,按照深度优先的策略,从根节点出发搜索解空间树。算法搜索至解空间树的任一节点时&…

【Android Studio】整合okhttp发送get和post请求(提供Gitee源码)

前言:本篇博客教学大家如何使用okhttp发送同步/异步get请求和同步/异步post请求,这边博主把代码全部亲自测试过了一遍,需要源码的可以在文章最后自行拉取。 目录 一、导入依赖 二、开启外网访问权限 三、发送请求 3.1、发送同步get请求…

关于pycharm上push项目到gitee失败原因

版权声明:本文为博主原创文章,如需转载请贴上原博文链接:https://blog.csdn.net/u011628215/article/details/140577821?spm1001.2014.3001.5502 前言:最近新建项目push上gitee都没有问题,但是当在gitee网站进行了一个…

2024在线PHP加密网站源码

源码介绍 2024在线PHP加密网站源码 更新内容: 1.加强算法强度 2.优化模版UI 加密后的代码示例截图 源码下载 https://download.csdn.net/download/huayula/89568335

kafka集群搭建-使用zookeeper

1.环境准备: 使用如下3台主机搭建zookeeper集群,由于默认的9092客户端连接端口不在本次使用的云服务器开放端口范围内,故端口改为了8093。 172.2.1.69:8093 172.2.1.70:8093 172.2.1.71:8093 2.下载地址 去官网下载,或者使用如…

Mysql的主从复制(重要)和读写分离(理论重要实验不重要)

一、主从复制:架构一般是一主两从。 1.主从复制的模式: mysql默认模式为异步模式:主库在更新完事务之后会立即把结果返回给从服务器,并不关心从库是否接收到以及从库是否处理成功。缺点:网络问题没有同步、防火墙的等…

vue3-video-play 导入 以及解决报错

npm install vue3-video-play --save # 或者 yarn add vue3-video-play import Vue3VideoPlay from vue3-video-play; import vue3-video-play/dist/style.css; app.use(Vue3VideoPlay) <template><div id"main-container-part"><div class"al…

Meta发布最强AI模型,扎克伯格公开信解释为何支持开源?

凤凰网科技讯 北京时间7月24日&#xff0c;脸书母公司Meta周二发布了最新大语言模型Llama 3.1&#xff0c;这是该公司目前为止推出的最强大开源模型&#xff0c;号称能够比肩OpenAI等公司的私有大模型。与此同时&#xff0c;Meta CEO马克扎克伯格(Mark Zuckerberg)发表公开信&a…

opencv grabCut前景后景分割去除背景

参考&#xff1a; https://zhuanlan.zhihu.com/p/523954762 https://docs.opencv.org/3.4/d8/d83/tutorial_py_grabcut.html 环境本次&#xff1a; python 3.10 提取前景&#xff1a; 1、需要先把前景物体框出来 需要坐标信息&#xff0c;可以用windows自带的画图简单提取像素…

Concat() Function-SQL-字符串拼接函数

Concat() Function-SQL 在SQL中&#xff0c;CONCAT() 函数用于将两个或多个字符串连接在一起。 不同数据库管理系统可能有些许差异&#xff0c;但基本用法和语法通常是相似的。 语法 CONCAT(string1, string2, ...)string1, string2, …: 这些是需要连接的字符串参数。可以…

【时序约束】读懂用好Timing_report

一、静态时序分析&#xff1a; 静态时序分析&#xff08;Static Timing Analysis&#xff09;简称 STA&#xff0c;采用穷尽的分析方法来提取出整个电路存在的所有时序路径&#xff0c;计算信号在这些路径上的传播延时&#xff0c;检查信号的建立和保持时间是否满足时序要求&a…

定时器+外部中断实现NEC红外线协议解码

一、前言 1.1 功能介绍 随着科技的进步和人们生活水平的提高&#xff0c;红外遥控器已经成为了日常生活中不可或缺的电子设备之一&#xff0c;广泛应用于电视、空调、音响等多种家电产品中。 传统的红外遥控器通常只能实现预设的有限功能&#xff0c;无法满足用户对设备更加智…

TCP客户端connect断线重连

文章目录 TCP客户端connect断线重连1、为什么要断线重连2、实现代码 TCP客户端connect断线重连 1、为什么要断线重连 客户端会面临服务器崩溃的情况&#xff0c;我们可以试着写一个客户端重连的代码&#xff0c;模拟并理解一些客户端行为&#xff0c;比如游戏客户端等. 考虑到…

实战篇(十二):如何使用 Processing 创建一个多功能的简易吃豆人游戏

如何使用 Processing 创建一个多功能的简易吃豆人游戏 文章目录 如何使用 Processing 创建一个多功能的==简易==吃豆人游戏引言准备工作第一步:设置基本框架第二步:创建 Pacman 类第三步:创建 Obstacle 类第四步:添加分数系统第五步:运行游戏完整代码结论参考资料引言 吃…

STL常用算法——常用查找算法

自定义类型都要用仿函数判断 1.find() class Person { public:Person(string name,int age){this->m_Name name;this->m_Age age;}bool operator(const Person &p)//重载operator{if (this->m_Name p.m_Name && this->m_Age p.m_Age){return true;…

NVIDIA 全面转向开源 GPU 内核模块

NVIDIA 全面转向开源 GPU 内核模块 文章目录 NVIDIA 全面转向开源 GPU 内核模块支持的 GPU安装程序更改使用带有 CUDA 元包的包管理器 使用运行文件使用安装帮助脚本包管理器详细信息dnf&#xff1a;Red Hat Enterprise Linux、Fedora、Kylin、Amazon Linux 或 Rocky Linuxzypp…

网络安全等级保护:什么是网络安全等级保护?(非常详细)零基础入门到精通,收藏这一篇就够了

关键词&#xff1a; 网络安全等级保护 等级保护 网络 信息系统 旧话重提&#xff0c;一直以来&#xff0c;我们不断强调“等级保护”制度是我国的网络安全领域的基本制度、基本策略和基本方法&#xff0c;是促进信息化健康发展&#xff0c;维护国家安全、社会秩序和公共利益的…

数字图像处理中的常用特殊矩阵及MATLAB应用

一、前言 Matlab的名称来源于“矩阵实验室&#xff08;Matrix Laboratory&#xff09;”&#xff0c;其对矩阵的操作具有先天性的优势&#xff08;特别是相对于C语言的数组来说&#xff09;。在数字图像处理中&#xff0c;为了提高编程效率&#xff0c;我们可以使用多种方式来创…

Mysql数据库和Sql语句

数据库管理&#xff1a; sql语句&#xff1a;数据库用来增删改查的语句&#xff08;重要&#xff09; 备份&#xff1a;数据库的数据进行备份 主从复制、读写分离、高可用&#xff08;重要&#xff09; Mysql数据库和Sql语句 一、Mysql数据库 1、数据库&#xff1a;组织、…