2024-02-20(DataX,Spark)

1.Oracle利用DataX工具导出数据到Mysql。Oracle利用DataX工具导出数据到HDFS。

只是根据导入导出的目的地不同,DataX的Json文件书写内容有所不同。万变不离其宗。

书写的Json格式的导入导出规则文件存放再Job目录下的。

2.Spark概念

Apache Spark是用于大规模数据处理的统一分析引擎

Spark对任意的数据类型都能进行自定义的计算,Spark可以计算结构化,半结构化,非结构化等各种类型的数据结构,同时,还支持Python,Java,Scala,R以及SQL语言去开发应用程序计算数据。

3.Spark和Hadoop比较

Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。

Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。

Spark是由于Hadoop中MR效率低下而产生的高效率快速计算引擎

Spark和Hadoop的区别和比较-CSDN博客

尽管Spark相对于Hadoop而言具有较大的优势,但是Spark并不能完全替代Hadoop

在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR架构,比如非常成熟的Hive。

Spark仅作计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构。

4.三大分布式计算系统

Hadoop适合处理离线的静态的大数据;

Spark适合处理离线的流式的大数据;

Storm/Flink适合处理在线的实时的大数据。

5.Spark和MR处理数据相比有两个不同点

其一,Spark处理数据时,可以将中间处理数据结果存储到内存中(MR是通过磁盘来保存和读取处理数据的结果的)

其二,Spark提供了非常丰富的算子(API),可以做到复杂任务也能在一个Spark程序中完成。

6.Spark的架构角色

左边是YARM的架构角色,右边是Spark的架构角色

资源层面:

Master角色:集群资源管理

Worker角色:单机资源管理

任务运行层面:

Driver:单个任务的管理

Executor角色:单个任务的计算(给worker干活的)

7.Spark解决什么问题

海量数据的计算,可以进行离线批处理以及实时流计算

8.Spark有哪些模块

核心SparkCore,SQL计算(SparkSQL),流计算(SparkStreaming),图计算(GraphX),机器学习(MLlib)

9.Spark特点有哪些

速度快,使用简单,通用性强,多种模式运行

10.Spark的运行模式

本地模式

集群模式(StandAlone,YARN,K8S)

云模式

11.Spark的运行角色(对比YARN)

Master:集群资源管理(类比ResourceManager)

Worker:单机资源管理(类比NodeManager)

Driver:单任务管理者(类比ApplicationMaster)

Executor:单任务执行者(类比YARN容器内的Task)

12.Spark中Local模式的运行原理

Local模式原理就是以一个独立进程配合其内部的线程们来提供完成Spark运行时的环境,Local模式可以通过spark-shell/pyspark/spark-submit等来开启

13.bin目录下的pyspark是什么程序

是一个交互式的解释器执行环境,环境启动后就得到了一个Local Spark环境,可以运行python代码去进行spark计算

14.Spark的4040端口是什么

Spark的任务在运行后,会在Driver所在的机器绑定到4040端口,提供当前任务的监控页面以供查看。

15.Spark的StandAlone架构

StandAlone模式是Spark自带的一种集群模式,不同于Local本地模式启动多个进程来模拟集群环境,StandAlone模式真实的在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于真实的大数据处理。

StandAlone是完整的Spark运行环境,其中:

Master角色是以Master进程存在,Worker角色是以Worker进程存在。

Driver角色在运行时存在于Master进程内,Executor运行与Worker进程内

进一步阐述

StandAlone集群上主要有三类进程:

1.主节点Master进程:

Master角色,管理整个集群资源,并托管运行各个任务的Driver

2.从节点Workers:

Worker角色,管理每个机器的资源,分配对应的资源来运行Executor(Task).。

每个从节点分配资源信息给Worker管理,资源信息包含内存Memory和CPU Cores核心数

3.历史服务器HistoryServer(可选):

Spark Application运行完成后,保存事件日志数据至HDFS,启动HistoryServer可以查看应用运行相关信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693320.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能风控体系之逻辑回归

逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。在信贷风控领域最常用的广义线性模型就是逻辑回归。其实逻辑回归线性可分…

说一下JVM类加载机制?

Java中的所有类,都需要由类加载器装载到JVM中才能运行。类加载器本身也是一个类,而它的工作就是把class文件从硬盘读取到内存中。 在写程序的时候,我们几乎不需要关心类的加载,因为这些都是隐式装载的,除非我们有特殊…

pc微信逆向最新3.9.8.25版本

朋友让我开发一个关于微信的计数、统计、自动回复功能的机器人,主要是用在win10上面。 先看看结果! 之前写过手机端的逆向,PC端逆向很长时间没写了,所以就在网上找了找。基本都是基于3.6,3.7,3.8版本的&a…

虹科方案 | 释放总线潜力:汽车总线离线模拟解决方案

来源:虹科汽车智能互联 虹科方案 | 释放总线潜力:汽车总线离线模拟解决方案 原文链接:https://mp.weixin.qq.com/s/KGv2ZOuQMLIXlOiivvY6aQ 欢迎关注虹科,为您提供最新资讯! #汽车总线 #ECU #汽车网关 导读 传统的…

长短期记忆神经网络

目录 LSTM 神经网络架构 分类 LSTM 网络 回归 LSTM 网络 视频分类网络 更深的 LSTM 网络 网络层 分类、预测和预报 序列填充、截断和拆分 按长度对序列排序 填充序列 截断序列 拆分序列 指定填充方向 归一化序列数据 无法放入内存的数据 可视化 LSTM 层架构 …

Find My资讯|苹果Vision Pro无法通过Find My进行远程定位和发声

苹果 Vision Pro 头显现在已经正式开售,不过根据该公司日前发布的支持文件,这款头显目前缺乏一系列关键查找功能,用户无法在 iCloud 网站或Find My应用中获悉头显的位置,也无法让这款头显远程播放声音。 不过支持文件同时提到 V…

【机器学习】数据清洗之处理重复点

🎈个人主页:豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进…

C++(18)——适配器概念以及stack、queue、优先队列的模拟实现

上篇文章中,给出了对于模拟实现中功能的补全,本篇文章将优先介绍一个新的容器之后引入什么是适配器,以及适配器的使用方法,再通过适配器的思想来完成对于,、优先级队列_的实现。 目录 1. deque: 1.1 什么是deque&…

Android studio 安装以及第一个程序

一、配置 1、下载JDK(JDK:Java Development Kit Java开发工具包) 打开Java Downloads | Oracle下载地址下载相应的JDK版本即可,需要注意的是请下载JDK11以上的版本,并且是64位版 2、安装JDK 双击打开已经下载好的安装…

Query Rewrite —— 基于大模型的query扩展改写,PRF+ GRF协同发力减少LLM的幻觉问题(论文)

通过GRF和PRF,可以有效提升召回率,和top的数据质量。两者可以相互互补,发挥更好的作用。 论文:Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval 什么是PRF ? Pseudo-relevan…

python在flask中的请求数据“无限流”

文章目录 一、问题描述二、解决方案 一、问题描述 在flask请求中,有个需求是让调用方一直调接口,并立马返回,而接口方缓存请求,依次执行。 二、解决方案 from flask import Flask, request, jsonify from queue import Queue i…

新年伊始,VR全景释放“强信号”,可以结合哪些行业?

一年之计在于春,各行各业都想抢占在经济的第一线,那么如何抓住新一轮科技革命和产业变革新机遇呢?VR全景释放了“强信号”。对于大部分实体行业来说,都会有VR全景的制作需求,租房买房的,可能都见识过线上VR…

【JGit】分支管理实践

本文紧接【JGit】简述及学习资料整理。 以下梳理了使用 JGit 进行 Git 操作的实践 JGit实践 主函数 public static void main(String[] args) throws Exception {String localDir "D:\\tmp\\git-test\\";String gitUrl "http://192.168.181.1:3000/root/g…

如何邀请媒体参加活动报道?媒体邀约的几大步骤?

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 邀请媒体参加活动报道通常需要发送邀请函、提供详细活动信息,并通过电话或邮件进行跟进确认。 在邀请媒体之前,应该制定一个详细的媒体规划表,包括拟…

高级统计方法 第2次作业

概念 1. (a) 光滑度高的好,样本足够多光滑度越高就越能表征真实情况,也能对预测变量更好的预测。 (b) 光滑度低的好,因为可能“过拟合”,一些误差大的数可能会较大的影响到预测…

Code-Audit(代码审计)习题记录

介绍: 自己懒得搭建靶场了,靶场地址是 GitHub - CHYbeta/Code-Audit-Challenges: Code-Audit-Challenges为了方便在公网练习,可以随地访问,本文所有的题目均来源于网站HSCSEC-Code Audit 1、习题一 题目内容如下: 1…

FX110网:easyMarkets易信被评为2023最佳外汇经纪商

easyMarkets 易信目前正在庆祝其进入行业第 23 周年,很高兴地宣布其在 2023 年 TradingView 经纪商奖中被授予“最佳外汇经纪商”称号,这是其第 51 次荣获殊荣奖项。 “我们的共同使命是为交易者提供最好的交易环境和交易工具。 得益于我们全球社区的广泛…

手把手将 VSCode 快捷键修改为 Eclipse 的快捷键

1.在 vscode 上方搜索栏输入 >keyboard 2. 选择图中红框的内容 3.将Eclipse的常用快捷键复制进去 { "key": "ctrld", "command": "-editor.action.addSelectionToNextFindMatch", "when": "editorFocus" }, {…

微信小程序video 点击自动全屏播放

//因为这个地址可能是图片也可能是视频 点击 图片可以预览&#xff0c;点击视频可放大全屏自动播放。 代码如下 <view v-else :class{contentImg: x.picture.length0} style"margin-top: 10px;"v-for"(x1, y1) in x.picture" :key"y"><…

说一下 JVM 运行时数据区 ?

目录 一、程序计数器&#xff08;Program Counter Register&#xff09; 二、Java 虚拟机栈&#xff08;Java Virtual Machine Stacks&#xff09; 三、本地方法栈&#xff08;Native Method Stack&#xff09; 四、Java 堆&#xff08;Java Heap&#xff09; 五、方法区&…