Spark 大数据处理最佳实践

开源大数据社区 & 阿里云 EMR 系列直播 第十一期

主题:Spark 大数据处理最佳实践

讲师:简锋,阿里云 EMR 数据开发平台 负责人

内容框架:

  • 大数据概览
  • 如何摆脱技术小白
  • Spark SQL 学习框架
  • EMR Studio 上的大数据最佳实践

直播回放:进入链接https://developer.aliyun.com/live/247072

一、大数据概览

  • 大数据处理 ETL (Data  → Data)
  • 大数据分析 BI   (Data  →  Dashboard)
  • 机器学习    AI   (Data  →  Model)

image.png

二、如何摆脱技术小白

什么是技术小白?

  • 只懂表面,不懂本质

比如:只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优       Spark Job

摆脱技术小白的药方

  • 懂得运行机制
  • 学会配置
  • 学会看 Log

懂得运行机制:Spark SQL Architecture

image.png

学会配置:如何配置 Spark App

  • 配置 Driver

 • spark.driver.memory

 • spark.driver.cores

  • 配置 Executor

 • spark.executor.memory

 • spark.executor.cores

  • 配置 Runtime

 • spark.files

 • spark.jars

  • 配置 DAE
  • …..........

 

 参考网址:https://spark.apache.org/docs/latest/configuration.html

学会看 Log:Spark Log

image.png

三、Spark SQL  学习框架

Spark SQL 学习框架( 结合图形/几何)

1. Select Rows

image.png

image.png

2. Select Columns

image.png

image.png

3. Transform Column

image.png

image.png

4. Group By / Aggregation

image.png

image.png

5. Join

image.png

image.png

Spark SQL 执行计划

1. Spark SQL - Where

image.png

2. Spark SQL - Group By

image.png

3. Spark SQL - Order by

image.png

四、EMR Studio 实践

EMR Studio 特性:

  • 兼容开源组件
  • 支持连接多个集群
  • 适配多个计算引擎
  • 交互式开发 + 作业调度无缝衔接
  • 适用多种大数据应用场景
  • 计算存储分离

1. 兼容开源组件

  • EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

image.png

2. 支持连接多个集群

  • 一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。

image.png

3. 适配多个计算引擎

  • 自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎,无需复杂配置,多个计算引擎间协同工作

image.png

4. 交互式开发 + 作业调度无缝衔接

Notebook + Airflow : 无缝衔接开发环节和生产调度环节

  • 利用交互式开发模式可以快速验证作业的正确性.
  • 在 Airflow 里调度 Notebook 作业,最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。

image.png

5. 适用多种大数据应用场景

  • 大数据处理 ETL
  • 交互式数据分析
  • 机器学习
  • 实时计算

6. 计算存储分离

  • 所有数据都保存在 OSS 上,包括:

     • 用户 Notebook 代码

     • 调度作业 Log

  • 即使集群销毁,也可以重建集群轻松恢复数据

image.png

EMR Studio  Demo 演示:

参考文档:https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512898.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CNCF TOC 委员张磊:不断演进的云原生给我们带来了什么?

简介: 任何一种云原生技术,它不再是某种能力的弥补,而是更多地将云的能力以某种方式更简单、更高效地透出给我的应用去使用。无论是容器、K8s 还是 Service Mesh,他们都是在不同的环节帮助应用本身能够更好地去使用云服务。 作者…

php url传递参数_互联网系统(APP、网站等)通信基石——会话(PHP版)

一、会话概述1.1、技术背景互联网通信中采用的Http协议(建立TCP连接->Http请求->Http应答->断开TCP连接)本身是无状态的,即Http各请求之间是相互独立、互不相关的,而大量应用需要将各请求关联起来(如:用户登录系统购物、多次购买行为…

十年探索,云上明灯,re:Invent再启掀产业风暴

15年前,IT基础设施有着太多的限制,成本高、反应慢、灵活度低,对于企业的创新与发展有着很大的伤害。当亚马逊推出全球第一个云计算服务简单存储 Amazon S3时,可能没有太多人相信,这些内容将会开启一个新世界的大门&…

用手机「3D探店」是种什么体验?

简介: 未来场景尽在眼前!阿里云3D全景网站通过云端算法技术自动建模,将线下场景1:1真实还原到线上,让用户足不出户就可以感受到真实的3D空间漫游效果。 在手机里用3D探店打卡是种什么样的体验? 走进商场,每…

mysql bin oct_python 讲解进制转换 int、bin、oct、hex

相关免费学习推荐:python视频教程原理十进制转n进制都可以使用倒除法:对十进制进行除n的运算,直到商为0为止,然后将各个步骤中得到的余数倒着写出来.n进制转十进制:(例子:二进制转十进制)101001 > 2^5 …

java设置字体大小和颜色_Java 设置Excel图表背景填充(颜色、图片填充)

本文介绍通过Java程序来设置Excel图表背景填充的方法,填充时,可设置颜色填充或者加载图片填充;填充区域可设置整个图表区域或者绘图区域。设置方法参考以下内容。使用工具:Free Spire.XLS for Java(免费版)…

英特尔TCI技术落地,锐捷网络发布OCS终端云化新品

编辑 | 宋慧 出品 | CSDN 云计算 2021 年 6 月,国内一直深耕桌面虚拟化的厂商锐捷正式发布了新一代云桌面解决方案——锐捷三擎云桌面解决方案( “精耕细作”桌面云市场的锐捷,重磅发布三擎云桌面 ),其中三擎指的是终端…

从理念到实践跳跃式演进! 云的原生“免疫系统”如何有机作战?

简介: 7月16日,以“原生安全二倍速:全面融入基础设施”为主题的阿里云原生安全线上专题活动收官,诠释由云而生的能力如何解决数字经济时代的安全新挑战,让高等级安全作为一种基础设施,成为数字业务发展的“…

安卓开发替换json字符串中的数据_22个JavaScript开发技巧合集

作者:kancloud转发链接:https://www.kancloud.cn/dennis/tgjavascript/241855开发技巧1、使用var声明变量如果给一个没有声明的变量赋值,默认会作为一个全局变量(即使在函数内赋值)。要尽量避免不必要的全局变量。2、行尾使用分号虽然JavaScr…

Python静态类型解析工具简介和实践

简介: Python是一门强类型的动态类型语言,开发者可以给对象动态指定类型,但类型不匹配的操作是不被允许的。动态类型帮助开发者写代码轻松愉快,然而,俗话说:动态一时爽,重构火葬场。动态类型也带…

拥抱创新二十载,微软“创新杯”持续孵化中国青年开发者智慧创意

12月13日,2022 第二十届微软“创新杯”全球学生大赛(以下简称“创新杯”)中国区总决赛结果正式揭晓。来自西安的 Silent Talk 团队凭借Silent Talk—— Speech Rehabilitation Training 项目,在 22 支决赛队伍中脱颖而出&#xff…

AI和大数据结合,智能运维平台助力流利说提升核心竞争力

简介: 简介:本文整理自数智创新行——智能运维专场(上海站),流利说最佳实践演讲:《基于SLS千万级在线教育平台统一监控运营实践》 作者: 孙文杰 流利说运维总监 元乙 阿里云智能技术专家 优质…

核桃编程:前端可观测性建设之路

简介: 随着核桃编程业务的快速增长,核心应用的系统规模和系统复杂度也在经历翻天覆地的变化。核桃技术团队不断通过新兴的技术手段维护整套系统架构的技术先进性。在3 年时间里,技术团队至少对整体系统架构进行了 6 次以上的重大重构&#xf…

少拿游戏来骗我,虚幻引擎5上的《黑客帝国》全新体验,画面帅到爆

整理 | 禾木木 出品 | CSDN云计算(ID:CSDNcloud) 近日,由 Epic Games 发行的虚幻引擎 5 体验上线了。 以华纳兄弟公司电影《黑客帝国》为背景,由拉娜 沃卓斯基担任编剧和导演,基努 里维斯和凯瑞 - 安 莫…

python变量使用前必须先声明、并且一旦声明_初学者学习Python的30天‍-第18天-文件处理...

前文最近不是出了一个30天的Python教程,有很多人私信我说没有资料怎么跟着学习,现在他来了https://www.bilibili.com/read/cv9383238今天,我探讨了如何使用Python处理文件并与文件进行通信。这些天来,我一直在探索和分享各种Pytho…

金融数据智能峰会 | 数据规模爆炸性增长,企业如何进行精准决策?云原生数据仓库数据化运营实战分享

简介: 在日前的2021阿里云金融数据智能峰会——《云原生驱动数智化运营的“增长黑马”》专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数据仓库如何支撑数据化运营、全链路营销和阿里集团双11业务&#xf…

redistemplate.opsforvalue 设置不过期_民法典即将实施!“离婚冷静期”倍受关注

还有不到一个月,“离婚冷静期”就要落地了。2021年1月1日起,《中华人民共和国民法典》(以下简称“《民法典》”)将正式施行。作为与老百姓日常生活关系最为紧密的一部法律,《民法典》的制定和施行备受关注,其中尤以“离婚冷静期”…

到底是无线最难?还是核心网最难?

作者 | 小枣君来源 | 鲜枣课堂今天这篇文章,我们来探讨一个通信行业的长期争议话题——到底是无线最难?还是核心网最难?众所周知,通信行业虽然对外统称“通信”,但实际上,内部却分为三个细分板块&#xff0…

谈谈C++新标准带来的属性(Attribute)

简介: 从C11开始,标准引入了一个新概念“属性(attribute)”,本文将简单介绍一下目前在C标准中已经添加的各个属性以及常用属性的具体应用。 作者 | 寒冬 来源 | 阿里技术公众号 从C11开始,标准引入了一个新概念“属性(attribute)…

mmap函数_分析由 mmap 导致的内存泄漏

背景一个程序链接 TCMalloc ,同时调用 mmap / munmap 管理一部分较大的内存通过 TCMalloc 的统计信息,判断内存泄漏不是由 new / malloc 等常规接口导致的因此怀疑是 mmap 导致的内存泄漏hookhook mmap / munmap 记录下每一次调用,可以分析出…