容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

(二):Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例

1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 “spark-oss”, 点击 “参数”

图片描述

  1. 给你的应用一个名字, e.g. spark-oss-online2
  2. (必选)填写你的oss_access_key_id和oss_access_key_secret
Worker:# set OSS access keyID and secretoss_access_key_id: <Your sub-account>oss_access_key_secret: <your key_secret of sub-account>

3.(可选)修改工作节点数目 Worker.Replicas: 3

图片描述

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例

图片描述

6 点击 服务, 查看外部端点, 点击URL访问Spark集群
图片描述

图片描述

7 测试Spark集群

1.打开一个spark-shell

kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs --  /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077

粘贴下列代码,使用Spark测试OSS的读写性

// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss
kubectl get svc| grep oss
myspark-oss-master   ClusterIP      172.19.9.111    <none>          7077/TCP         2m
myspark-oss-webui    LoadBalancer   172.19.13.1     120.55.104.27   8080:30477/TCP   2m

原文链接

干货好文,请关注扫描以下二维码:
图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522038.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三步走——带你打造一份完美的数据科学家简历|(附件有PPT福利)

摘要&#xff1a; 本文介绍了关于写数据科学家简历的一些技巧&#xff0c;主要包含三个部分&#xff0c;分别为简历前的材料准备&#xff0c;写简历时应注意的地方以及对整个简历的整理。不管你是不是数据科学领域的工作者&#xff0c;本文对于即将求职或找实习的同学而言是一份…

你的目的是什么是谁指使你_电视剧《谁说我结不了婚》第25-27集剧情:魏书帮程璐搞定投资人...

电视剧《谁说我结不了婚》第25-27集剧情介绍电视剧《谁说我结不了婚》第25-27集剧情介绍电视剧《谁说我结不了婚》第25集剧情介绍&#xff1a;程璐向魏书请教感情困扰 田蕾帮徐海峰彻底打垮凯文程璐来找魏书诉苦&#xff0c;小哈最近不但躲着她&#xff0c;还撒谎骗她不在上海&…

纪·阿晶的首次AWS之行!

戳蓝字“CSDN云计算”关注我们哦&#xff01;这是阿晶的第一次AWS之行&#xff0c;在上海&#xff0c;2019世界人工智能大会。一年前&#xff0c;同样在上海&#xff0c;AWS成立其亚太地区首个人工智能研究院。还记得当时振奋人心的官宣&#xff1a;AWS上海人工智能研究院将重点…

阿里云与WPS深度合作,开放数据处理生态

摘要&#xff1a; 在3月28日举行的2018云栖大会-深圳峰会上&#xff0c;阿里云与金山办公达成深度合作&#xff0c;WPS在线预览与格式转换能力落地阿里云。标志着阿里云存储开放的数据湖体系不但面向计算引擎&#xff0c;还面向应用开放。 在3月28日举行的2018云栖大会-深圳峰会…

interp1函数matlab_【原创】干货:用MATLAB搭建电化学单粒子模型(中)

上一期讲到Eq.1中所需要求解的参数&#xff0c;我们已经获取了3个&#xff0c;需要注意的是&#xff0c;上期所获得的电化学反应过电势已经转化成时间的函数&#xff0c;接下来只需要求正负极的固相电势随时间的变化就可以了。Eq.1 固相电势与材料的soc或体相锂离子浓度…

官宣!CSDN“2019 优秀 AI、IoT 应用案例 TOP 30+”重磅发布!

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 王金许、伍杏玲责编 | 屠敏出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;「Talk is cheap. Show me the case.」在 AI、IoT 技术当道的时代下&#xff0c;空泛的概念炒作永远说服不了抱有质疑的消费者。如今随…

用html设计一个logo页面_如何设计一个Logo?——Bobu Africa旅行品牌Logo设计

负空间Logo听起来很牛逼&#xff0c;但是到底要怎么做&#xff1f;Bobu Africa是一家位于肯尼亚&#xff0c;主营泛非洲奢侈旅行与工艺品销售的品牌。Africa当然指的是其主要业务范围——非洲。Bobu则是猴面包树Baobabu的一种本地化称谓。树形Logo通常的设计方式大概是写实剪影…

云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据

摘要&#xff1a; 使用过开源HBase的人都知道&#xff0c;运维HBase是多么复杂的事情&#xff0c;集群大的时候&#xff0c;读写压力大&#xff0c;配置稍微不合理一点&#xff0c;就可能会出现集群状态不一致的情况&#xff0c;糟糕一点的直接导致入库、查询某个业务表不可用,…

来来来!一次搞定各种数据库 SQL 执行计划:MySQL、Oracle

执行计划&#xff08;execution plan&#xff0c;也叫查询计划或者解释计划&#xff09;是数据库执行 SQL 语句的具体步骤&#xff0c;例如通过索引还是全表扫描访问表中的数据&#xff0c;连接查询的实现方式和连接的顺序等。如果 SQL 语句性能不够理想&#xff0c;我们首先应…

linux 升级mysql版本 lamp_Linux 下安装 LAmp及配置

第一步&#xff1a;配置防火墙(默认情况下&#xff0c;端口80和3306是拒绝访问的&#xff0c;在防火墙上进行配置)&#xff1a;vi /etc/sysconfig/iptables(在"COMMIT"的上一行加上如下两句)-A INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT(允许8…

阿里云Redis混合存储典型场景:如何轻松搭建视频直播间系统

摘要&#xff1a; 本文主要介绍视频直播间系统&#xff0c;以及如何使用阿里云Redis混合存储实例方便快捷的构建大数据量&#xff0c;低延迟的视频直播间服务。 背景 视频直播间作为直播系统对外的表现形式&#xff0c;在整个系统中处于核心地位。通常除了视频直播窗口外&#…

mysql遇见Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggre的问题

报错如下&#xff1a; Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated column ‘sss.month_id’ which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_modeonly_full_group_by问题出现…

融合非负矩阵分解和图全变分的歌曲推荐算法

摘要&#xff1a; Kirell Benzi, Vassilis Kalofolias, Xavier Bresson and Pierre Vandergheynst Signal Processing Laboratory 2 (LTS2), Swiss Federal Institute of Technology (EPFL) Kirell Benzi, Vassilis Kalofolias, Xavier Bresson and Pierre Vandergheynst Sign…

Facebook面向所有用户开放人脸识别功能;福布斯美国最具创新力领袖公布;AMD:将发新BIOS 优化三代锐龙加速性能……...

戳蓝字“CSDN云计算”关注我们哦&#xff01;嗨&#xff0c;大家好&#xff0c;重磅君带来的【云重磅】特别栏目&#xff0c;如期而至&#xff0c;每周五第一时间为大家带来重磅新闻。把握技术风向标&#xff0c;了解行业应用与实践&#xff0c;就交给我重磅君吧&#xff01;重…

Python数据挖掘与机器学习技术入门实战

摘要&#xff1a; 什么是数据挖掘&#xff1f;什么是机器学习&#xff1f;又如何进行Python数据预处理&#xff1f;本文将带领大家一同了解数据挖掘和机器学习技术&#xff0c;通过淘宝商品案例进行数据预处理实战&#xff0c;通过鸢尾花案例介绍各种分类算法。 课程主讲简介&a…

45K!拿下 AI 技术岗,这些知识点全考了!

是的 &#xff0c;你没猜错&#xff01;就是人工智能&#xff01;AI的炽手可热程度和重要性无需多提。最近&#xff0c;笔者在网上发现了一个报告&#xff0c;报告名字&#xff1a;《BAT人工智能领域人才发展报告》&#xff0c;发现BT招聘AI的速度提升了近400%&#xff0c;其中…

考察数据科学家支持向量机(SVM)知识的25道题,快来测测吧

摘要&#xff1a; 本套自测题专为SVM及其应用而设计&#xff0c;目前超过550人注册了这个测试&#xff0c;最终得满分的人却很少&#xff0c;[doge],一起来看看你的SVM知识能得多少分吧&#xff0c;顺便还能查漏补缺哦。Introduction机器学习强大如一座军械库&#xff0c;里面有…

找第一个只出现一次的字符_leetcode哈希表之第一个只出现一次的字符

序本文主要记录一下leetcode哈希表之第一个只出现一次的字符题目在字符串 s 中找出第一个只出现一次的字符。如果没有&#xff0c;返回一个单空格。 s 只包含小写字母。示例:s "abaccdeff"返回 "b"s "" 返回 " "限制&#xff1a;0 &…

linux查看pid 对应的程序_资深程序员总结:分析 Linux 进程的 6 个方法,我全都告诉你...

(给Linux爱好者加星标&#xff0c;提升Linux技能)作者&#xff1a;LemonCoder(本文来自作者投稿)操作系统「进程」是学计算机都要接触的基本概念&#xff0c;抛开那些纯理论的操作系统底层实现&#xff0c;在Linux下做软件开发这么多年&#xff0c;每次程序运行出现问题&#x…

无人值守时代,运维如何保障发布质量?

摘要&#xff1a; 阿里巴巴千亿交易背后&#xff0c;如何尽量避免发布故障&#xff1f;在面对实际运维过程中遇到的问题该如何解决&#xff1f;阿里巴巴运维技术专家少荃&#xff0c;给我们带来了解决方案和思路。 导读&#xff1a;阿里巴巴千亿交易背后&#xff0c;如何尽量避…