通过命令行界面使用AWS ElasticMapReduce

在本文中,我将通过针对EMR的CLI使用AWS MapReduce服务(称为ElasticMapReduce )。

使用EMR的过程可以大致分为三个步骤:

  • 设置并填充S3存储桶
  • 创建并运行EMR作业
  • 从S3存储桶中获取结果

在开始这三个高级步骤之前,还需要安排一些其他事项:

  • 您将需要拥有一个AWS账户
  • 您将需要在计算机上安装S3客户端
  • 您将需要在计算机上安装EMR CLI

好吧,对于AWS账户,我只是假设它存在,否则就该让自己一个了

作为S3客户端,我使用s3cmd ,我在这里描述了安装。

要安装EMR CLI(在运行Lion的MacBook上),请按照此处介绍的步骤进行操作。 如说明所述,CLI可与Ruby 1.8.7版一起使用。 而不是更高版本。 由于我的MacOS默认情况下带有Ruby 1.9.3,因此确实不起作用。 但是,没有恐慌,只是得到最新版本的CLI的这里从GitHub的(我更喜欢在降级标准的Ruby安装)。

安装EMR后,需要对其进行配置。 第一步是在EMR CLI目录的根目录中创建一个'credentials.json'文件。 我的凭据.json的内容:

{
"access_id": "XXXXXXXXXXXXXXX",
"private_key": "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX",
"keypair": "4synergy_palma",
"key-pair-file": "/Users/pascal/4synergy_palma.pem",
"log_uri": "S3://map-reduce-intro/log",
"region": "eu-west-1"
}

安装CLI后,我们可以开始实际工作。 我只坚持《 EMR开发人员指南》中的示例。

1.设置并填充S3存储桶

打开终端窗口。

从命令行创建S3存储桶:

s3cmd mb s3://map-reduce-intro

创建一个要与测试作业一起使用的输入文件:

nano input.txt

并在其中添加一些文本:

接下来,将此文件上传到存储桶中新文件夹中的存储桶中:

s3cmd put input.txt s3://map-reduce-intro/input/

接下来,创建一个映射器函数(Python脚本)并将其上传到S3存储桶:

nano wordsplitter.py

并从开发人员指南中放入示例脚本:

将该文件也上传到S3存储桶中,如下所示:

s3cmd put wordsplitter.py s3://map-reduce-intro/job/

如开发人员指南中所述,由于我们使用的是Hadoop的默认约简功能“聚合”,因此我们仅提供了映射脚本。

现在输入已准备就绪,我们可以创建作业并执行它。

2.创建并运行EMR作业

为此,我们从EMR CLI安装的根目录执行以下命令:

./elastic-mapreduce --create --stream --mapper s3://map-reduce-intro/job/wordsplitter.py --input s3://map-reduce-intro/input --output s3://map-reduce-intro/results --reducer aggregate

终端中的输出将只是一个作业ID,例如:

Created job flow j-2MO24NGGNMC5N

从S3存储桶中获取结果

如果我们移至S3存储桶并列出“结果”文件夹,则会看到以下内容(请注意,启动,执行和终止集群可能需要几分钟的时间):

MacBook-Air-van-Pascal:~ pascal$ s3cmd ls s3://map-reduce-intro/results/
2013-05-06 20:03 0 s3://map-reduce-intro/results/_SUCCESS
2013-05-06 20:03 27 s3://map-reduce-intro/results/part-00000
MacBook-Air-van-Pascal:~ pascal$

_SUCCESS文件只是告诉我们这项工作进展顺利。 文件“ part-00000”包含我们执行的“聚合”操作的输出。 要获得它,请执行以下操作:

s3cmd get s3://map-reduce-intro/results/part-00000

现在,如果我们查看预期的内容:

我知道这是一个非常基本的示例,关于EMR的确还有很多要展示的地方,但是至少这应该让您自己开始使用它。

需要记住的一件事是每小时收取费用,如果您仅使用群集几秒钟,则需要支付整个小时的费用。 一个小时的成本比群集的EC2成本高约0.015美分。

参考: The Pragmatic Integrator博客上的JCG合作伙伴 Pascal Alma 结合使用AWS ElasticMapReduce和命令行界面 。

翻译自: https://www.javacodegeeks.com/2013/05/using-aws-elasticmapreduce-with-the-command-line-interface.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/368720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[UE4]关卡蓝图

转载于:https://www.cnblogs.com/timy/p/9053876.html

iframe的缺点

一、iframe会阻塞主页面的onload事件; 二、搜索引擎检索程序无法解读这种页面,不利于SEO; 三、会影响页面的并行加载。 并行加载:同一时间对同一域名下的加载数量是有限制的: 解决方法: 使用js动态给ifr…

使用可视化工具redisclient连接redis

可视化工具推荐:http://database.51cto.com/art/201505/477692.htm 1.连接redis服务端 1.1 设置连接密码:在redis根目录下,双击redis-cli.exe, 输入命令:redis-cli.exe -h 127.0.0.1 -p 6379 -n 1 1就是密码 1.2 使…

android 蓝牙项目代码,Android蓝牙聊天开源项目

前言基于Android Classic Bluetooth的蓝牙聊天软件,目前仅支持一对一实时通信、文件传输、好友添加、好友分组、好友在线状态更新等功能,其中消息发送支持文本、表情等方式。前景蓝牙技术作为一种小范围无线连接技术,能够在设备间实现方便快捷…

你必须知道的.NET之特性和属性(转)

你必须知道的.NET之特性和属性2008-10-13 来源:网络 1. 引言 attribute是.NET框架引入的有一技术亮点,因此我们有必要花点时间走进一个发现attribute登堂入室的入口。因为.NET Framework中使用了大量的定制特性来完成代码约定,[Serializable]…

宽带阻抗匹配的工程实现-第一步,端口驻波仿真

概要 ADS仿真,Matlab仿真,宽带阻抗匹配,smith圆图。 其实阻抗匹配我工作以来经常说,也经常做,但是基本上都是直接在印制板上进行调试。现在想先用仿真软件直接设计出来,才发现很多东西嘴上说容易&#xf…

学web前端一定要这样学,不然学完找不到工作哭都来不及!

因为工作原因,经常关注有关互联网行业的最新动态。这不,刚送走了高考,又迎来了每年的毕业季,看到好多人都说今年的前端工作不好找,很多童鞋简历投了一大堆,也没有回应,发现连实习的机会都没有&a…

android视频通信和web端,探讨用webrtc在手机和浏览器之间实现音视频实时通信的实施环境...

探讨用webrtc在手机和浏览器之间实现音视频实时通信的实施环境Walker.Xuproduct/develop flow:技术需求:任务拆解:1.android客户端2.前端js网页客户端技术产品:落地,实施在实际应用环境中1.技术因素2.非技术因素选择浏览器的标准&…

XStream – XStreamely使用Java中的XML数据的简便方法

有时候,我们不得不处理XML数据。 而且大多数时候,这不是我们一生中最快乐的一天。 甚至有一个术语“ XML地狱”描述了程序员必须处理许多难以理解的XML配置文件时的情况。 但是,不管喜欢与否,有时我们别无选择,这主要是…

前端微信小程序实战篇

电商底部导航栏的制作 我想大家对电商一定不陌生,一般电商的底部导航栏有以下几个首页、分类、购物车、个人中心。 app.json是用来配置page路径以及导航栏属性的,那我们要做首页、分类、购物车、个人中心界面就要在page也添加这几个界面,所…

Spring MVC –使用@ResponseBody轻松实现基于REST的JSON服务

Spring 3使JSON REST服务非常容易。 本教程将通过几个步骤向您展示如何进行。 您可以在GitHub上获取代码。 先决条件 您应该有一个运行中的Spring MVC应用程序。 如果尚未设置正常的Spring MVC应用程序,请按照本教程进行操作 。 我们将定义三个REST服务&#xff1a…

(转)zabbix3.4使用percona-monitoring-plugins监控mysql

原文:https://blog.csdn.net/yanggd1987/article/details/79656771 简介 之前主要使用nagios监控mysql,本文主要介绍使用percona-monitoring-plugins监控mysql,percona监控插件是php开发,因此要在agent安装php环境。 配置安装 一.…

html基础-html简介-第一个网页(1)

今天刚刚开通博客园,把我最近整理的html/css来说一下,对于初学者还是有一定的帮助。 一、先来为大家简单普及以下html (1)、html英文即:hypertext markup language 中译 : 超文本标记语言 (2&…

javafx android sdk,JavaFX打包到Android上

让JavaFX运行到移动平台一直是社区努力完成的事。当然,目前已经可以让JavaFX运行到Android和IOS平台了,下面我们来看看如何打包自己的JavaFX项目到Android平台。这个示例是我从打包官方示例的例子里修改而来,用于打包一个简单的JavaFX程序。示…

在zookeeper集群的基础上,搭建伪solrCloud集群

伪集群的搭建:将solrCloud搭建到同一台机器上。 准备工作 1 将在window中部署的单机版solr上传到服务器(虚拟机)中 solr的简单部署:在tomcat中启动slor 的内容 这一次放到 mkdir /usr/local/solr-cloud 文件夹内并解压 2 复制4份…

css类选择器类名覆盖优先级

code <style>.a{background: red;}.b{background: yellow;} </style> <div class"a b">A</div> 渲染效果 最初以为更改元素中class类里面的类名顺序&#xff0c;渲染效果就会根据类名顺序依次渲染code <style>.a{background: red;…

CMD命令锦集

虽然随着计算机产业的发展&#xff0c;Windows 操作系统的应用越来越广泛&#xff0c;DOS 面临着被淘汰的命运&#xff0c;但是因为它运行安全、稳定&#xff0c;有的用户还在使用&#xff0c;所以一般Windows 的各种版本都与其兼容&#xff0c;用户可以在Windows 系统下运行DO…

Bootstrap学习笔记01

1、Make Images Mobile Responsive 用处&#xff1a; 使图片适配你的页面宽度。 操作&#xff1a; 给图片添加 .img-responsive class属性。 <img src"/images/cat.jpg" class"img-responsive"> 2、Center Text with Bootstrap 用处&#xff…

2017-2018-2 20179216 《网络攻防与实践》 SQL注入攻击

1. SQL语言 结构化查询语言(Structured Query Language)简称SQL&#xff1a;是一种特殊目的的编程语言&#xff0c;是一种数据库查询和程序设计语言&#xff0c;用于存取数据以及查询、更新和管理关系数据库系统&#xff1b;同时也是数据库脚本文件的扩展名。 2. SQL注入 SQL注…

华为智能手表与鸿蒙,不再是大号手环!华为鸿蒙手表来了:要和苹果抢生态?...

5 月 27 日上午&#xff0c;华为终端官方微博官宣&#xff0c;WATCH 3 腕上智慧&#xff0c;一表万象&#xff0c;旗舰归来&#xff0c;将于 6 月 2 日晚 20:00 与 HarmonyOS、MatePad Pro 2 等产品一同发布。依靠手环的超高销量&#xff0c;华为、小米等企业发力&#xff0c;在…