通过命令行界面使用AWS ElasticMapReduce

在本文中,我将通过针对EMR的CLI使用AWS MapReduce服务(称为ElasticMapReduce )。

使用EMR的过程可以大致分为三个步骤:

  • 设置并填充S3存储桶
  • 创建并运行EMR作业
  • 从S3存储桶中获取结果

在开始这三个高级步骤之前,还需要安排一些其他事项:

  • 您将需要拥有一个AWS账户
  • 您将需要在计算机上安装S3客户端
  • 您将需要在计算机上安装EMR CLI

好吧,对于AWS账户,我只是假设它存在,否则就该让自己一个了

作为S3客户端,我使用s3cmd ,我在这里描述了安装。

要安装EMR CLI(在运行Lion的MacBook上),请按照此处介绍的步骤进行操作。 如说明所述,CLI可与Ruby 1.8.7版一起使用。 而不是更高版本。 由于我的MacOS默认情况下带有Ruby 1.9.3,因此确实不起作用。 但是,没有恐慌,只是得到最新版本的CLI的这里从GitHub的(我更喜欢在降级标准的Ruby安装)。

安装EMR后,需要对其进行配置。 第一步是在EMR CLI目录的根目录中创建一个'credentials.json'文件。 我的凭据.json的内容:

{
"access_id": "XXXXXXXXXXXXXXX",
"private_key": "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX",
"keypair": "4synergy_palma",
"key-pair-file": "/Users/pascal/4synergy_palma.pem",
"log_uri": "S3://map-reduce-intro/log",
"region": "eu-west-1"
}

安装CLI后,我们可以开始实际工作。 我只坚持《 EMR开发人员指南》中的示例。

1.设置并填充S3存储桶

打开终端窗口。

从命令行创建S3存储桶:

s3cmd mb s3://map-reduce-intro

创建一个要与测试作业一起使用的输入文件:

nano input.txt

并在其中添加一些文本:

接下来,将此文件上传到存储桶中新文件夹中的存储桶中:

s3cmd put input.txt s3://map-reduce-intro/input/

接下来,创建一个映射器函数(Python脚本)并将其上传到S3存储桶:

nano wordsplitter.py

并从开发人员指南中放入示例脚本:

将该文件也上传到S3存储桶中,如下所示:

s3cmd put wordsplitter.py s3://map-reduce-intro/job/

如开发人员指南中所述,由于我们使用的是Hadoop的默认约简功能“聚合”,因此我们仅提供了映射脚本。

现在输入已准备就绪,我们可以创建作业并执行它。

2.创建并运行EMR作业

为此,我们从EMR CLI安装的根目录执行以下命令:

./elastic-mapreduce --create --stream --mapper s3://map-reduce-intro/job/wordsplitter.py --input s3://map-reduce-intro/input --output s3://map-reduce-intro/results --reducer aggregate

终端中的输出将只是一个作业ID,例如:

Created job flow j-2MO24NGGNMC5N

从S3存储桶中获取结果

如果我们移至S3存储桶并列出“结果”文件夹,则会看到以下内容(请注意,启动,执行和终止集群可能需要几分钟的时间):

MacBook-Air-van-Pascal:~ pascal$ s3cmd ls s3://map-reduce-intro/results/
2013-05-06 20:03 0 s3://map-reduce-intro/results/_SUCCESS
2013-05-06 20:03 27 s3://map-reduce-intro/results/part-00000
MacBook-Air-van-Pascal:~ pascal$

_SUCCESS文件只是告诉我们这项工作进展顺利。 文件“ part-00000”包含我们执行的“聚合”操作的输出。 要获得它,请执行以下操作:

s3cmd get s3://map-reduce-intro/results/part-00000

现在,如果我们查看预期的内容:

我知道这是一个非常基本的示例,关于EMR的确还有很多要展示的地方,但是至少这应该让您自己开始使用它。

需要记住的一件事是每小时收取费用,如果您仅使用群集几秒钟,则需要支付整个小时的费用。 一个小时的成本比群集的EC2成本高约0.015美分。

参考: The Pragmatic Integrator博客上的JCG合作伙伴 Pascal Alma 结合使用AWS ElasticMapReduce和命令行界面 。

翻译自: https://www.javacodegeeks.com/2013/05/using-aws-elasticmapreduce-with-the-command-line-interface.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/368720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sublime 快捷键

Ctrl / 注释代码 <!-- <a href"http://www.baidu.com" target"_blank">百度</a> --> Tab 自动补全 <html tab 补全 html的全部基本标签 <a tab 自动补全为<a href…></a> 还有, 比如你忘记加<…

[UE4]关卡蓝图

转载于:https://www.cnblogs.com/timy/p/9053876.html

android 自定义 theme,Android使用Theme自定义Activity进入退出动画的方法

本文实例讲述了Android使用Theme自定义Activity进入退出动画的方法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;有没有觉得Activity的默认动画太快了或者太难看了。。我原来使用Activity.overridePendingTransition来自定义Activity的进入动画&#xff0c;却发现没…

django 静态资源配置

最近在学习一个项目&#xff0c;django框架&#xff0c;但当 render 模板时&#xff0c;模板里有引入的图片就访问不到&#xff0c; 这是因为 django部署方式比较特别&#xff0c;采用静态文件路径:STATICFILES_DIRS的部署方式&#xff0c;之前你写的相对路径&#xff0c;绝对路…

MOXy的对象图– XML和JSON的输入/输出局部模型

假设您有一个要公开为RESTful服务的域模型。 问题是您只想输入/输出部分数据。 以前&#xff0c;您将创建一个代表子集的单独模型&#xff0c;然后使用代码在模型之间移动数据。 在EclipseLink 2.5.0中&#xff0c;我们有一个称为“对象图”的新功能&#xff0c;使您能够轻松地…

iframe的缺点

一、iframe会阻塞主页面的onload事件&#xff1b; 二、搜索引擎检索程序无法解读这种页面&#xff0c;不利于SEO&#xff1b; 三、会影响页面的并行加载。 并行加载&#xff1a;同一时间对同一域名下的加载数量是有限制的&#xff1a; 解决方法&#xff1a; 使用js动态给ifr…

使用可视化工具redisclient连接redis

可视化工具推荐&#xff1a;http://database.51cto.com/art/201505/477692.htm 1.连接redis服务端 1.1 设置连接密码&#xff1a;在redis根目录下&#xff0c;双击redis-cli.exe&#xff0c; 输入命令&#xff1a;redis-cli.exe -h 127.0.0.1 -p 6379 -n 1 1就是密码 1.2 使…

android 蓝牙项目代码,Android蓝牙聊天开源项目

前言基于Android Classic Bluetooth的蓝牙聊天软件&#xff0c;目前仅支持一对一实时通信、文件传输、好友添加、好友分组、好友在线状态更新等功能&#xff0c;其中消息发送支持文本、表情等方式。前景蓝牙技术作为一种小范围无线连接技术&#xff0c;能够在设备间实现方便快捷…

你必须知道的.NET之特性和属性(转)

你必须知道的.NET之特性和属性2008-10-13 来源&#xff1a;网络 1. 引言 attribute是.NET框架引入的有一技术亮点&#xff0c;因此我们有必要花点时间走进一个发现attribute登堂入室的入口。因为.NET Framework中使用了大量的定制特性来完成代码约定&#xff0c;[Serializable]…

宽带阻抗匹配的工程实现-第一步,端口驻波仿真

概要 ADS仿真&#xff0c;Matlab仿真&#xff0c;宽带阻抗匹配&#xff0c;smith圆图。 其实阻抗匹配我工作以来经常说&#xff0c;也经常做&#xff0c;但是基本上都是直接在印制板上进行调试。现在想先用仿真软件直接设计出来&#xff0c;才发现很多东西嘴上说容易&#xf…

Hamcrest Matchers,Guava谓词和Builder设计模式

通常&#xff0c;在编码时&#xff0c;我们必须处理其中包含数十个字段的一些POJO对象。 很多时候&#xff0c;我们通过一个带有数十个参数的构造函数来初始化这些类&#xff0c;这以任何可能的想象的方式都是可怕的。 除此之外&#xff0c;使用这些构造函数的函数几乎不可测试…

学web前端一定要这样学,不然学完找不到工作哭都来不及!

因为工作原因&#xff0c;经常关注有关互联网行业的最新动态。这不&#xff0c;刚送走了高考&#xff0c;又迎来了每年的毕业季&#xff0c;看到好多人都说今年的前端工作不好找&#xff0c;很多童鞋简历投了一大堆&#xff0c;也没有回应&#xff0c;发现连实习的机会都没有&a…

面向对象的数据存储方式

目前由于项目接入redies&#xff0c;数据可持久化&#xff0c;而以何种存储数据的格式又是一个问题&#xff0c;因为数据格式在 决定之后就应该成为规范&#xff0c;所以一个简单的好用的数据格式是优先考虑的&#xff0c;而从前端的角度&#xff0c;就是命名 空间&#xff0c;…

修改linux文件权限命令:chmod

Linux系统中的每个文件和目录都有访问许可权限&#xff0c;用它来确定谁可以通过何种方式对文件和目录进行访问和操作。  文件或目录的访问权限分为只读&#xff0c;只写和可执行三种。以文件为例&#xff0c;只读权限表示只允许读其内容&#xff0c;而禁止对其做任何的更改操…

android视频通信和web端,探讨用webrtc在手机和浏览器之间实现音视频实时通信的实施环境...

探讨用webrtc在手机和浏览器之间实现音视频实时通信的实施环境Walker.Xuproduct/develop flow&#xff1a;技术需求&#xff1a;任务拆解:1.android客户端2.前端js网页客户端技术产品&#xff1a;落地&#xff0c;实施在实际应用环境中1.技术因素2.非技术因素选择浏览器的标准&…

XStream – XStreamely使用Java中的XML数据的简便方法

有时候&#xff0c;我们不得不处理XML数据。 而且大多数时候&#xff0c;这不是我们一生中最快乐的一天。 甚至有一个术语“ XML地狱”描述了程序员必须处理许多难以理解的XML配置文件时的情况。 但是&#xff0c;不管喜欢与否&#xff0c;有时我们别无选择&#xff0c;这主要是…

jQuery 一些操作

1.监听输入框输入 $("#email").bind("input propertychange change", function (event) { console.log($("#email").val()) }); 2.获取输入框内容 $(" #test ").val()$(" input[ nametest ] ").val()$(" input[ typet…

@media兼容iphone4、5、6

在网页中&#xff0c;pixel与point比值称为device-pixel-ratio&#xff0c;普通设备都是1&#xff0c;iPhone 4是2&#xff0c;有些Android机型是1.5。 那么-webkit-min-device-pixel-ratio:2可以用来区分iphone(4/4s/5)和其它的手机 iPhone4/4s的分辨率为640*960 pixels&#…

前端微信小程序实战篇

电商底部导航栏的制作 我想大家对电商一定不陌生&#xff0c;一般电商的底部导航栏有以下几个首页、分类、购物车、个人中心。 app.json是用来配置page路径以及导航栏属性的&#xff0c;那我们要做首页、分类、购物车、个人中心界面就要在page也添加这几个界面&#xff0c;所…

Spring MVC –使用@ResponseBody轻松实现基于REST的JSON服务

Spring 3使JSON REST服务非常容易。 本教程将通过几个步骤向您展示如何进行。 您可以在GitHub上获取代码。 先决条件 您应该有一个运行中的Spring MVC应用程序。 如果尚未设置正常的Spring MVC应用程序&#xff0c;请按照本教程进行操作 。 我们将定义三个REST服务&#xff1a…