在AWS Elastic MapReduce上运行PageRank Hadoop作业

aws-emr 在上一篇文章中,我描述了执行PageRank计算的示例,该示例是使用Apache Hadoop进行Mining Massive Dataset课程的一部分。 在那篇文章中,我接受了Java中现有的Hadoop作业,并做了一些修改(添加了单元测试,并通过参数设置了文件路径)。 这篇文章展示了如何在现实的Hadoop集群上使用此作业。 该集群是一个由1个主节点和5个核心节点组成的AWS EMR集群 ,每个集群均由m3.xlarge实例支持。

第一步是为集群准备输入。 我使用AWS S3是因为这是使用EMR时的便捷方式。 我创建了一个新存储桶'emr-pagerank-demo',并制作了以下子文件夹:

  • in:包含作业输入文件的文件夹
  • job:包含我的可执行Hadoop jar文件的文件夹
  • 日志:EMR将放置其日志文件的文件夹

然后,在“ in”文件夹中,我复制了要排名的数据。 我用这个文件作为输入。 解压缩后,它变成了一个具有XML内容的5 GB文件,尽管不是很大,但对于此演示来说已经足够。 当您使用前一篇文章的源代码并运行“ mvn clean install”时,您将获得jar文件:“ hadoop-wiki-pageranking-0.2-SNAPSHOT.jar”。 我将此jar文件上传到“作业”文件夹。

就是为了准备。 现在我们可以启动集群了。 在此演示中,我使用了AWS管理控制台 :

    • 命名集群
    • 输入日志文件夹作为日志位置

emr-page1

    • 输入核心实例数

emr-page2

    • 为我们的自定义罐添加一个步骤

emr-page3

    • 像这样配置步骤:

emr-page3步骤

    • 这将导致以下概述:

emr-page3b

如果正确,则可以按“创建集群”按钮,并使EMR进行工作。 您可以在控制台的“监视”部分监视集群:

监控

并在“步骤”部分中监视步骤的状态:

脚步

几分钟后,作业将完成(当然取决于输入文件的大小和使用的群集)。 在我们的S3存储桶中,我们可以看到在'log'文件夹中创建了日志文件:

日志目录

在这里,我们总共看到7个作业:1 x Xml准备步骤,5 x rankCalculator步骤和1 x rankOrdering步骤。

更重要的是,我们可以在“结果”文件夹中查看结果:

emr-result-dir

每个reducer都会创建自己的结果文件,因此我们在这里有多个文件。 我们对排名最高的网页感兴趣,因为其中的网页排名最高。 如果我们查看此文件,将看到以下结果排在前10位:

271.6686	Spaans
274.22974	Romeinse_Rijk
276.7207	1973
285.39502	Rondwormen
291.83002	Decapoda
319.89224	Brussel_(stad)
390.02606	2012
392.08563	Springspinnen
652.5087	2007
2241.2773	Boktorren

请注意,当前的实现只运行5次计算(硬编码),因此实际上并没有如MMDS理论中所描述的那样进行幂次迭代(对软件的下一版进行了很好的修改:-)。

另请注意,使用默认设置时,作业完成后群集不会终止,因此在手动终止群集之前,群集的成本会增加。

翻译自: https://www.javacodegeeks.com/2015/03/running-pagerank-hadoop-job-on-aws-elastic-mapreduce.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/360566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java sort 第二个参数_详解java Collections.sort的两种用法

Collections是一个工具类,sort是其中的静态方法,是用来对List类型进行排序的,它有两种参数形式:public static > void sort(List list) {list.sort(null);}public static void sort(List list, Comparator super T> c) {lis…

MVC3 中使用Unity实现依赖注入

前言:前段时间一直在研究依赖注入,不过不是在MVC框架中使用,今天突然想到在MVC中使用Unity实现依赖注入,一时慌了,不知道从何下手,接着就是网上不停的找资料,下面我把我找到的资料分享下&#x…

避免在ConcurrentHashMap.computeIfAbsent()中进行递归

有时我们会提供糟糕的建议。 就像该文章中有关如何将Java 8用于缓存的功能性方法来计算斐波那契数的文章一样 。 正如我们的读者之一马蒂亚斯(Matthias)在评论中注意到的那样 ,提出的算法可能永远不会停止。 考虑以下程序: publi…

java调用wvsc.exe_c语言 函数的调用方法

欢迎加入编程爱好者 QQ群 群号 57616770中都只有一个主函数main(),但实用程序往往由多个函数组成。函数是C源程序的基本模块,通过对函数模块的调在第一章中已经介绍过,C源程序是由函数组成的。虽然在前面各章的程序用实…

ms2005 SQL Server设置改为SQL Server身份验证

1.为 SQL Server 2005 Express Edition 或 SQL Server 2005 Developer Edition 启用远程连接 必须为要从远程计算机连接到的每个 SQL Server 2005 实例启用远程连接。为此,请按照下列步骤操作: 1.单击“开始”,依次指向“程序”、“Microsoft…

JPA和Hibernate级联类型的初学者指南

介绍 JPA将实体状态转换转换为数据库DML语句。 由于对实体图进行操作很常见,因此JPA允许我们将实体状态更改从父级传播到子级 。 通过CascadeType映射配置此行为。 JPA与Hibernate级联类型 Hibernate支持所有JPA级联类型和一些其他旧式级联样式。 下表绘制了JPA级…

EE JSP:使用JSTL标记库生成动态内容

除了在JSP中编写自己的定制标记之外,您还将发现Java EE实际上提供了一组Java标准标记库(JSTL)供您使用。 这些内置标签包括重复(for-loop)标签,条件标签,变量声明和输出标签等。库还带有许多实用…

Sublime text 2下alignment插件无效的解决办法

在sublime text 2中安装了alignment插件,但使用快捷键‘ctrlalta无效,经过各种方法依然无效,最后找到了这个“Doesnt work at all for me (full steps)”,方法就是用sb打开%sb 路径%\Data\Packages\Alignment目录下的alignment.py…

php入口函数,php 常用的系统函数

字符串函数strlen:获取字符串长度,字节长度substr:字符串截取,获取字符串(按照字节进行截取)strchr:与substr相似,从指定位置截取一直到最后strrchr(获取文件后缀名):与strchr一样,只…

startActivityForResult的使用和用法

startActivityForResult的使用和用法 startActivityForResult 和 onActivityResult在activity间传递数据AndroidManifest.xml<applicationandroid:icon"drawable/ic_launcher"android:label"string/app_name" ><activityandroid:name".KakuL…

如何使用Java泛型映射不同的值类型

有时&#xff0c;一般的开发人员会遇到这样的情况&#xff0c;即他必须在特定容器内映射任意类型的值。 但是&#xff0c;Java集合API仅提供与容器相关的参数化。 例如&#xff0c;这将HashMap的类型安全使用限制为单个值类型。 但是&#xff0c;如果您想混合苹果和梨怎么办&am…

php用正则去掉一些固定字符,用PHP正则表达式清除字符串的空白

我们经常会处理来自用户输入或从数据库中读取的数据&#xff0c;可能在你的字符串中有多余的空白或制表符&#xff0c;回车等。存储这些额外的字符是有点浪费空间的。如果您想要去掉字符串开始和结束的空白可以使用PHP内部函数trim() 。但是, 我们经常想完全清除空白。需要把开…

Windows上编译libpng

Windows上编译libpng 下载libpng 1.5.10并解压到[工作目录]/png/libpng-1.5.10 用CMake选择png/libpng-1.5.10目录并Configure&#xff1a; CMAKE_C_FLAGS_DEBUG/D_DEBUG /MTd /Zi /Ob0 /Od /RTC1 CMAKE_C_FLAGS_RELEASE/MT /O2 /Ob2 /D NDEBUG CMAKE_INSTALL_PREFIX[工作目录…

在Graphite中存储Hystrix的几个月历史指标

Hystrix的杀手级功能之一是低延迟&#xff0c;数据密集型且美观的仪表板 &#xff1a; 即使这只是Hystrix实际操作的副作用&#xff08;断路器&#xff0c;线程池&#xff0c;超时等&#xff09;&#xff0c;它也往往是最令人印象深刻的功能。 为了使其工作&#xff0c;您必须…

html和php文件怎么连接,html页面跟php文件连接的方法

html页面跟php文件连接的方法发布时间&#xff1a;2020-09-25 11:11:05来源&#xff1a;亿速云阅读&#xff1a;115作者&#xff1a;小新小编给大家分享一下html页面跟php文件连接的方法&#xff0c;相信大部分人都还不怎么了解&#xff0c;因此分享这篇文章给大家参考一下&…

java定义一个course类,求指教定义一个学生类 ,大学生小学生,定义一个选课接口...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼interface XC{abstract String CourseName();abstract String CourseID();}abstract class Student{protected String Name;protected String Ban;protected String Sex;public Student(){}public Student(String Name,String Ban,…

NYOJ-----最少乘法次数

最少乘法次数 时间限制&#xff1a;1000 ms | 内存限制&#xff1a;65535 KB难度&#xff1a;3描述给你一个非零整数&#xff0c;让你求这个数的n次方&#xff0c;每次相乘的结果可以在后面使用&#xff0c;求至少需要多少次乘。如24&#xff1a;2*222&#xff08;第一次乘&a…

在Java 7或更早版本中使用Java 8 Lambda表达式

我认为没有人会拒绝Java 8引入的Lambda表达式的有用性。但是&#xff0c;许多项目都停留在Java 7甚至旧版本上。 升级可能既耗时又昂贵。 如果第三方组件与Java 8不兼容&#xff0c;则可能根本无法升级。 除此之外&#xff0c;整个Android平台都停留在Java 6和7上。 尽管如此…

php获得昨天零时的时间戳,php 获取时间今天明天昨天时间戳

echo "今天:".date("Y-m-d")."";echo "昨天:".date("Y-m-d",strtotime("-1 day")), "";echo "明天:".date("Y-m-d",strtotime("1 day")). "";echo "一周…

Zend Debugger 配置

到官网 http://www.zend.com/en/products/studio/downloads 下载 windows 版 Studio Web Debugger打开下载得到的压缩包&#xff0c;里面有一些文件夹列表&#xff08;4_3_x_comp &#xff0c; 4_4_x_comp &#xff0c; 5_0_x_comp &#xff0c; 5_2_x_comp &#xff0c; 5_2_x…