关于 mahout factorize-movielens-1M.sh 执行

mahout 0.9  hadoop 1.2.1 新手上路 请多指教;

 需要运行 /examples/bin/factorize-movielens-1M.sh 即 ALS 推荐算法,数据集从movielens官网上下载 根据脚本文件,首先需要 将ratings.csv文件 放置在hdfs 文件系统中(/tmp/mahout-work-{$USER}),不然mahout 会找不到输入路径,这点在脚本文件里看不到,如果放在本地文件系统中,该脚本始终运行不成功;

接下来 按照脚本文件 顺序执行, 但是 速度之慢 令人发指(由于之前在 spark scala执行过 同样的算法);

第1步是 分割数据集为 训练集和测试集 ,比较快;

第2步是 运行 分布式的ALS算法,根据脚本文件总共iteration 10 次,总共耗时28分钟(19:00 ~19:28),输出结果在指定的hdfs  路径中

第3步是 根据 测试集 计算 RMSE值,本次实验值为1.9233056087885207

第4步是 计算推荐结果 ,总耗时 (Minutes: 33.89475)  结果分别存储在 /tmp/mahout-work-crystal/recommendations/part-m-00000  part-m-00001  part-m-00002 文件中。部分推荐结果展示如下。1    [21594:5.0,176346:5.0,27082:5.0,76134:5.0,21262:5.0,126310:5.0]
2    [11111:5.0,151858:5.0,187261:5.0,154758:5.0,132710:5.0,193670:5.0]
3    [150162:5.0,125323:5.0,78600:5.0,189325:5.0,138854:5.0,106806:5.0]
4    [214252:5.0,182906:5.0,134862:5.0,57552:5.0,57610:5.0,17673:5.0]
5    [69574:5.0,22014:5.0,22302:5.0,115892:5.0,117109:5.0,201437:5.0]
6    [216281:5.0,18095:5.0,99810:5.0,201194:5.0,118216:5.0,202405:5.0]
7    [82039:5.0,69574:5.0,77150:5.0,216493:5.0,85303:5.0,26756:5.0]
8    [9091:5.0,63326:5.0,49299:5.0,97888:5.0,81740:5.0,214349:5.0]
9    [14640:5.0,33901:5.0,118654:5.0,80297:5.0,16061:5.0,113005:5.0]
10    [36730:5.0,167973:5.0,17908:5.0,163526:5.0,192192:5.0,25297:5.0]
11    [111334:5.0,120355:5.0,48520:5.0,80740:5.0,191782:5.0,182794:5.0]
12    [41426:5.0,103975:5.0,146438:5.0,78255:5.0,4508:5.0,134427:5.0]
14    [163822:5.0,79466:5.0,17673:5.0,56068:5.0,90542:5.0,4094:5.0]
13    [13334:5.0,49540:5.0,128646:5.0,207650:5.0,10598:5.0,108255:5.0]
15    [167273:5.0,85015:5.0,192817:5.0,9597:5.0,103171:5.0,2415:5.0]
16    [35302:5.0,112253:5.0,9091:5.0,76807:5.0,14310:5.0,49299:5.0]
17    [134862:5.0,63532:5.0,176943:5.0,163526:5.0,135958:5.0,216717:5.0]
18    [144686:5.0,18330:5.0,33758:5.0,70359:5.0,60828:5.0,64721:5.0]
20    [191265:5.0,80756:5.0,149302:5.0,169835:5.0,48754:5.0,76186:5.0]
19    [103522:5.0,173735:5.0,63396:5.0,20917:5.0,70894:5.0,179231:5.0]

输出 结果 路径 展示:

转载于:https://www.cnblogs.com/superzhu/p/hadoop_mahout.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/459325.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mycncart操作使用教程 - 商品分类

2019独角兽企业重金招聘Python工程师标准>>> 分类的管理,后台管理路径为:【商品目录】->【商品分类】新增或编辑分类时:1. 如果选择了【顶部菜单显示】,则在网站前台使用默认模板时顶部菜单中会显示它;2…

bat循环执行带参数_C++:main处理命令行选项/main函数的参数

main函数参数通常,定义main函数形参列表都是空的,遇到有参数的main函数到不知道怎么理解了。给main函数传递实参,常见的情况是传递命令参数。int main(int argc, char *argv[]){......}第二个形参argv是一个数组,它的元素是指向C风…

样品GA的良好理解

遗传算法演示样本手册模拟 为了更好地理解遗传算法的计算过程,法的各 个主要运行步骤。 例:求下述二元函数的最大值: (1) 个体编码 遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种 …

Linux日志文件总管——logrotate

日志文件包含了关于系统中发生的事件的有用信息,在排障过程中或者系统性能分析时经常被用到。对于忙碌的服务器,日志文件大小会增长极快,服务器会很快消耗磁盘空间,这成了个问题。除此之外,处理一个单个的庞大日志文件…

cad常用字体包_水利设计CAD基础篇(一)

一、快速入门1. 制作属于自己的样板,不用再设置图形界限、单位、图层等相关属性。一个属于自己的样板包括:单位精度,常用图框A3、A2、A1等,常用图层,注释样式(标注、文字、表格和引线),线型、常见符号块等。…

实验3 --俄罗斯方块 with 20135335郝爽

一、 实验内容 (一)敏捷开发与XP 内容:1.敏捷开发(Agile Development)是一种以人为核心、迭代、循序渐进的开发方法。 2.极限编程(eXtreme Programming,XP)是一种全新而快捷的软件开发方法。 要点&#x…

八大排序算法:插入(2:插入、希尔)、选择(2:选择、堆)、交换(2:冒泡、快速)、归并、基数

八大排序算法 发表于2012/7/23 16:45:18 662397人阅读 分类: c/c 数据结构与算法 概述 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排…

网页图表Highcharts实践教程之标签组与载入动画

网页图表Highcharts实践教程之标签组与载入动画 Highcharts标签组 在图表的大部分元素都提供了标签功能。但很多时候,我们需要额外说明一些信息。这个时候借助原有的图表元素的标签功能就不是很方便。Highcharts为用户提供了标签组功能。使用该功能可以在图表区的任…

有趣的C语言面试题

1、gets() 和 fgets()函数 问题&#xff1a;找出下面代码的问题 #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff)); gets(buff); printf("\n The buffer entered is [%s]\n",buff); return 0; }答&#xff1a;上面代码里的…

Android 4.4 Kitkat Phone工作流程浅析(八)__Phone状态分析

本文来自http://blog.csdn.net/yihongyuelan 转载请务必注明出处本文代码以MTK平台Android 4.4为分析对象。与Google原生AOSP有些许差异。请读者知悉。前置文章&#xff1a; 《Android 4.4 Kitkat Phone工作流程浅析(一)__概要和学习计划》《Android 4.4 Kitkat Phone工作流程浅…

米家对讲机_对前面两代产品不断总结和完善的产物,米家对讲机2代开箱体验...

4月1日&#xff0c;小米终于发布了旗下对讲机产品的2代&#xff1a;米家对讲机2。憋了两年后&#xff0c;可见米家对讲机团队针对前期米家对讲机一代以及1S很多用户反应的问题还是非常重视的&#xff0c;所以这次的米家对讲机2代基本上改进了前期存在的不足&#xff0c;补齐了前…

【MFC】vs2013_MFC使用文件之15.mfc 按钮CBitmapButton的使用

本文是基于对话框的 博文基于 无幻 的博文为基础写的 http://blog.csdn.net/akof1314/article/details/4951836 笔者使用mfc撑死2个星期&#xff0c;不过这是有c基础的前提下接触mfc&#xff0c;昨天看到了网上对qt creator的评论&#xff0c;感觉好高大上&#xff0c;回去试了…

C语言存储空间布局以及static解析

本文我将采用Linux环境测试C语言存储空间布局&#xff0c;以及采用VC6.0来测试static的常见用法。采用linux环境来测试c语言存储空间布局&#xff0c;是因为Linux很容易利用shell命令中的size命令查看到进程存储区各段的大小。采用VC6.0来测试static的常见用法&#xff0c;是因…

老李推荐:第6章6节《MonkeyRunner源码剖析》Monkey原理分析-事件源-事件源概览-命令队列...

老李推荐&#xff1a;第6章6节《MonkeyRunner源码剖析》Monkey原理分析-事件源-事件源概览-命令队列事件源在获得字串命令并把它翻译成对应的MonkeyEvent事件后&#xff0c;会把这些事件排队放入一个由事件源维护的队列&#xff0c;然后其他地方如Monkey类的runMonkeyCycles方法…

华为手机怎么设置应用不全屏显示_手机投屏智能电视画面比例不合适怎么办?...

手机投屏到电视的比例不对怎么办知乎上有网友私下&#xff1a;“苹果手机屏幕镜像投屏到电视上&#xff0c;画面不能全屏&#xff0c;然后在网上查了一下是因为显示比例的问题&#xff0c;请问怎么解决&#xff1f;”这个问题说简单也简单&#xff0c;说难也难。说简单是因为想…

手把手教你使用CocoaPods管理你的iOS第三方开源类库

手把手教你使用CocoaPods管理你的iOS第三方开源类库 本文转载自&#xff1a;http://kittenyang.com/cocoapods 鉴于我开这个博客的初衷是记录自己平时的技术积累&#xff0c;而我平时又属研究iOS最多&#xff0c;因此这个博客在一定程度上可以说是以iOS技术为主的博客。既然研究…

alt复制选区就会卡 ps_PS入门视频教程笔记整理(二)工具栏介绍一

这几期会慢慢的更&#xff0c;工具栏的相关介绍还有一些简单有趣的应用~1、移动工具和画板工具 (1)移动工具选择相应的图层进行拖拽移动的操作■自动选择&#xff1a;不勾选的话——只有一个图层被选中(移动当前所选择的图层里的内容)勾选的话——无论你点击哪一个地方进行拖拽…

测试Markdown

一级标题 二级标题 四级标题 这是高阶标题&#xff08;和一级标题效果一样&#xff09; 这是次阶标题&#xff08;等同二阶标题&#xff09; 无序列表 *1 *2 *3 无序列表 -1 -2 -3 有序列表 1.你大爷 2.你大伯 3.你叔 4、你哥 这是一个引用 第二个引用 第三个…

MyBatis collection的两种形式——MyBatis学习笔记之九

与association一样&#xff0c;collection元素也有两种形式&#xff0c;现介绍如下&#xff1a; 一、嵌套的resultMap 实际上以前的示例使用的就是这种方法&#xff0c;今天介绍它的另一种写法。还是以教师映射为例&#xff0c;修改映射文件TeacherMapper.xml如下&#xff08;点…

int linux 原子操作_linux c++编程之多线程:原子操作如何解决线程冲突

在多线程中操作全局变量一般都会引起线程冲突&#xff0c;为了解决线程冲突&#xff0c;引入原子操作。1.线程冲突#include #include #include #include int g_count 0;void count(void *p){Sleep(100); //do some work//每个线程把g_count加1共10次for (int i 0; i < …