关于 mahout factorize-movielens-1M.sh 执行

mahout 0.9  hadoop 1.2.1 新手上路 请多指教;

 需要运行 /examples/bin/factorize-movielens-1M.sh 即 ALS 推荐算法,数据集从movielens官网上下载 根据脚本文件,首先需要 将ratings.csv文件 放置在hdfs 文件系统中(/tmp/mahout-work-{$USER}),不然mahout 会找不到输入路径,这点在脚本文件里看不到,如果放在本地文件系统中,该脚本始终运行不成功;

接下来 按照脚本文件 顺序执行, 但是 速度之慢 令人发指(由于之前在 spark scala执行过 同样的算法);

第1步是 分割数据集为 训练集和测试集 ,比较快;

第2步是 运行 分布式的ALS算法,根据脚本文件总共iteration 10 次,总共耗时28分钟(19:00 ~19:28),输出结果在指定的hdfs  路径中

第3步是 根据 测试集 计算 RMSE值,本次实验值为1.9233056087885207

第4步是 计算推荐结果 ,总耗时 (Minutes: 33.89475)  结果分别存储在 /tmp/mahout-work-crystal/recommendations/part-m-00000  part-m-00001  part-m-00002 文件中。部分推荐结果展示如下。1    [21594:5.0,176346:5.0,27082:5.0,76134:5.0,21262:5.0,126310:5.0]
2    [11111:5.0,151858:5.0,187261:5.0,154758:5.0,132710:5.0,193670:5.0]
3    [150162:5.0,125323:5.0,78600:5.0,189325:5.0,138854:5.0,106806:5.0]
4    [214252:5.0,182906:5.0,134862:5.0,57552:5.0,57610:5.0,17673:5.0]
5    [69574:5.0,22014:5.0,22302:5.0,115892:5.0,117109:5.0,201437:5.0]
6    [216281:5.0,18095:5.0,99810:5.0,201194:5.0,118216:5.0,202405:5.0]
7    [82039:5.0,69574:5.0,77150:5.0,216493:5.0,85303:5.0,26756:5.0]
8    [9091:5.0,63326:5.0,49299:5.0,97888:5.0,81740:5.0,214349:5.0]
9    [14640:5.0,33901:5.0,118654:5.0,80297:5.0,16061:5.0,113005:5.0]
10    [36730:5.0,167973:5.0,17908:5.0,163526:5.0,192192:5.0,25297:5.0]
11    [111334:5.0,120355:5.0,48520:5.0,80740:5.0,191782:5.0,182794:5.0]
12    [41426:5.0,103975:5.0,146438:5.0,78255:5.0,4508:5.0,134427:5.0]
14    [163822:5.0,79466:5.0,17673:5.0,56068:5.0,90542:5.0,4094:5.0]
13    [13334:5.0,49540:5.0,128646:5.0,207650:5.0,10598:5.0,108255:5.0]
15    [167273:5.0,85015:5.0,192817:5.0,9597:5.0,103171:5.0,2415:5.0]
16    [35302:5.0,112253:5.0,9091:5.0,76807:5.0,14310:5.0,49299:5.0]
17    [134862:5.0,63532:5.0,176943:5.0,163526:5.0,135958:5.0,216717:5.0]
18    [144686:5.0,18330:5.0,33758:5.0,70359:5.0,60828:5.0,64721:5.0]
20    [191265:5.0,80756:5.0,149302:5.0,169835:5.0,48754:5.0,76186:5.0]
19    [103522:5.0,173735:5.0,63396:5.0,20917:5.0,70894:5.0,179231:5.0]

输出 结果 路径 展示:

转载于:https://www.cnblogs.com/superzhu/p/hadoop_mahout.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/459325.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mycncart操作使用教程 - 商品分类

2019独角兽企业重金招聘Python工程师标准>>> 分类的管理,后台管理路径为:【商品目录】->【商品分类】新增或编辑分类时:1. 如果选择了【顶部菜单显示】,则在网站前台使用默认模板时顶部菜单中会显示它;2…

bat循环执行带参数_C++:main处理命令行选项/main函数的参数

main函数参数通常,定义main函数形参列表都是空的,遇到有参数的main函数到不知道怎么理解了。给main函数传递实参,常见的情况是传递命令参数。int main(int argc, char *argv[]){......}第二个形参argv是一个数组,它的元素是指向C风…

面试题:找出公司员工最喜欢的k种水果

1、问题 本公司现在要给公司员工发波福利,在员工工作时间会提供大量的水果供员工补充营养。由于水果种类比较多,但是却又不知道 哪种水果比较受欢迎,然后公司就让每个员工报告了自己最爱吃的k种水果,并且告知已经将所有员工喜欢吃…

样品GA的良好理解

遗传算法演示样本手册模拟 为了更好地理解遗传算法的计算过程,法的各 个主要运行步骤。 例:求下述二元函数的最大值: (1) 个体编码 遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种 …

Linux日志文件总管——logrotate

日志文件包含了关于系统中发生的事件的有用信息,在排障过程中或者系统性能分析时经常被用到。对于忙碌的服务器,日志文件大小会增长极快,服务器会很快消耗磁盘空间,这成了个问题。除此之外,处理一个单个的庞大日志文件…

cad常用字体包_水利设计CAD基础篇(一)

一、快速入门1. 制作属于自己的样板,不用再设置图形界限、单位、图层等相关属性。一个属于自己的样板包括:单位精度,常用图框A3、A2、A1等,常用图层,注释样式(标注、文字、表格和引线),线型、常见符号块等。…

数据结构:排序算法之交换排序(冒泡排序、快速排序)

1、冒泡 void bubbleSort(int a[], int n){for(int i 0 ; i< n-1; i) {for(int j 0; j < n-i-1; j) {if(a[j] > a[j1]){int tmp a[j] ; a[j] a[j1] ; a[j1] tmp;}}} }/*1&#xff0e;设置一标志性变量pos,用于记录每趟排序中最后一次进行交换的位置。由于pos位置…

实验3 --俄罗斯方块 with 20135335郝爽

一、 实验内容 &#xff08;一&#xff09;敏捷开发与XP 内容&#xff1a;1.敏捷开发&#xff08;Agile Development&#xff09;是一种以人为核心、迭代、循序渐进的开发方法。 2.极限编程(eXtreme Programming&#xff0c;XP)是一种全新而快捷的软件开发方法。 要点&#x…

2015年总结2016展望

2015感觉过的很快&#xff0c;非常充实。一直在忙着不是写这就是写那。反正是没有闲过。 家庭更和睦&#xff0c;孩子也大了一岁&#xff0c;活泼可爱&#xff0c;父母身体也还可以&#xff0c;经济增长和2014差不多。 15年最大的事就是项目T算是成功运转了&#xff0c;14年废了…

birt插件 web_Maven方式集成BIRT 4.6 Webviewer

平生从未见过如此糟糕的官方maven发布质量&#xff0c;窃以为是公司只想卖商业版本&#xff0c;对应的开源版本BIRT简直就是抱来养的。为了顺利集成BIRT&#xff0c;采用两步走方式&#xff1a;以eclipse的能运行版本为比较基础&#xff0c;再使用maven方式集成验证。传统动态w…

八大排序算法:插入(2:插入、希尔)、选择(2:选择、堆)、交换(2:冒泡、快速)、归并、基数

八大排序算法 发表于2012/7/23 16:45:18 662397人阅读 分类&#xff1a; c/c 数据结构与算法 概述 排序有内部排序和外部排序&#xff0c;内部排序是数据记录在内存中进行排序&#xff0c;而外部排序是因排序的数据很大&#xff0c;一次不能容纳全部的排序记录&#xff0c;在排…

Active Record 数据库迁移总结

占位符!转载于:https://www.cnblogs.com/mahong-shaojiu-ruby/p/5098150.html

cm0中断优先级_转:第13章 FreeRTOS任务优先级修改及其分配方案

FreeRTOS的配置&#xff1a;FreeRTOSConfig.h文件中的配置如下&#xff1a;/* Ensure stdint is only used by the compiler, and not the assembler. */#if defined(__ICCARM__) || defined(__CC_ARM) || defined(__GNUC__)#include extern volatile uint32_t ulHighFrequency…

网页图表Highcharts实践教程之标签组与载入动画

网页图表Highcharts实践教程之标签组与载入动画 Highcharts标签组 在图表的大部分元素都提供了标签功能。但很多时候&#xff0c;我们需要额外说明一些信息。这个时候借助原有的图表元素的标签功能就不是很方便。Highcharts为用户提供了标签组功能。使用该功能可以在图表区的任…

有趣的C语言面试题

1、gets() 和 fgets()函数 问题&#xff1a;找出下面代码的问题 #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff)); gets(buff); printf("\n The buffer entered is [%s]\n",buff); return 0; }答&#xff1a;上面代码里的…

Android 4.4 Kitkat Phone工作流程浅析(八)__Phone状态分析

本文来自http://blog.csdn.net/yihongyuelan 转载请务必注明出处本文代码以MTK平台Android 4.4为分析对象。与Google原生AOSP有些许差异。请读者知悉。前置文章&#xff1a; 《Android 4.4 Kitkat Phone工作流程浅析(一)__概要和学习计划》《Android 4.4 Kitkat Phone工作流程浅…

米家对讲机_对前面两代产品不断总结和完善的产物,米家对讲机2代开箱体验...

4月1日&#xff0c;小米终于发布了旗下对讲机产品的2代&#xff1a;米家对讲机2。憋了两年后&#xff0c;可见米家对讲机团队针对前期米家对讲机一代以及1S很多用户反应的问题还是非常重视的&#xff0c;所以这次的米家对讲机2代基本上改进了前期存在的不足&#xff0c;补齐了前…

【MFC】vs2013_MFC使用文件之15.mfc 按钮CBitmapButton的使用

本文是基于对话框的 博文基于 无幻 的博文为基础写的 http://blog.csdn.net/akof1314/article/details/4951836 笔者使用mfc撑死2个星期&#xff0c;不过这是有c基础的前提下接触mfc&#xff0c;昨天看到了网上对qt creator的评论&#xff0c;感觉好高大上&#xff0c;回去试了…

C语言存储空间布局以及static解析

本文我将采用Linux环境测试C语言存储空间布局&#xff0c;以及采用VC6.0来测试static的常见用法。采用linux环境来测试c语言存储空间布局&#xff0c;是因为Linux很容易利用shell命令中的size命令查看到进程存储区各段的大小。采用VC6.0来测试static的常见用法&#xff0c;是因…

老李推荐:第6章6节《MonkeyRunner源码剖析》Monkey原理分析-事件源-事件源概览-命令队列...

老李推荐&#xff1a;第6章6节《MonkeyRunner源码剖析》Monkey原理分析-事件源-事件源概览-命令队列事件源在获得字串命令并把它翻译成对应的MonkeyEvent事件后&#xff0c;会把这些事件排队放入一个由事件源维护的队列&#xff0c;然后其他地方如Monkey类的runMonkeyCycles方法…