基于Hbase的用户评分协同过滤推荐算法

基于Hbase的用户评分协同过滤推荐算法

作者: 张保维 2012-1-3

一、 概述

本文为推荐引擎设计的基础篇,介绍基于hbase 存储方式用户评分的方式进行推荐的主体算法及在分布式平台环境下的实现。由于推荐算法分支众多,我们先从简单及实用的算法进行设计。其它更加复杂算法及实现将会在后面的相关设计中进行说明。

二、 相关知识

(一) Hadoop与MapReduce

Hadoop在本文中所起到的作用只是一个系统支撑作用,由于hbase基于Hadoop的事实,所以,hadoop是本文功能实现的一个必要条件。MapReduce是一个用于分布运算的编程模型,同时也是运行本文中核心功能的载体。

关于 hadoop 及 MapReduce知识参见 附录。

(二) Hbase

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

同时Hbase对外提供了Thrift接口,可以在外部进行方便的访问。可以提供实时在线的访问功能。

由于Hbase 基于hadoop 产品族,所以Hbase具体天然的优势,可以直接利用MapReduce的优势。

基于如上原因,我们把用户评分存储于hbase , 在HBase中可以建立一个Row 为用户编号, Column为产品编号,值为用户评分的大表结构。同时,HBase为稀疏存储,也可以节省存储空间。

(三) 协同过滤

协同过滤是分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。

协同过滤是使用了集体智慧,不是传统意义上的人工干预的,受限于人的情感因素,商业因素的推荐方式。

三、 功能需求

四、 设计

五、 实验结果

六、 扩展功能

七、 参考

1. Hadoop : http://baike.baidu.com/view/908354.htm

2. MapReduce : http://zh.wikipedia.org/wiki/MapReduce

3. 奇艺升级推荐引擎提升转化率:http://www.sootoo.com/content/221739.shtml

4. HBASE:http://www.searchtb.com/2011/01/understanding-hbase.html

5. 协同过滤:http://baike.baidu.com/view/981360.htm

6.

转载于:https://www.cnblogs.com/zbw911/archive/2012/01/05/2313205.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/275075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最全 JavaScript Array 方法 详解

大家好,我是若川。最近组织了源码共读活动,感兴趣的可以点此加我微信 ruochuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。我们在日常开发中&#…

[译] React Hooks: 没有魔法,只是数组

[译] React Hooks: 没有魔法,只是数组 原文链接: medium.com/ryardley/r… 我是 React 新特性 Hooks 的粉丝。但是,在你使用 React Hooks的过程中,有一些看上去 很奇怪的限制 。在本文里,对于那些还在为了理解这些限制…

管理沟通中移情的应用_移情在设计中的重要性

管理沟通中移情的应用One of the most important aspects of any great design is the empathetic understanding of and connection to the user. If a design is ‘selfish’, as in when a product designed with the designer in mind and not the user, it will ultimatel…

网易前端进阶特训营,邀你免费入营!一举解决面试晋升难题!

网易等大厂的前端岗位一直紧缺,特别是资深级。最近一位小哥面进网易,定级P4(资深),总包60W,给大家带来真实面经要点分享。网易的要求有:1.对性能优化有较好理解,熟悉常用调试工具2.熟…

Feign的构建过程及自定义扩展功能

spring-cloud-openfeign-core-2.1.1.RELEASE.jar 中 HystrixFeign 的详细构建过程: EnableFeignClients -> FeignClientsRegistrar 扫描 Feign注解的类 -> FeignClientFactoryBean通过Targeter生产FeignClient -> Targeter通过Feign.Builder构建Feign ->…

angelica类似_亲爱的当归(Angelica)是第一个让我哭泣的VR体验

angelica类似It was a night just like any other night. I finished work for the day and closed my laptop. I had dinner and after an hour, I put on my Oculus Quest headset in order to begin my VR workout.就像其他任何夜晚一样, 这 是一个夜晚。 我完成…

面试官:请手写一个带取消功能的延迟函数,axios 取消功能的原理是什么

大家好,我是若川。最近组织了源码共读活动,感兴趣的可以点此加我微信 ruochuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。本文仓库 https://githu…

关于base64编码的原理及实现

我们的图片大部分都是可以转换成base64编码的data:image。 这个在将canvas保存为img的时候尤其有用。虽然除ie外,大部分现代浏览器都已经支持原生的基于base64的encode和decode,例如btoa和atob。(将canvas画布保存成img并强制改变…

Django web开发系列(五)模板

一 前言在上一节了解到视图函数处理后,会将结果渲染到创建的html页面,但html如何接收并显示视图函数返回的动态数据呢?最常用的做法就是使用模板(Template),本节将简单介绍一下模板的作用和用法。 可以这样简单的理解模板的概念&a…

facebook 面试_如何为您的Facebook产品设计面试做准备

facebook 面试重点 (Top highlight)Last month, I joined Facebook to work on Instagram DMs and as a way to pay it forward, I 上个月,我加入了Facebook,从事Instagram DM的工作,作为一种支付方式,我 offered to help anyone…

8年了,开始写点东西了

大家好,我是若川。最近组织了源码共读活动,感兴趣的可以点此加我微信 ruochuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。今天分享一位大佬的文章…

荒径 弗罗斯特_弗罗斯特庞克,颠覆性城市建设者

荒径 弗罗斯特Most gamers are familiar with Will Wright’s famous SimCity series. It created the city building genre and there have been many attempts over the years to ape it. But few developers have been bold enough to completely deconstruct the formula; …

2012年1月份第2周51Aspx源码发布详情

WP7手指画图应用源码 2012-01-14 [VS2010] 游戏介绍:Windows Phone 7手指画图应用 – FingerPaint,您通过此游戏可以随心画一些感兴趣的东西,陶冶情操。操作简单,页面简洁。适合新手学习参考。 WP7 Car Bloke(交通工具开销记录)源…

Gitee 如何自动部署博客 Pages?推荐用这个GitHub Actions!

大家好,我是若川。最近组织了源码共读活动,感兴趣的可以点此加我微信 ruochuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。前段时间我把自己的博客…

Java io流学习总结(三)

转载于:https://www.cnblogs.com/ll409546297/p/7197911.html java.io几种读写文件的方式 一、Java把这些不同来源和目标的数据都统一抽象为数据流。 Java语言的输入输出功能是十分强大而灵活的。 在Java类库中,IO部分的内容是很庞大的,因为它…

现在流行的画原型图工具_原型资源图:8种流行原型工具的综合指南

现在流行的画原型图工具Although tools are not the most important things to learn as a UX designer, inevitably you need to use it in order to achieve your more important goals, to solve user’s problems. This article covers today’s 8 popular UX prototyping …

持续5个月,200+笔记,3千多人参与,邀请你来学源码~

注意:本文点击文末阅读原文可查看文中所有链接。我正在参加掘金年度人气作者投票活动,大家有空可以加微信群帮忙投票,感谢大家!想起今天还没发文,就开放下微信群二维码,大家扫码进群读源码和帮忙投票吧。群…

自己动手开发调试器 01

背景: 在做XXX编译器检证时经常需要区分是代码端错误,还是编译器端错误,因此对代码进行调试是必不可少的。但是狗日的甲方并没有提供对应的调试器XXXDB,而用GDB调试XXX生成的可执行程序很不稳定,经常出现异常,干脆…

02如何抓住重点,系统高效地学习数据结构与算法?

以下内容总结自极客时间王争大佬的《数据结构与算法之美》课程,本文章仅供个人学习总结。 什么是数据结构?什么是算法? 从广义上讲,数据结构就是指一组数据的存储结构。算法就是操作数据的一组方法。 类比图书馆的书籍,我们如果想找一本书可…

第2年,倒数第3天,1.5万票,感动!

1源码共读大家好,我是若川。众所周知。从8月份开始,我组织了源码共读活动,至今已经有5个月了,每周一期,进行到了第18期。每周坚持写源码解读文章,每天坚持答疑解惑,帮助了很多人学会看源码&…