大数据:互联网大规模数据挖掘与分布式处理

《大数据:互联网大规模数据挖掘与分布式处理》
基本信息
原书名:Mining of Massive Datasets
作者: (美)拉贾拉曼(Rajaraman,A.) (美)厄尔曼(Ullman,J.D.) [作译者介绍]
译者: 王斌
丛书名: 图灵程序设计丛书
出版社:人民邮电出版社
ISBN:9787115291318
上架时间:2012-9-23
出版日期:2012 年9月
开本:16开
页码:1
版次:1-1
所属分类: 计算机
内容简介

更多关于 》》》《大数据:互联网大规模数据挖掘与分布式处理
书籍
计算机书籍
  《大数据:互联网大规模数据挖掘与分布式处理》由斯坦福大学的“web 挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。
  《大数据:互联网大规模数据挖掘与分布式处理》适合本科生、研究生及对数据挖掘感兴趣的读者阅读。
目录
《大数据:互联网大规模数据挖掘与分布式处理》
第1章  数据挖掘基本概念  1
1.1  数据挖掘的定义  1
1.1.1  统计建模  1
1.1.2  机器学习  1
1.1.3  建模的计算方法  2
1.1.4  数据汇总  2
1.1.5  特征抽取  3
1.2  数据挖掘的统计限制  4
1.2.1  整体情报预警  4
1.2.2  邦弗朗尼原理  4
1.2.3  邦弗朗尼原理的一个例子  5
1.2.4  习题  6
1.3  相关知识  6
1.3.1  词语在文档中的重要性  6
1.3.2  哈希函数  7
1.3.3  索引  8
1.3.4  二级存储器  10
1.3.5  自然对数的底e  10
1.3.6  幂定律  11
1.3.7  习题  12
1.4  本书概要  13
1.5  小结  14
1.6  参考文献  14
第2章  大规模文件系统及map-reduce  16
2.1  分布式文件系统  16
2.1.1  计算节点的物理结构  17
2.1.2  大规模文件系统的结构  18
2.2  map-reduce  18
2.2.1  map任务  19
2.2.2  分组和聚合  20
2.2.3  reduce任务  20
2.2.4  组合器  21
2.2.5  map-reduce的执行细节  21
2.2.6  节点失效的处理  22
2.3  使用map-reduce的算法  22
2.3.1  基于map-reduce的矩阵—向量乘法实现  23
2.3.2  向量v无法放入内存时的处理  23
2.3.3  关系代数运算  24
2.3.4  基于map-reduce的选择运算  26
2.3.5  基于map-reduce的投影运算  26
2.3.6  基于map-reduce的并、交和差运算  27
2.3.7  基于map-reduce的自然连接运算  27
2.3.8  一般性的连接算法  28
2.3.9  基于map-reduce的分组和聚合运算  28
2.3.10  矩阵乘法  29
2.3.11  基于单步map-reduce的矩阵乘法  29
2.3.12  习题  30
2.4  map-reduce的扩展  31
2.4.1  工作流系统  31
2.4.2  map-reduce的递归扩展版本  32
2.4.3  pregel系统  34
2.4.4  习题  35
2.5  集群计算算法的效率问题  35
2.5.1  集群计算的通信开销模型  35
2.5.2  实耗通信开销  36
2.5.3  多路连接  37
2.5.4  习题  40
2.6  小结  40
2.7  参考文献  42
……
第6章  频繁项集  146
6.1  购物篮模型  146
6.1.1  频繁项集的定义  146
6.1.2  频繁项集的应用  148
6.1.3  关联规则  149
6.1.4  高可信度关联规则的发现  150
6.1.5  习题  151
6.2  购物篮及a-priori算法  152
6.2.1  购物篮数据的表示  152
6.2.2  项集计数中的内存使用  153
6.2.3  项集的单调性  154
6.2.4  二元组计数  155
6.2.5  a-priori算法  155
6.2.6  所有频繁项集上的a-priori算法  157
6.2.7  习题  158
6.3  更大数据集在内存中的处理  159
6.3.1  pcy算法  160
6.3.2  多阶段算法  161
6.3.3  多哈希算法  163
6.3.4  习题  164
6.4  有限扫描算法  166
6.4.1  简单的随机化算法  166
6.4.2  抽样算法中的错误规避  167
6.4.3  son算法  168
6.4.4  son算法和map-reduce  168
6.4.5  toivonen算法  169
6.4.6  toivonen算法的有效性分析  170
6.4.7  习题  170
6.5  流中的频繁项计数  171
6.5.1  流的抽样方法  171
6.5.2  衰减窗口中的频繁项集  172
6.5.3  混合方法  172
6.5.4  习题  173
6.6  小结  173
6.7  参考文献  175
第7章  聚类  176
7.1  聚类技术介绍  176
7.1.1  点、空间和距离  176
7.1.2  聚类策略  177
7.1.3  维数灾难  178
7.1.4  习题  179
7.2  层次聚类  179
7.2.1  欧氏空间下的层次聚类  180
7.2.2  层次聚类算法的效率  183
7.2.3  控制层次聚类的其他规则  183
7.2.4  非欧空间下的层次聚类  185
7.2.5  习题  186
7.3  k-均值算法  187
7.3.1  k-均值算法基本知识  187
7.3.2  k-均值算法的簇初始化  187
7.3.3  选择k的正确值  188
7.3.4  bfr算法  189
7.3.5  bfr算法中的数据处理  191
7.3.6  习题  192
7.4  cure算法  193
7.4.1  cure算法的初始化  194
7.4.2  cure算法的完成  195
7.4.3  习题  195
7.5  非欧空间下的聚类  196
7.5.1  grgpf算法中的簇表示  196
7.5.2  簇表示树的初始化  196
7.5.3  grgpf算法中的点加入  197
7.5.4  簇的分裂及合并  198
7.5.5  习题  199
7.6  流聚类及并行化  199
7.6.1  流计算模型  199
7.6.2  一个流聚类算法  200
7.6.3  桶的初始化  200
7.6.4  桶合并  200
7.6.5  查询应答  202
7.6.6  并行环境下的聚类  202
7.6.7  习题  203
7.7  小结  203
7.8  参考文献  205
第8章  web广告  207
8.1  在线广告相关问题  207
8.1.1  广告机会  207
8.1.2  直投广告  208
8.1.3  展示广告的相关问题  208
8.2  在线算法  209
8.2.1  在线和离线算法  209
8.2.2  贪心算法  210
8.2.3  竞争率  211
8.2.4  习题  211
8.3  广告匹配问题  212
8.3.1  匹配及完美匹配  212
8.3.2  最大匹配贪心算法  213
8.3.3  贪心匹配算法的竞争率  213
8.3.4  习题  214
8.4  adwords问题  214
8.4.1  搜索广告的历史  215
8.4.2  adwords问题的定义  215
8.4.3  adwords问题的贪心方法  216
8.4.4  balance算法  217
8.4.5  balance算法竞争率的一个下界  217
8.4.6  多投标者的balance算法  219
8.4.7  一般性的balance算法  220
8.4.8  adwords问题的最后论述  221
8.4.9  习题  221
8.5  adwords的实现  221
8.5.1  投标和搜索查询的匹配  222
8.5.2  更复杂的匹配问题  222
8.5.3  文档和投标之间的匹配算法  223
8.6  小结  224
8.7  参考文献  226
第9章  推荐系统  227
9.1  一个推荐系统的模型  227
9.1.1  效用矩阵  227
9.1.2  长尾现象  228
9.1.3  推荐系统的应用  230
9.1.4  效用矩阵的填充  230
9.2  基于内容的推荐  231
9.2.1  项模型  231
9.2.2  文档的特征发现  231
9.2.3  基于tag的项特征获取  232
9.2.4  项模型的表示  233
9.2.5  用户模型  234
9.2.6  基于内容的项推荐  235
9.2.7  分类算法  235
9.2.8  习题  237
9.3  协同过滤  238
9.3.1  相似度计算  238
9.3.2  相似度对偶性  241
9.3.3  用户聚类和项聚类  242
9.3.4  习题  243
9.4  降维处理  243
9.4.1  uv分解  244
9.4.2  rmse  244
9.4.3  uv分解的增量式计算  245
9.4.4  对任一元素的优化  247
9.4.5  一个完整uv分解算法的构建  248
9.4.6  习题  250
9.5  netflix竞赛  250
9.6  小结  251
9.7  参考文献  253
索引  254

图书信息来源于:中国互动出版网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/449753.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud框架搭建+实际例子+讲解+系列五

(4)服务消费者,面向前端或者用户的服务 本模块涉及到很多知识点:比如Swagger的应用,SpringCloud断路器的使用,服务API的检查、token的校验,feign消费者的使用。大致代码框架如下: 先…

软件开发者最重要的四大技能

摘要:现如今,可供选择的技术、语言及平台可谓五花八门,因此要弄明白哪里是花时间训练的最佳投资点也就难上加难…… 现如今,可供选择的技术、语言及平台可谓五花八门,因此作为软件开发者,要弄明白哪里是花时…

Java 12 将于3月19日发布,8 个最终 JEP 一览

开发四年只会写业务代码,分布式高并发都不会还做程序员? JDK 12 已于2018年12月进入 Rampdown Phase One 阶段,这意味着该版本所有新的功能特性被冻结,不会再加入更多的 JEP 。该阶段将持续一个月,主要修复 P1-P3 级…

股票期货数据的resample处理

​ import pandas as pd stock_day pd.read_csv("stock_day.csv") stock_day stock_day.sort_index() # 对每日交易数据进行重采样 (频率转换) stock_day.index# 1、必须将时间索引类型转换成Pandas默认的类型 stock_day.index pd.to_datet…

程序员如何做出“不难看”的设计

摘要:程序员在写代码的时候往往只注重功能的实现和性能的提升,忽视了外观和易用性,其实很多时候只要注意一些基本的规则,就可以大幅度提高产品的观感。 经常看到程序员展示自己做的东西,有一些是创业项目,有…

微服务实战(二):使用API Gateway

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 当你决定将应用作为一组微服务时,需要决定应用客户端如何与微服务交互。在单体式程序中,通常只有一组冗余的或者…

五步让你成为专家级程序员

摘要:Mark Lassoff是一位高级技术培训师,从事培训工作已有10余年。他培训的客户包括美国国防部、Lockheed Martin等。在多年的培训生涯中,他总结了一些如何快速学习一门语言的技巧,这些技巧非常简单,但是却让人受益匪浅…

Laravel 使用 Aliyun OSS 云存储

对象存储 ( Object Storage Service, 简称 OSS ) OSS 相信大家都听过, 它是阿里云对外提供的海量, 安全和高可靠的云存储服务. 大家可以把自己网站的资源存上面加快自己网站速度, aliyun 官网也有文档不过对于新手来说有点难, 那么这里我给大家推荐一个组件和组件的使用. johnl…

在线学习新编程 技巧全攻略

摘要:有句俗语叫:“技多不压身”,如果你有时间和兴趣,不妨多了解和掌握编程技能,或许随时可能有用。本文为你收集了一些编程技巧,让你轻松学编程。 有句俗语叫:“技多不压身”,如果你…

第 3 章 镜像 - 018 - 镜像命名的最佳实践

为镜像命名 创建镜像时 docker build 命令时已经为镜像取了个名字,例如: docker build -t ubuntu-with-vi 这里的 ubuntu-with-vi 就是镜像的名字。通过 dock images 可以查看镜像的信息。 1 rootubuntu:~# docker images ubuntu-with-vi 2 REPOSITORY …

Jmeter逻辑控制器-ForEach Controller

ForEach Controller 介绍 ForEach Contoller 即循环控制器,顾名思义是定义一个规则。主要有以下一个参数:名称:随便填写注释:随便填写输入变量前缀:可以在“用户自定义变量”中定义一组变量。循环控制器可以从中获取到…

微服务实战(三):深入微服务架构的进程间通信

见:http://www.dockone.io/article/549简介 在单体式应用中,各个模块之间的调用是通过编程语言级别的方法或者函数来实现的。但是一个基于微服务的分布式应用是运行在多台机器上的。一般来说,每个服务实例都是一个进程。因此,如下…

python输出与删除某行或某列

python输出字符,主要为结合变量形成新的变量名 year 2016 event Referendum fResults of the {year} {event}Results of the 2016 Referendum yes_votes 42_572_654 no_votes 43_132_495 percentage yes_votes / (yes_votes no_votes) {:-9} YES votes {:2…

为什么应该用模块取代C/C++中的头文件?

摘要:本文整理自Apple C工程师Doug Gregor的演讲Slide,他表示希望使用模块(Module)这一概念替代C/C中的头文件,现已被C标准化委员会任命为Module研究组的主席,研究该提议的可能性。考虑到Apple的开源项目LL…

Kong Api 初体验、Kong安装教程

见:https://blog.csdn.net/forezp/article/details/79383631Kong是一个可扩展的开源API层(也称为API网关或API中间件)。 Kong运行在任何RESTful API的前面,并通过插件扩展,它们提供超出核心平台的额外功能和服务。 Kon…

从谷歌宕机事件认识互联网工作原理

摘要:谷歌服务器经历了短暂的宕机事件,持续大概27分钟,对部分地区的互联网用户造成了影响。此次事件的原因深究起来需要进入互联网络那深邃的、黑暗的角落。 译者注:本文中提到CloudFlare是一家总部位于美国旧金山的内容分发网络(…

推荐给开发人员的实用命令行工具

摘要:优秀的工具对于定位问题出在何处有着无可估量的价值,而且能在一开始就帮助我们阻止问题的出现,总的来说能使我们的工作更有效率。本文介绍了6个非常强大且灵活的工具,熟练使用这些工具能使你的生活变得更轻松一些。 作为一名…

雷军:启动手机+AIoT双引擎战略 5G春天到来前打持久战

雷帝网 乐天 1月11日报道 小米CEO雷军今日在小米年会上宣布,2019年,小米将正式启动“手机AIoT”双引擎战略,这将是小米未来五年的核心战略。未来5年,小米将在AIoT领域持续投入超过100亿元。从2019年起,AIoT&#xff0c…

Jenkins自定义主题

x下载自定义样式 http://afonsof.com/jenkins-material-theme/ 打开连接 最后点击:DOWNLOAD TOUR THEME! 得到样式文件:jenkins-material-theme.css 上传样式文件到jenkins 将jenkins-material-theme.css 上传到: /var/jenkins_home/userCont…

SSH (Secure Shell)详解

Secure Shell(SSH)是一种加密 网络协议,用于在不安全的网络上安全地运行网络服务。 SSH通过客户端 - 服务器体系结构中的不安全网络提供安全通道,将SSH客户端应用程序与SSH服务器相连接。 常见的应用程序包括远程命令行登录和远程…