CS190.1x Scalable Machine Learning

这门课是CS100.1x的后续课,看课程名字就知道这门课主要讲机器学习。难度也会比上一门课大一点。如果你对这门课感兴趣,可以看看我这篇博客,如果对PySpark感兴趣,可以看我分析作业的博客。

Course Software Setup

这门课的环境配置和上一门一模一样,参考我的这篇博客CS100.1x Introduction to Big Data with Apache Spark。

Lecture 1 Course Overview and Introduction to Machine Learning

这一章主要是背景介绍和一些基本概念的介绍。现在的数据越来越多,单一的机器处理这些数据的时候会很慢,所以产生了分布式计算,但是分布式计算本身很复杂,所以出现了Spark来简化分布式计算,特别是Spark MLlib,对解决机器学习问题非常好用。

紧接着介绍了机器学习的概念,包括机器学习的分类,机器学习的相关术语,机器学习的处理流程,处理垃圾邮件的具体例子,线性代数基础知识和衡量时间和空间复杂度的Big O。

这里每个内容都很广,所以不在这里赘述。有兴趣的可以搜搜其他博客。

Lecture 2 Big Data, Hardware Trends, and Apache Spark

这章内容和上一门课的lecture3和lecture4一模一样。参考我的这篇博客CS100.1x Introduction to Big Data with Apache Spark。

Lecture 3 Linear Regression and Distributed ML Principles

这一章干活很多。首先介绍了线性回归和最小二乘法,线性回归在工业中应用非常广,因为算法简单,效果好,而且可以通过增加特征来提高模型复杂度。当模型复杂度高时,容易过拟合,Rideg regression是个很好的选择。

这一章还给出了一个预测歌曲年代的例子,通过这个例子简单介绍了机器学习的处理流程。后面的作业会详细的解决这个问题。

这一章解释了如何用分布式来解决线性回归的问题。我们都知道,在解决线性回归的问题时,有一个closed form solution,如下图
798143-20170419171100602-1053607941.png

我们得到时间复杂度和空间复杂度
798143-20170419171631743-518906747.png

我们发现当数据量很大时,n一般很大,而d表示特征的多少,相比较n,显得很小。所以计算和存储的瓶颈就在于如何存储X和如何计算X的转置乘以X(原谅我懒得打公式)。因为这两项涉及到n。
798143-20170419172332540-788895641.png

第一个问题很好解决,因为我们这里就是讲分布式系统,直接把数据分布式存储就行。

第二个问题需要一些技巧,如下图,我们把矩阵的乘法从inner product变成outer product。
798143-20170419172819087-649969926.png
798143-20170419173018571-1711190289.png
现在的时间和空间复杂度为
798143-20170419173555774-255516607.png

通过这些步骤,还有一个问题就是,时间和空间的复杂度里仍然有平方项,当d很大时,本地计算d*d也够呛。所以最好有一个复杂度为线性实现的方法。

第一个思路是利用数据的稀疏性,稀疏矩阵在实际问题中很常见,我们可以利用PCA降维,来把d变小;第二个思路就是换个算法,比如梯度下降。

梯度下降的定义和过程我们就不多说了,这里说说梯度下降在分布式里的应用和代码实现。
798143-20170419174826290-68387445.png
798143-20170419174951556-1588968780.png

通过上面的步骤,也解释了三个经验法则。
798143-20170419175636852-218088008.png

Lecture 4 Logistic Regression and Click-through Rate Prediction

这一章主要讲逻辑回归和其应用——点击预测。点击预测主要用于在线广告,而且有很多难点,比如影响点击的因素太多太乱、数据量太大。然后介绍了监督学习的概念,并从线性回归到逻辑回归。然后介绍了FP,FN定义和用ROC plot来觉得阈值。接着介绍了如何处理类别型特征(label encoding和one-hot encoding)。当对特征这样处理后,整个矩阵可能会很稀疏,这时候用sparse representation会节省存储空间和计算量。

当one-hot encoding处理后特征太多时,最好不要丢特征,因为虽然矩阵很稀疏,不代表没有信息量;另外一个选择是用feature hashing。

Lecture 5 Principal Component Analysis and Neuroimaging

这一章主要讲PCA和神经科学。。我没太明白为什么讲神经科学,难道是和作业有关系么。然后介绍了无监督学习,从而引出了PCA。介绍PCA的博客太多了,这里不赘述。

这里重点讲讲PCA在分布式上的实现。分两种情况。
798143-20170420093924181-696005091.png
第一种情况是Big n和small d,分为4步。
798143-20170420094901337-343371120.png
798143-20170420094911274-68321505.png
798143-20170420094920618-319034870.png
798143-20170420094929806-1733794598.png
798143-20170420094940915-1542165951.png

第二种情况是big n和big d。主要用迭代的方法。
798143-20170420095516946-2010106661.png
798143-20170420095526134-1942570897.png
798143-20170420095536134-77452467.png

转载于:https://www.cnblogs.com/-Sai-/p/6736475.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

./4.sh: No such file or directory

sh push到目标板后提示出错 #!/bin/bash echo "ladjfaosdjfoia"头bin/bash 我们要看,sh在哪里 130|rk3399_idpad:/data # which sh /system/bin/sh rk3399_idpad:/data # 所以上面的代码应该写成 #!/system/bin/sh echo "ladjfaosdjfoia"修…

Spring总结四:IOC和DI 注解方式

首先我们要了解注解和xml配置的区别: 作用一样,但是注解写在Bean的上方来代替我们之前在xml文件中所做的bean配置,也就是说我们使用了注解的方式,就不用再xml里面进行配置了,相对来说注解方式更为简便。 IOC获取对象注…

和后台如何对接_业务系统如何对接第三方服务?

在产品工作中,我们时常要对接第三方服务。本文作者从过往的对接项目经历中,提炼的关于业务系统,如何对接第三方服务的方法论,希望能对你有所帮助。随着公司业务的发展,我们有时会遇到,需要在自身业务系统中…

adb 启动某个apk

有时候需要用apk来启动某个apk adb shell am start -n com.android.launcher3/com.android.launcher3.Launcher 具体查看~ /rk3399_7in1/packages/apps/Launcher3/AndroidManifest.xml

Makefile 文件中的:obj-$(CONFIG_TEST) += test.o,这一类的是什么意思?

1、obj-$ $(CONFIG_TEST) 是一个整体,$(bbb)表示引用变量 bbb 比如定义 CONFIG_TESTy $(CONFIG_TEST) 就是 y obj-$(CONFIG_TEST) 就是 obj-y 又比如定义 CONFIG_TESTm $(CONFIG_TEST) 就是 m obj-$(CONFIG_TEST) 就是 obj-m obj-y foo.o 该例子告诉Kbuild在这目…

Kconfig中的“depends on”和“select”

在Kconfig文件中: config Adepends on Bselect C它的含义是:CONFIG_A配置与否,取决于CONFIG_B是否配置。一旦CONFIG_A配置了,CONFIG_C也自动配置了。 参考资料:“select” vs “depends” in kernel Kconfig。 所以去…

数组的合并和升序排列_leetcode 33 搜索旋转排序数组

给你一个升序排列的整数数组 nums ,和一个整数 target 。假设按照升序排序的数组在预先未知的某个点上进行了旋转。(例如,数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7,0,1,2] )。请你在数组中搜索 target ,如果数组中存在…

[LeetCode] [C++] 206 Reverse Linked List 反转单项链表

题目要求 Reverse a singly linked list.LeetCode 206在线测试 问题描述 给定一个单项链表,将其反转后返回链表头节点。 思路分析1 可以完整的遍历一遍链表,将链表的每个节点的值存在数组中,然后反向遍历数组重新生存一个新 链表。这样做需要…

qq面板(仿版,未完待续中。。。。)---2017-04-24

主要实现效果: 1、点击对话,显示对话;点击联系人,显示联系人 2、在联系人界面: 实现好友列表的展开与折叠;(图12) 实现鼠标移到好友列表上的背景颜色的变化;(…

苹果企业证书_苹果签名经常掉签原因大汇总

苹果签名就是数字签名,是基于非对称加密算法来实现的,对称加密就是通过非对称加密算法实现的,对称加密是通过同一份秘钥加密解密数据,非对称加密有两份秘钥,分别是公钥和私钥,用公钥进行加密的数据只能使用…

漫画|Linux 并发、竞态、互斥锁、自旋锁、信号量都是什么鬼?

1. 锁的由来?学习linux的时候,肯定会遇到各种和锁相关的知识,有时候自己学好了一点,感觉半桶水的自己已经可以华山论剑了,又突然冒出一个新的知识点,我看到新知识点的时候,有时间也是一脸的懵逼…

不废话~就是抽奖~

不废话就是抽奖 在公众号回复-抽奖- 获取抽奖二维码参与抽奖

威纶触摸屏与电脑连接_PLC与这7种设备的连接方式,一看就懂!

点击上方电工小青年,关注并星标专业的电工电气领域自媒体,不容错过欢迎转发朋友圈~PLC常见的输入设备有按钮、行程开关、接近开关、转换开关、拨码器、各种传感器等,输出设备有继电器、接触器、电磁阀等。正确地连接输入和输出电路&#xff0…

Android studio JNI jni实例

1.Jni的作用 1.Jni的作用 Java是一种比较高级的语言,Java调用c库,调用c库是必不可少的,所以Jni就应运而生了。看了这个文章的同学,应该能够自己写个APK装在自己的手机里面吧,以前刚开始做android的时候,写…

二叉树先序遍历,中序遍历,后序遍历,层次遍历学习总结及完整C/C++代码

伪代码阐述 先序遍历 先序遍历:先访问根节点, 然后深入左子树,直到不能深入时再深入右子树 由定义可得递归式 void travPre_R(BinNodePosi* x,VISIT& visit){if(!X) return; //到达叶子节点,开始回归visit(x->data);//向左子树深入的过程中便开始进行对每个节点的数据…

nedc工况_东南DX3 EV续航升级 NEDC综合工况续航451公里

东南DX3 EV续航升级版车型曝光,电池系统能量密度由之前的141Wh/kg提升至了161Wh/kg,NEDC综合工况续航也由老款产品的351km提升至了451km。近日,工信部公布了2019年第7批《新能源汽车推广应用推荐车型目录》,东南DX3 EV续航升级版车…

不笑找我系列 | 程序员爆笑漫画十条

原创翻译~ 转载请说明出处~~~~~~~~ 1、如果你让码农给你做个事情,比如修个灯泡,他会这样去执行你的指令 2、分享一个码农发现并解决bug的过程,实在是符合我们码农的人设 3、码农的一天,像极了我的一天 4、至今为止,没…

AVL树学习总结

AVL树 平衡二叉树的缺点 由于平衡二叉搜索树的search(), insert(),remove()接口的运行时间与二叉树的高度成正比,所以若不能有效控制树高, 从平均复杂度来看,二叉平衡搜索树并不能让人满意 理想平衡 二叉树的性能取决于树的高度,只有当左右子树的高度接近时才能达到理想平衡…

nginx编译安装_Nginx编译安装nginx-upsync-module模块以实现动态负载

安装依赖包OpenSSL在官网下载页下到最新稳定版1.0.2q。PCRE在 PCRE 官网可以找到下载地址,这里选择8.x的最高版本 pcre-8.42.tar.gz。zlibzlib 直接选择官网首页最新的zlib-1.2.11.tar.gz。下载nginx 源码包及nginx-upsync-module模块源码这里下载的是nginx稳定版ng…

码农笑话图片十张

原创翻译~转载请说明出处~~~~~~~~1、如果你让码农给你做个事情,比如修个灯泡,他会这样去执行你的指令2、分享一个码农发现并解决bug的过程,实在是符合我们码农的人设3、码农的一天,像极了我的一天4、至今为止,没有遇到…