CS190.1x Scalable Machine Learning

这门课是CS100.1x的后续课,看课程名字就知道这门课主要讲机器学习。难度也会比上一门课大一点。如果你对这门课感兴趣,可以看看我这篇博客,如果对PySpark感兴趣,可以看我分析作业的博客。

Course Software Setup

这门课的环境配置和上一门一模一样,参考我的这篇博客CS100.1x Introduction to Big Data with Apache Spark。

Lecture 1 Course Overview and Introduction to Machine Learning

这一章主要是背景介绍和一些基本概念的介绍。现在的数据越来越多,单一的机器处理这些数据的时候会很慢,所以产生了分布式计算,但是分布式计算本身很复杂,所以出现了Spark来简化分布式计算,特别是Spark MLlib,对解决机器学习问题非常好用。

紧接着介绍了机器学习的概念,包括机器学习的分类,机器学习的相关术语,机器学习的处理流程,处理垃圾邮件的具体例子,线性代数基础知识和衡量时间和空间复杂度的Big O。

这里每个内容都很广,所以不在这里赘述。有兴趣的可以搜搜其他博客。

Lecture 2 Big Data, Hardware Trends, and Apache Spark

这章内容和上一门课的lecture3和lecture4一模一样。参考我的这篇博客CS100.1x Introduction to Big Data with Apache Spark。

Lecture 3 Linear Regression and Distributed ML Principles

这一章干活很多。首先介绍了线性回归和最小二乘法,线性回归在工业中应用非常广,因为算法简单,效果好,而且可以通过增加特征来提高模型复杂度。当模型复杂度高时,容易过拟合,Rideg regression是个很好的选择。

这一章还给出了一个预测歌曲年代的例子,通过这个例子简单介绍了机器学习的处理流程。后面的作业会详细的解决这个问题。

这一章解释了如何用分布式来解决线性回归的问题。我们都知道,在解决线性回归的问题时,有一个closed form solution,如下图
798143-20170419171100602-1053607941.png

我们得到时间复杂度和空间复杂度
798143-20170419171631743-518906747.png

我们发现当数据量很大时,n一般很大,而d表示特征的多少,相比较n,显得很小。所以计算和存储的瓶颈就在于如何存储X和如何计算X的转置乘以X(原谅我懒得打公式)。因为这两项涉及到n。
798143-20170419172332540-788895641.png

第一个问题很好解决,因为我们这里就是讲分布式系统,直接把数据分布式存储就行。

第二个问题需要一些技巧,如下图,我们把矩阵的乘法从inner product变成outer product。
798143-20170419172819087-649969926.png
798143-20170419173018571-1711190289.png
现在的时间和空间复杂度为
798143-20170419173555774-255516607.png

通过这些步骤,还有一个问题就是,时间和空间的复杂度里仍然有平方项,当d很大时,本地计算d*d也够呛。所以最好有一个复杂度为线性实现的方法。

第一个思路是利用数据的稀疏性,稀疏矩阵在实际问题中很常见,我们可以利用PCA降维,来把d变小;第二个思路就是换个算法,比如梯度下降。

梯度下降的定义和过程我们就不多说了,这里说说梯度下降在分布式里的应用和代码实现。
798143-20170419174826290-68387445.png
798143-20170419174951556-1588968780.png

通过上面的步骤,也解释了三个经验法则。
798143-20170419175636852-218088008.png

Lecture 4 Logistic Regression and Click-through Rate Prediction

这一章主要讲逻辑回归和其应用——点击预测。点击预测主要用于在线广告,而且有很多难点,比如影响点击的因素太多太乱、数据量太大。然后介绍了监督学习的概念,并从线性回归到逻辑回归。然后介绍了FP,FN定义和用ROC plot来觉得阈值。接着介绍了如何处理类别型特征(label encoding和one-hot encoding)。当对特征这样处理后,整个矩阵可能会很稀疏,这时候用sparse representation会节省存储空间和计算量。

当one-hot encoding处理后特征太多时,最好不要丢特征,因为虽然矩阵很稀疏,不代表没有信息量;另外一个选择是用feature hashing。

Lecture 5 Principal Component Analysis and Neuroimaging

这一章主要讲PCA和神经科学。。我没太明白为什么讲神经科学,难道是和作业有关系么。然后介绍了无监督学习,从而引出了PCA。介绍PCA的博客太多了,这里不赘述。

这里重点讲讲PCA在分布式上的实现。分两种情况。
798143-20170420093924181-696005091.png
第一种情况是Big n和small d,分为4步。
798143-20170420094901337-343371120.png
798143-20170420094911274-68321505.png
798143-20170420094920618-319034870.png
798143-20170420094929806-1733794598.png
798143-20170420094940915-1542165951.png

第二种情况是big n和big d。主要用迭代的方法。
798143-20170420095516946-2010106661.png
798143-20170420095526134-1942570897.png
798143-20170420095536134-77452467.png

转载于:https://www.cnblogs.com/-Sai-/p/6736475.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵩天python爬虫_我自己爬-python爬虫快速入门(一)

request库对于轻量级用户,像我一样只是准备写一个搞笑用的程序,requests是很方便的存在。安装通过pip就不说了request的几个主要方法requests.request() 构造一个请求,支撑以下各方法的基础方法requests.get() 获取HTML网页的主要方法&#x…

Linux_ACL_su

ACL ACL: 针对单一使用者, 文件, 目录进行rwx权限规范(当传统的Linux权限无法满足时采用) 1.ACL设置技巧: getfacl(取得ACL设置目录), setfacl(设置ACL规范) setfcal [-bkRd] [{-m | -x} acl 参数] 目标文件 m: 设置后续的acl参数给文件使用 x: 删除后续的acl参数 b: 移除…

./4.sh: No such file or directory

sh push到目标板后提示出错 #!/bin/bash echo "ladjfaosdjfoia"头bin/bash 我们要看,sh在哪里 130|rk3399_idpad:/data # which sh /system/bin/sh rk3399_idpad:/data # 所以上面的代码应该写成 #!/system/bin/sh echo "ladjfaosdjfoia"修…

Spring总结四:IOC和DI 注解方式

首先我们要了解注解和xml配置的区别: 作用一样,但是注解写在Bean的上方来代替我们之前在xml文件中所做的bean配置,也就是说我们使用了注解的方式,就不用再xml里面进行配置了,相对来说注解方式更为简便。 IOC获取对象注…

和后台如何对接_业务系统如何对接第三方服务?

在产品工作中,我们时常要对接第三方服务。本文作者从过往的对接项目经历中,提炼的关于业务系统,如何对接第三方服务的方法论,希望能对你有所帮助。随着公司业务的发展,我们有时会遇到,需要在自身业务系统中…

adb 启动某个apk

有时候需要用apk来启动某个apk adb shell am start -n com.android.launcher3/com.android.launcher3.Launcher 具体查看~ /rk3399_7in1/packages/apps/Launcher3/AndroidManifest.xml

Linux_PAM_用户之间的信息传递

PAM 账户信息的验证,可动态加载验证模块,提高验证的灵活性; PAM是一套应用程序接口,提供一连串的验证机制,借由一个与指令程序相同文件名的配置文件进行认证分析. 验证的过程包含三个字段: 1.验证类别(Type): author(认证):检验使用身份,需要密码进行检验account(账户):进行…

将枚举的键值绑定到下拉列表框

控制器代码: ///assemblyString:程序集名称的长格式,name:获取程序集实例中具有指定名称的 System.Type 对象,except:除了哪些枚举(键或值都可以)不加载到下拉列表框///此方法写在控…

Makefile 文件中的:obj-$(CONFIG_TEST) += test.o,这一类的是什么意思?

1、obj-$ $(CONFIG_TEST) 是一个整体,$(bbb)表示引用变量 bbb 比如定义 CONFIG_TESTy $(CONFIG_TEST) 就是 y obj-$(CONFIG_TEST) 就是 obj-y 又比如定义 CONFIG_TESTm $(CONFIG_TEST) 就是 m obj-$(CONFIG_TEST) 就是 obj-m obj-y foo.o 该例子告诉Kbuild在这目…

C++_IO类型_文件输入输出流_字符串流

IO类型 iostream: 用于窗口的输入输出fstream: 用于文件读写sstream :读写存储在内存中的string对象 注:他们继承于istream与ostream,因此istream对象也可用于读取ifstream, string对象, ostream对象同上; 并且iostream类型可在同一个流实现输入输出操作;. IO对象不可复制赋…

python网络编程证书_python 网络编程——客户端

网络通信的基本接口是socket,它扩展了操作系统的基本I/O到网络网络通信。socket可以通过socket()函数来建立,通过connect()函数来连接。得到了socket,可以确定本地和远程端点的IP地址和端口号。socket对不同的协议来说都是一种通用的接口&…

AC日记——集合位置 洛谷 P1491

集合位置 思路&#xff1a; 次短路&#xff1b; 先走一遍最短路&#xff1b; 记录最短路径&#xff0c;然后依次删边走最短路&#xff1b; 最短的长度就是次短路&#xff1b; 来&#xff0c;上代码&#xff1a; #include <queue> #include <cmath> #include <cs…

Kconfig中的“depends on”和“select”

在Kconfig文件中&#xff1a; config Adepends on Bselect C它的含义是&#xff1a;CONFIG_A配置与否&#xff0c;取决于CONFIG_B是否配置。一旦CONFIG_A配置了&#xff0c;CONFIG_C也自动配置了。 参考资料&#xff1a;“select” vs “depends” in kernel Kconfig。 所以去…

C++_虚继承_虚函数_纯虚函数(多继承的二义性,多态)

基本信息 每一个类都有一个虚表,以及虚表指针; 虚表的内容是编译器决定的,虚表中用于存放虚函数的指针, 程序运行时的类型信息等; 每个多态对象都存放着一个指向当前类型的虚表的指针, 该指针在构造函数中被赋值, 一般来说当调用当前这个类的构造函数, 则虚表指针就指向当前类…

数组的合并和升序排列_leetcode 33 搜索旋转排序数组

给你一个升序排列的整数数组 nums &#xff0c;和一个整数 target 。假设按照升序排序的数组在预先未知的某个点上进行了旋转。&#xff08;例如&#xff0c;数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7,0,1,2] &#xff09;。请你在数组中搜索 target &#xff0c;如果数组中存在…

[LeetCode] [C++] 206 Reverse Linked List 反转单项链表

题目要求 Reverse a singly linked list.LeetCode 206在线测试 问题描述 给定一个单项链表&#xff0c;将其反转后返回链表头节点。 思路分析1 可以完整的遍历一遍链表&#xff0c;将链表的每个节点的值存在数组中&#xff0c;然后反向遍历数组重新生存一个新 链表。这样做需要…

defconfig、 .config

最近在裁剪内核慢慢关注这个问题 defconfig、 .config defconfig 一般在arch/arm64/configs/目录下&#xff0c;是一个简单的内核配置&#xff0c;是没有展开的。 .config一般是用来执行make menuconfig的基础配置 从.config到defcong不是简单的复制操作&#xff0c;而是mak…

递归过程中语句执行顺序

递归的两种模式 模式一 //递归的过程中在"递"的过程中解决问题 function function_name(Max_argument){if(end_condition){end;}else{solve;function_name(Min_argument);//问题规模逐渐减小} } 注:位于递归函数前的语句和函数具有顺序性 模式二 //递归的过程中…

qq面板(仿版,未完待续中。。。。)---2017-04-24

主要实现效果&#xff1a; 1、点击对话&#xff0c;显示对话&#xff1b;点击联系人&#xff0c;显示联系人 2、在联系人界面&#xff1a; 实现好友列表的展开与折叠&#xff1b;&#xff08;图12&#xff09; 实现鼠标移到好友列表上的背景颜色的变化&#xff1b;&#xff08;…

苹果企业证书_苹果签名经常掉签原因大汇总

苹果签名就是数字签名&#xff0c;是基于非对称加密算法来实现的&#xff0c;对称加密就是通过非对称加密算法实现的&#xff0c;对称加密是通过同一份秘钥加密解密数据&#xff0c;非对称加密有两份秘钥&#xff0c;分别是公钥和私钥&#xff0c;用公钥进行加密的数据只能使用…