吴恩达《机器学习》学习笔记一
- 一、 什么是机器学习?
- 二、监督学习
- 三、无监督学习
初识机器学习
这是个人学习吴恩达《机器学习》课程的一些笔记,供自己和大家学习提升。第一篇内容较少,日后继续加油。
课程链接:https://www.bilibili.com/video/BV164411b7dx?from=search&seid=5329376196520099118
一、 什么是机器学习?
机器学习一直没有一个官方固定的定义。但课中给出了两种解释,个人认为非常经典,易于理解。
定义一:Field of study that gives computers the ability to learn without being explicitly programmed.—— Arthur Samuel(1959) 即无需明确编程,就使得计算机有学习能力的研究领域。
值得一提的是,阿瑟.塞缪尔(Arthur Samuel)在此之前(1952年)研发出了第一个计算机跳棋程序,它是世界上第一个可以自主学习的程序。通过和该跳棋程序不断的下棋,使得该程序的跳棋技巧不断得到提升,最终甚至超过了人类水平,这是机器学习早期一个非常经典的案例。
定义二:A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 即计算机程序从经验E上学习来处理任务T,且P为性能评估,如果在T上,由P衡量的性能随着经验E的学习而提高,这就是机器学习。
下面看一个课中给出的定义二的例子:
这是一个邮件分类问题,基于已知邮件是否为垃圾邮件的信息,来优化邮件分类系统。此处选项一:把邮件分类为垃圾或正常邮件是机器学习的T;选项二:观察你标记的邮件是垃圾还是正常是机器学习的E;选项三:正确分类邮件的数量是机器学习的P。
此外,机器学习有其分类,主要分为如下三类:
机器学习分类 | 具体算法举例 |
---|---|
监督学习 | 线性回归、SVM、决策树等 |
无监督学习 | 聚类、密度估计等 |
其他:强化学习、推荐系统等 | -待学习- |
所以下面分别讨论了基本的监督学习和无监督学习。
二、监督学习
监督学习的特点是,学习数据都是有标注的。如经典的房价预测案例,它的数据集中数据样本不仅给出了各自的属性值,还给出了具体的房价大小,而这个房价大小就是所谓的标注,也就是需要预测的属性,模型从带有标注的数据中学习,随后对新的数据预测其标签值。如下图所示是房价预测的一个示例。
图中为简单起见,只考虑了房子的一个属性:面积(feet2),而实际还需要考虑很多其他属性如:朝向、地段等。红色的×表示已知的一批带有标注的数据,要从这些数据中学习得一种模型,使得后续预测的值比较真实,红色的直线是一次函数模型,蓝色的曲线是更复杂的模型,目标都是尽可能地模拟所有数据。模型选择的好坏,也会对预测有很大的影响(此处蓝色的模型看起来要比红色的好)。若已得到一个模型,则新给出一个输入如:房屋面积为750feet2,根据模型则可以得到预测房价为多少。
此外,房价预测也是回归问题的一个实例,所谓回归,就是预测值是连续值,此处房价是一个连续值,所以是一个回归问题。
与此对应,若预测值是离散的,则被称为分类问题,如上述提到的邮件分类,预测值只有垃圾邮件和正常邮件两个值。如下图所示,是根据肿瘤尺寸这个属性来对乳腺肿瘤进行分类的数据,标签值只有0(良性)和1(恶性)两种。
而往往不止通过一个属性进行学习,还可能通过细胞尺寸均匀度、细胞形状均匀度、患者年龄等许多属性来进行学习。
三、无监督学习
无监督学习与监督学习相对,当学习数据不带有标签时,就可以看成是无监督学习,也可以理解为没有正确答案的学习。无监督学习在做的,更多的是找出数据之间的相似相关性。如下图所示,x1和x2是数据的两个属性,数据不带有标签,无监督学习会寻找数据之间的相似性,将无标注的数据划分为一个个的簇。