机器学习西瓜书笔记
- 第一章(chapter 1) 绪论 (参考机器学习西瓜书)
- 第一节(section 1)引言
- 第二节(section 2)基本术语
- 第三节(section 3)假设空间
- 第四节(section 4)归纳偏好
- 第五节(section 5)发展历程
- 第六节(section 6)应用现状
第一章(chapter 1) 绪论 (参考机器学习西瓜书)
第一节(section 1)引言
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
即:设计算法,并通过数据进行学习/训练来提升算法效果,最终训练得到结果(模型),用以完成特定任务。
计算手段(算法) + 经验(数据) -> 模型 -> 改善系统(任务)。
第二节(section 2)基本术语
数据: 用于算法改善性能的经验。
数据集:一批关于某种事件/对象的数据的集合。
示例或样本:数据集中关于某一事件/对象的描述。(注:有时整个数据集也称为样本)。
属性/特征:反应事件/事物某些表现/性质的事项。
属性值/特征值:属性或特征的具体取值。
属性/样本/输入空间:属性张成的空间。
维度:单个样本所包含的属性数目。
特征向量:由于单个样本/示例,在属性空间中对应一个点,每个点对应一个坐标向量,故示例也称特征向量。
学习/训练:从数据集中获取知识,提升算法效果的过程。
训练集:训练过程的数据称为训练数据的集合,其中每个样本称为一个训练样本。
模型:算法训练得到的结果。
假设:学得的模型对应了数据中的某一潜在规律。
真实/真相:潜在规律自身。
标签:关于示例结果的信息,称为标签。
标签空间:所有标记的集合。
分类:若预测的是离散值,例如"0/1",此类学习任务称为分类。
回归:若预测的是连续值,则该学习任务称为回归。
分类中又可分为二分类与多分类任务,二分类顾名思义,只需分2类