一、何为机器学习(Mechine Learning)?
答:利用已有数据(经验),来训练某种模型,利用此模型来预测未来。机器学习是人工智能的核心Mechine Learning。
例如:你和狗蛋儿7点在老槐树下集合,如何一块约去开黑,前两次狗蛋儿都7点10分才到。这两次狗蛋晚到10分钟就是经验。之后你会通过自己的经验判断,下次你会不会出发时晚10分钟,从而利用这10分钟干些有意义的事情。
对于机器学习而言就是拟人
,让机器像人一样具备学习能力。7点集合这人来说是经验,此时需要将转化为数据给计算机,
人是可以通过自己的思维方式来进行做出判断,下次狗蛋儿会不会还晚到10分钟;对于计算机而言则是通过算法来进行判断。
计算机将一系列的数据通过自己的算法来训练出某种模型,通过训练出来的模型来预测未来,判断狗蛋儿下次是否还会晚到10分钟。这里的是否会晚到10分钟就是个二分类的问题,机器会求出一个概率,通过probably来进行判断。
在机器学习中,数据为王。数据得多、好,最后的预测才会越准。
例如:y = a*x + b
y1,x1,y2,x2就可以等价于是数据
a,b就是要求解的参数
预测就是当新的x代入到公式中去,求得y预测结果
机器学习的目的是生成模型
数据挖掘的目的是生成指标
机器学习分为两大类:
Ⅰ有监督的机器学习(y是已知的,且正确,提前有正确的结果)
①回归:y的区间是正无穷到负无穷
预测的结果是一个具体的值
例如:股票会涨,涨多少?20%、35%
②分类:y是一个分类号
预测的结果是具体哪一个类别
例如:NBA总决赛湖人是否会夺冠?会、不会
Ⅱ无监督的机器学习(y是未知的,没有正确的结果)
①聚类:在没有正确答案y的情况下,把数据分类成一堆一堆的,物以类聚人以群分。
通过x1、x2、x3…xn的维度,把相近、相似的分为一类
②降维:当x1、x2、x3…xn,其中n特别大的时候,为了更快的解方程组,减少x的数量。
二、对应关系
模式识别 = 机器学习
数据挖掘 = 机器学习 + 数据库
统计学习 ≈ 机器学习
计算机视觉 = 图像处理 + 机器学习
语音识别 = 语音处理 + 机器学习
自然语言处理 = 文本处理 + 机器学习
三、常用的框架
常见的框架 | 解释 |
---|---|
numpy | 数学计算框架 |
scipy | 物理计算框架 |
pandas | 数据分析框架 |
matplotlib | 绘图框架 |
scikit-learn | 机器学习框架 |
tensorflow | Google的开源深度学习框架 |
keras | 开源的深度学习框架 |
tensorflow 和 keras 类似 numpy 和 scipy 的关系
四、有监督机器学习流程
有监督学习:数据中得包含x和最后的结果y。将数据分为两部分,TrainSet和TestSet,其中TrainSet是用于训练的数据集;TestSet为测试用的数据集,机器训练阶段不会遇见,也成为新数据集。
有监督的机器学习主要的有分类、回归这两大类的应用。
将训练集数据代入相应的算法(公式)中得到对应的模型(参数)。有了模型之后,将测试集数据带入模型中,得到预测的结果,并与测试集中的数据结果进行比较评估即可。
五、有监督机器学习训练流程
六、scikit-learn库
SK-Learm