文章目录
- 目录
- 1. 机器学习的定义
- 2. 机器学习的分类
- 2.1根据是否在人类监督下进行训练
- 监督学习
- 非监督学习
- 半监督学习
- 强化学习
- 2.2根据是否可以动态渐进的学习
- 在线学习
- 批量学习
- 2.3根据是否在训练数据过程中进行模式识别
- 实例学习
- 基于模型的学习
- 3. 机器学习中的一些常见名词
- 4. 机器学习的挑战
- 4.1 训练的数据量不足
- 4.2 没有代表性的数据
- 4.3 低质量的数据
- 4.4 不相关的特征
- 4.5 过拟合和欠拟合
- 5. 其他
- 5.1偏差与方差
- 概念
- 导致偏差和方差的原因
- 深度学习中的偏差与方差
- 偏差与方差的计算公式
- 偏差与方差的权衡(过拟合与模型复杂度的权衡)
- 5.2 生成模型与判别模型
- 概念
- 优缺点
- 常见模型
- 5.3 先验概率与后验概率
目录
1. 机器学习的定义
机器学习是通过编程让计算机能够从数据中进行学习的科学(艺术)
从经验E学习一些分类任务T和性能测量P,它在任务T中的性能(由P测量)随着经验E提升–汤姆.米切尔.1997
2. 机器学习的分类
2.1根据是否在人类监督下进行训练
监督学习
在监督学习中用于训练算法的数据中包含了答案,即标签信息。
监督学习主要包括分类和回归2个重要的任务。
重要的监督学习算法:
- KNN
- 线性回归
- 逻辑回归
- SVM
- 决策树和随机森林
- 神经网络
非监督学习
在非监督学习中用于训练算法的数据中没有标签信息。
非监督学习主要包括:聚类,可视化与降维,关联性规则分析和异常检测4个重要的任务
重要的聚类算法:
- K means
- 层次聚类
- 期望最大
可视化和降维 - PCA
- 核主成分分析
- LLE(局部线性嵌入)
- t-SNE(t分布领域嵌入算法)
关联性规则学习
- Apriori算法
- Eclat算法
半监督学习
处理部分带数据标签的训练数据,通常是大量数据不带标签,然后小部分数据带标签。
对数的半监督学习算法是监督学习算法和非监督算法的结合。
深度信念网络是基于受限玻尔兹曼机的非监督组件。RBM是先用非监督的方法对数据进行训练,在使用监督的方法岁整个系统进行微调。
强化学习
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
2.2根据是否可以动态渐进的学习
在线学习
与批量学习不同,在线学习假设训练数据持续到来,通常利用一个训练样本更新当前的模型,大大降低了学习算法的空间复杂度和时间复杂度,实时性强。在大数据时代,大数据高速增长的特点为机器学习带来了严峻的挑战,在线学习可以有效地解决该问题,引起了学术界和工业界的广泛关注。
批量学习
不能进行持续的学习,在线使用和离线学习完全分开,只是使用离线学习到的策略。
2.3根据是否在训练数据过程中进行模式识别
实例学习
直接从实例当中进行学习,最简单的方法就是查表,即所谓的记忆学习。其中KNN可以认为是一种基于实例的学习方法。
基于模型的学习
从样本中进行归纳,然后建立样本的模型,然后根据模型进行新样本的预测,则为基于模型的学习。大部分的机器学习模型都是基于模型的学习方法。
3. 机器学习中的一些常见名词
4. 机器学习的挑战
4.1 训练的数据量不足
- 在机器学习领域,往往是大数据+简单模型的效果比小量数据+复杂模型的效果好。
- 对于复杂问题,数据比算法更重要
- 在实际的问题中,获取大量的有标签的数据往往是很困难的,所以优化算法也是比较重要的。
4.2 没有代表性的数据
- 机器学习的本质是使用模型通过已有的数据去尽可能的拟合原始数据的分布情况,如果用于拟合的数据无法很好的代表全部数据的分布(即:采样有偏的情况下),学习到的模型就是不准确的模型。
4.3 低质量的数据
- 训练集中含有大量的噪声,异常点,错误都会影响模型的训练。
- 花费时间对数据进行清理是很有必要的。
4.4 不相关的特征
- 特征对于机器学习非常重要,所谓:进去的是垃圾,出来的也是垃圾。
- 特征工程是机器学习中很重要的一部分工作。
4.5 过拟合和欠拟合
5. 其他
5.1偏差与方差
概念
导致偏差和方差的原因
深度学习中的偏差与方差
- 神经网络的拟合能力非常强,因此它的训练误差(偏差)通常较小;
- 但是过强的拟合能力会导致较大的方差,使模型的测试误差(泛化误差)增大;
- 因此深度学习的核心工作之一就是研究如何降低模型的泛化误差,这类方法统称为正则化方法
偏差与方差的计算公式
偏差与方差的权衡(过拟合与模型复杂度的权衡)
5.2 生成模型与判别模型
概念
优缺点
常见模型
5.3 先验概率与后验概率
已将发生的概率就是最大的。