机器学习知识总结系列- 基本概念(1-0)

文章目录

  • 目录
    • 1. 机器学习的定义
    • 2. 机器学习的分类
      • 2.1根据是否在人类监督下进行训练
        • 监督学习
        • 非监督学习
        • 半监督学习
        • 强化学习
      • 2.2根据是否可以动态渐进的学习
        • 在线学习
        • 批量学习
      • 2.3根据是否在训练数据过程中进行模式识别
        • 实例学习
        • 基于模型的学习
    • 3. 机器学习中的一些常见名词
    • 4. 机器学习的挑战
      • 4.1 训练的数据量不足
      • 4.2 没有代表性的数据
      • 4.3 低质量的数据
      • 4.4 不相关的特征
      • 4.5 过拟合和欠拟合
    • 5. 其他
      • 5.1偏差与方差
        • 概念
        • 导致偏差和方差的原因
        • 深度学习中的偏差与方差
        • 偏差与方差的计算公式
        • 偏差与方差的权衡(过拟合与模型复杂度的权衡)
      • 5.2 生成模型与判别模型
        • 概念
        • 优缺点
        • 常见模型
      • 5.3 先验概率与后验概率

目录

1. 机器学习的定义

机器学习是通过编程让计算机能够从数据中进行学习的科学(艺术)

经验E学习一些分类任务T性能测量P,它在任务T中的性能(由P测量)随着经验E提升–汤姆.米切尔.1997


2. 机器学习的分类

2.1根据是否在人类监督下进行训练

监督学习

在监督学习中用于训练算法的数据中包含了答案,即标签信息。
监督学习主要包括分类和回归2个重要的任务。
重要的监督学习算法:

  • KNN
  • 线性回归
  • 逻辑回归
  • SVM
  • 决策树和随机森林
  • 神经网络

非监督学习

在非监督学习中用于训练算法的数据中没有标签信息。
非监督学习主要包括:聚类,可视化与降维,关联性规则分析和异常检测4个重要的任务

重要的聚类算法:

  • K means
  • 层次聚类
  • 期望最大
    可视化和降维
  • PCA
  • 核主成分分析
  • LLE(局部线性嵌入)
  • t-SNE(t分布领域嵌入算法)

关联性规则学习

  • Apriori算法
  • Eclat算法

半监督学习

处理部分带数据标签的训练数据,通常是大量数据不带标签,然后小部分数据带标签。

对数的半监督学习算法是监督学习算法和非监督算法的结合。

深度信念网络是基于受限玻尔兹曼机的非监督组件。RBM是先用非监督的方法对数据进行训练,在使用监督的方法岁整个系统进行微调。

强化学习

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。

2.2根据是否可以动态渐进的学习

在线学习

与批量学习不同,在线学习假设训练数据持续到来,通常利用一个训练样本更新当前的模型,大大降低了学习算法的空间复杂度和时间复杂度,实时性强。在大数据时代,大数据高速增长的特点为机器学习带来了严峻的挑战,在线学习可以有效地解决该问题,引起了学术界和工业界的广泛关注。

批量学习

不能进行持续的学习,在线使用和离线学习完全分开,只是使用离线学习到的策略。

2.3根据是否在训练数据过程中进行模式识别

实例学习

直接从实例当中进行学习,最简单的方法就是查表,即所谓的记忆学习。其中KNN可以认为是一种基于实例的学习方法。

基于模型的学习

从样本中进行归纳,然后建立样本的模型,然后根据模型进行新样本的预测,则为基于模型的学习。大部分的机器学习模型都是基于模型的学习方法。


3. 机器学习中的一些常见名词

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


4. 机器学习的挑战

4.1 训练的数据量不足

  • 在机器学习领域,往往是大数据+简单模型的效果比小量数据+复杂模型的效果好。
  • 对于复杂问题,数据比算法更重要
  • 在实际的问题中,获取大量的有标签的数据往往是很困难的,所以优化算法也是比较重要的。

4.2 没有代表性的数据

  • 机器学习的本质是使用模型通过已有的数据去尽可能的拟合原始数据的分布情况,如果用于拟合的数据无法很好的代表全部数据的分布(即:采样有偏的情况下),学习到的模型就是不准确的模型。

4.3 低质量的数据

  • 训练集中含有大量的噪声,异常点,错误都会影响模型的训练。
  • 花费时间对数据进行清理是很有必要的。

4.4 不相关的特征

  • 特征对于机器学习非常重要,所谓:进去的是垃圾,出来的也是垃圾。
  • 特征工程是机器学习中很重要的一部分工作。

4.5 过拟合和欠拟合


5. 其他

5.1偏差与方差

概念

在这里插入图片描述

导致偏差和方差的原因

在这里插入图片描述

深度学习中的偏差与方差

  • 神经网络的拟合能力非常强,因此它的训练误差(偏差)通常较小;
  • 但是过强的拟合能力会导致较大的方差,使模型的测试误差(泛化误差)增大;
  • 因此深度学习的核心工作之一就是研究如何降低模型的泛化误差,这类方法统称为正则化方法

偏差与方差的计算公式

在这里插入图片描述

偏差与方差的权衡(过拟合与模型复杂度的权衡)

在这里插入图片描述

5.2 生成模型与判别模型

概念

在这里插入图片描述

优缺点

在这里插入图片描述

常见模型

在这里插入图片描述

5.3 先验概率与后验概率

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

已将发生的概率就是最大的。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445408.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剑指offer(刷题21-30)--c++,Python版本

文章目录目录第 21题:解题思路:代码实现:cpython第22 题:解题思路:代码实现:cpython第23 题:解题思路:代码实现:cpython第24 题:解题思路:代码实现…

redis——对象

刚写了redis主要的数据结构: 动态字符串、双端链表、字典、压缩列表、整数集合、跳表等 redis肯定不能直接使用这些数据结构来实现数据库,它用这些数据库建立了一个对象系统,包含: 字符串对象、列表对象、哈希对象、集合对象、…

剑指offer(刷题31-40)--c++,Python版本

文章目录目录第31 题:解题思路:代码实现:cpython第32题:解题思路:代码实现:cpython第33题:解题思路:代码实现:cpython第34题:解题思路:代码实现&a…

redis——数据库

redis服务器将所有数据库都保存在redis/redisServer中,数组db存放所有数据库,每一项是一个redisdb结构。dbnum代表数据库数量。 客户端有一个指针指向当前数据库,可以切换,也就是移动指针。 键空间 现在稍微介绍一下redisdb结构…

剑指offer(刷题41-50)--c++,Python版本

文章目录目录第41题:解题思路:代码实现:cpython第42题:解题思路:代码实现:cpython第43题:解题思路:代码实现:cpython第44题:解题思路:代码实现&am…

redis——持久化

因为redis是内存数据库,他把数据都存在内存里,所以要想办法实现持久化功能。 RDB RDB持久化可以手动执行,也可以配置定期执行,可以把某个时间的数据状态保存到RDB文件中,反之,我们可以用RDB文件还原数据库…

redis原理总结

数据结构(字典、链表、字符串) 数据结构(整数集合,压缩列表) 数据结构(跳表介绍和手撕) LRU介绍和实现 对象(字符串对象、列表对象、哈希对象、集合对象、有序集合总结&#xff…

剑指offer(刷题51-60)--c++,Python版本

文章目录目录第51题:解题思路:代码实现:cpython第52题:解题思路:代码实现:cpython第53题:解题思路:代码实现:cpython第54题:解题思路:代码实现&am…

2017第一届河北省大学生程序设计竞赛题解

超级密码 小明今年9岁了,最近迷上了设计密码!今天,他又设计了一套他认为很复杂的密码,并且称之为“超级密码”. 说实话,这套所谓的“超级密码”其实并不难:对于一个给定的字符串,你只要提取其中…

剑指offer(刷题61-65)--c++,Python版本

文章目录目录第61题:解题思路:代码实现:cpython第62题:解题思路:代码实现:cpython第63题:解题思路:代码实现:cpython第64题:解题思路:代码实现&am…

2018第二届河北省大学生程序设计竞赛题解

icebound的账单 题目描述 icebound从小就有记账的习惯。又到了月末icebound统计资金状况的时候。icebound每个月除了不停的挥霍以外,有时他会良心发现,勤工俭学,因此会有一些微薄的收入。然而icebound数学不好,需要你来帮助他统计…

大数的四则运算(加法、减法、乘法、除法)

大数的四则运算(加法、减法、乘法、除法) 前言: 在计算机中数字表示的范围是有限制的,比如我们熟知的 int、float、double 等数据类型所能表示的范围都是有限的,如果我们要对位数达到几十位、几百位、上千位的大整数进…

数组基操三连(1)

题目: 给定一个数组arr,求出需要排序的最短子数组长度 要求: 时间o(n),空间o(1) 思路: 有序的数组中,任意一个数字,一定小于左边的数大于右边的数。 我们找到的需要排序的子数组,显然是比右边…

IT互联网公司的笔试的输入输出- c++ python

文章目录目录c方式1&#xff1a;方式2&#xff1a;Python方式1&#xff1a;方式2&#xff1a;方式3&#xff1a;目录 c 方式1&#xff1a; 第一种情况&#xff1a;输入n个数&#xff0c;存放在数组中 #include <iostream> #include <vector> using namespace st…

随机过程1

随机过程1概述1.参考书目2.主要内容3.概率论--基本概念回顾3.1对“不确定性”的认识3.2 应对“不确定性”应该怎么做3.3随机变量&#xff08;Random Variable&#xff09;3.4分布函数&#xff08;Distribution Function&#xff09;3.5概率密度&#xff08;Density&#xff09;…

数组基操三连(4)

题目一 给定一个长度为N的整型数组arr&#xff0c;其中有N个互不相等的自然数1~N 请实现arr的排序 但是不要把下标0~N-1位置上的数值通过直接赋值的方式替换成1~N。 要求&#xff1a;时间复杂度为O(N)&#xff0c;额外空间复杂度为O(1)。 思路&#xff1a;从左向右检查&…

Linux(1)-touch,mkdir,rm,mv,cp,ls,cd,cat

Linux1-实用终端命令1. touch, mkdir2. rm, mv, cp3. ls(通配符),cd(绝对/相对路径)4. cat, more/less文件内容浏览文件/目录-增删查改, 文件内容查看.1. touch, mkdir touch新文件 &#xff1a;在当前文件夹下&#xff0c;创建文件。文件不存在则创建新文件&#xff1b;文件存…