机器学习知识总结系列- 基本概念(1-0)

文章目录

  • 目录
    • 1. 机器学习的定义
    • 2. 机器学习的分类
      • 2.1根据是否在人类监督下进行训练
        • 监督学习
        • 非监督学习
        • 半监督学习
        • 强化学习
      • 2.2根据是否可以动态渐进的学习
        • 在线学习
        • 批量学习
      • 2.3根据是否在训练数据过程中进行模式识别
        • 实例学习
        • 基于模型的学习
    • 3. 机器学习中的一些常见名词
    • 4. 机器学习的挑战
      • 4.1 训练的数据量不足
      • 4.2 没有代表性的数据
      • 4.3 低质量的数据
      • 4.4 不相关的特征
      • 4.5 过拟合和欠拟合
    • 5. 其他
      • 5.1偏差与方差
        • 概念
        • 导致偏差和方差的原因
        • 深度学习中的偏差与方差
        • 偏差与方差的计算公式
        • 偏差与方差的权衡(过拟合与模型复杂度的权衡)
      • 5.2 生成模型与判别模型
        • 概念
        • 优缺点
        • 常见模型
      • 5.3 先验概率与后验概率

目录

1. 机器学习的定义

机器学习是通过编程让计算机能够从数据中进行学习的科学(艺术)

经验E学习一些分类任务T性能测量P,它在任务T中的性能(由P测量)随着经验E提升–汤姆.米切尔.1997


2. 机器学习的分类

2.1根据是否在人类监督下进行训练

监督学习

在监督学习中用于训练算法的数据中包含了答案,即标签信息。
监督学习主要包括分类和回归2个重要的任务。
重要的监督学习算法:

  • KNN
  • 线性回归
  • 逻辑回归
  • SVM
  • 决策树和随机森林
  • 神经网络

非监督学习

在非监督学习中用于训练算法的数据中没有标签信息。
非监督学习主要包括:聚类,可视化与降维,关联性规则分析和异常检测4个重要的任务

重要的聚类算法:

  • K means
  • 层次聚类
  • 期望最大
    可视化和降维
  • PCA
  • 核主成分分析
  • LLE(局部线性嵌入)
  • t-SNE(t分布领域嵌入算法)

关联性规则学习

  • Apriori算法
  • Eclat算法

半监督学习

处理部分带数据标签的训练数据,通常是大量数据不带标签,然后小部分数据带标签。

对数的半监督学习算法是监督学习算法和非监督算法的结合。

深度信念网络是基于受限玻尔兹曼机的非监督组件。RBM是先用非监督的方法对数据进行训练,在使用监督的方法岁整个系统进行微调。

强化学习

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。

2.2根据是否可以动态渐进的学习

在线学习

与批量学习不同,在线学习假设训练数据持续到来,通常利用一个训练样本更新当前的模型,大大降低了学习算法的空间复杂度和时间复杂度,实时性强。在大数据时代,大数据高速增长的特点为机器学习带来了严峻的挑战,在线学习可以有效地解决该问题,引起了学术界和工业界的广泛关注。

批量学习

不能进行持续的学习,在线使用和离线学习完全分开,只是使用离线学习到的策略。

2.3根据是否在训练数据过程中进行模式识别

实例学习

直接从实例当中进行学习,最简单的方法就是查表,即所谓的记忆学习。其中KNN可以认为是一种基于实例的学习方法。

基于模型的学习

从样本中进行归纳,然后建立样本的模型,然后根据模型进行新样本的预测,则为基于模型的学习。大部分的机器学习模型都是基于模型的学习方法。


3. 机器学习中的一些常见名词

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


4. 机器学习的挑战

4.1 训练的数据量不足

  • 在机器学习领域,往往是大数据+简单模型的效果比小量数据+复杂模型的效果好。
  • 对于复杂问题,数据比算法更重要
  • 在实际的问题中,获取大量的有标签的数据往往是很困难的,所以优化算法也是比较重要的。

4.2 没有代表性的数据

  • 机器学习的本质是使用模型通过已有的数据去尽可能的拟合原始数据的分布情况,如果用于拟合的数据无法很好的代表全部数据的分布(即:采样有偏的情况下),学习到的模型就是不准确的模型。

4.3 低质量的数据

  • 训练集中含有大量的噪声,异常点,错误都会影响模型的训练。
  • 花费时间对数据进行清理是很有必要的。

4.4 不相关的特征

  • 特征对于机器学习非常重要,所谓:进去的是垃圾,出来的也是垃圾。
  • 特征工程是机器学习中很重要的一部分工作。

4.5 过拟合和欠拟合


5. 其他

5.1偏差与方差

概念

在这里插入图片描述

导致偏差和方差的原因

在这里插入图片描述

深度学习中的偏差与方差

  • 神经网络的拟合能力非常强,因此它的训练误差(偏差)通常较小;
  • 但是过强的拟合能力会导致较大的方差,使模型的测试误差(泛化误差)增大;
  • 因此深度学习的核心工作之一就是研究如何降低模型的泛化误差,这类方法统称为正则化方法

偏差与方差的计算公式

在这里插入图片描述

偏差与方差的权衡(过拟合与模型复杂度的权衡)

在这里插入图片描述

5.2 生成模型与判别模型

概念

在这里插入图片描述

优缺点

在这里插入图片描述

常见模型

在这里插入图片描述

5.3 先验概率与后验概率

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

已将发生的概率就是最大的。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445408.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

剑指offer(刷题21-30)--c++,Python版本

文章目录目录第 21题:解题思路:代码实现:cpython第22 题:解题思路:代码实现:cpython第23 题:解题思路:代码实现:cpython第24 题:解题思路:代码实现…

剑指offer(刷题41-50)--c++,Python版本

文章目录目录第41题:解题思路:代码实现:cpython第42题:解题思路:代码实现:cpython第43题:解题思路:代码实现:cpython第44题:解题思路:代码实现&am…

redis——持久化

因为redis是内存数据库,他把数据都存在内存里,所以要想办法实现持久化功能。 RDB RDB持久化可以手动执行,也可以配置定期执行,可以把某个时间的数据状态保存到RDB文件中,反之,我们可以用RDB文件还原数据库…

剑指offer(刷题51-60)--c++,Python版本

文章目录目录第51题:解题思路:代码实现:cpython第52题:解题思路:代码实现:cpython第53题:解题思路:代码实现:cpython第54题:解题思路:代码实现&am…

2017第一届河北省大学生程序设计竞赛题解

超级密码 小明今年9岁了,最近迷上了设计密码!今天,他又设计了一套他认为很复杂的密码,并且称之为“超级密码”. 说实话,这套所谓的“超级密码”其实并不难:对于一个给定的字符串,你只要提取其中…

大数的四则运算(加法、减法、乘法、除法)

大数的四则运算(加法、减法、乘法、除法) 前言: 在计算机中数字表示的范围是有限制的,比如我们熟知的 int、float、double 等数据类型所能表示的范围都是有限的,如果我们要对位数达到几十位、几百位、上千位的大整数进…

随机过程1

随机过程1概述1.参考书目2.主要内容3.概率论--基本概念回顾3.1对“不确定性”的认识3.2 应对“不确定性”应该怎么做3.3随机变量(Random Variable)3.4分布函数(Distribution Function)3.5概率密度(Density)…

数组基操三连(4)

题目一 给定一个长度为N的整型数组arr,其中有N个互不相等的自然数1~N 请实现arr的排序 但是不要把下标0~N-1位置上的数值通过直接赋值的方式替换成1~N。 要求:时间复杂度为O(N),额外空间复杂度为O(1)。 思路:从左向右检查&…

Linux(1)-touch,mkdir,rm,mv,cp,ls,cd,cat

Linux1-实用终端命令1. touch, mkdir2. rm, mv, cp3. ls(通配符),cd(绝对/相对路径)4. cat, more/less文件内容浏览文件/目录-增删查改, 文件内容查看.1. touch, mkdir touch新文件 :在当前文件夹下,创建文件。文件不存在则创建新文件;文件存…

数组精选题目三连(5)

子数组的最大累加和问题 输入一个整形数组,求数组中连续的子数组使其和最大。比如,数组x 应该返回 x[2..6]的和187. 这四个代码完成的功能都是求最大子数组(注意用词准确,子数组连续,子序列可以不连续)。…

大数据学习(1)-大数据概述

文章目录目录大数据产生背景大数据概念大数据影响大数据应用大数据关键技术大数据产业大数据,云计算,物联网关系云计算物联网大数据,物联网,云计算三者之间联系目录 大数据产生背景 三次信息化浪潮 根据IBM前首席执行官郭士纳福…

redis——事件

redis服务器是一个事件驱动程序。 需要处理两类事件: 1)文件事件:redis是通过套接字与客户端或者其他服务器连接的,而文件事件就是服务器对套接字操作的抽象。 2)时间事件:服务器对一些定时操作的抽象。…

redis——客户端

redis服务器是典型的一对多服务器,通过使用由IO多路复用技术实现的文件事件处理器,redis服务器使用了单线程单进程的方式来处理请求。 客户端的属性 描述符 客户端状态的 fd 属性记录了客户端正在使用的套接字描述符: typedef struct red…

大数据学习(2-1)-Hadoop安装教程-单机模式和伪分布模式(Ubuntu14.04LTS)

文章目录目录1.linxu的安装1.1安装Linux虚拟机1.2安装Linux和Windows双系统2.Hadoop的安装2.1 Hadoop安装前配置2.1.1 配置Hadoop用户2.1.2 安装 ssh , 配置ssh免密登录2.1.3 安装java环境2.2 Hadoop的安装3.Hadoop单机版配置4.Hadoop伪分布版配置目录 1.linxu的安装 1.1安装…

mysql——JDBC

概述 JDBC:java Data Base Connectivity ,java数据库连接,它是一种用于执行sql语句的java API,为多种关系数据库提供统一访问。 其实就是一组用java编写的类和接口。 JDBC API 提供两类主要接口: 1)面向开发人员的…

servlet基础总结

什么是servlet Servlet(Server Applet)是Java Servlet的简称,是小服务程序或服务连接器,是用Java编写的服务器端程序,主要功能在于交互式地浏览和修改数据,生成动态Web内容. 狭义的Servlet是指Java语言实…