机器学习入门(1)之基本概念简介

目录

一、机器学习概述

1.1 什么是机器学习?

1.2 为什么需要机器学习?

1.3 机器学习应用场景

1.4 机器学习的一般流程

1.5 典型的机器学习过程​

二、机器学习的基本术语

三.假设空间与版本空间

四、归纳偏好

1.哪种更好

2..假设的选择原则

3.没有免费的午餐(No Free Lunch Theorem)


一、机器学习概述

基本概念:从具体到抽象

1.1 什么是机器学习?

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。

1.2 为什么需要机器学习?

解放生产力,智能客服,可以不知疲倦的24小时作业
解决专业问题,ET医疗,帮助看病
提供社会便利,例如杭州的城市大脑

1.3 机器学习应用场景

自然语言处理
无人驾驶
计算机视觉
推荐系统

1.4 机器学习的一般流程

1.5 典型的机器学习过程

二、机器学习的基本术语

数据集:所有记录的集合

实例(instance)或样本(example):每一条记录

特征(feature)或属性(attribute):单个的特点,一个记录构成一个特征向量,可用坐标轴上的一个点表示

属性值(attribute value):

  • 属性上的取值,例如“青绿”“乌黑”
  • 属性张成的空间称为 “属性空间”(attribute space)、“ 样本空间”(sample space)或“输入空间”.

特征空间(feature space)

  • 分别以每个特征作为一个坐标轴,所有特征所在坐标轴张成一个用于描述不同样本的空间,称为特征空间
  • 在该空间中,每个具体样本就对应空间的一个点,在这个意义下,也称样本为样本点。
  • 每个样本点对应特征空间的一个向量,称为 “特征向量”
  • 特征的数目即为特征空间的维数。

维数:一个样本的特征数,维数灾难

训练集(trainning set),[特殊]:所有训练样本的集合

测试集(test set),[一般]:所有测试样本的集合

泛化能力(generalization),即从特殊到一般:机器学习出来的模型适用于新样本的能力

标记(label):

  • 有前面的样本数据显然是不够的,要建立这样的关于“预测”(prediction) 的模型,我们需获得训练样本的“结果”信息,例如“((色泽=青绿;根蒂=蜷缩;敲声= =浊响),好瓜)”.这里关于示例结果的信息,例如“好瓜”,称为“标记”(label); 拥有了标记信息的示例,则称为“样例”(example).

分类(classification):

  • 若我们欲预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为"分类"

回归(regression)

  • 若欲预测的是连续值,例如西瓜成熟度0.95、0.37,类学习任务称为“回归”.
  • 对只涉及两个类别的称为“二分类’(binary classification)’

聚类”(clustering)

  • 即将训练集中的样本分成若干组,每组称为一个 “簇”(cluster);

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“ 监督学习”(supervised learning) 和 “无监督学习”(unsupervised learning), 分类和回归是前者的代表,而聚类则是后者的代表.

三.假设空间与版本空间

假设(hypothesis)、假设空间(hypothesis space):

  • 每一个具体的模型就是一个“假设(hypothesis)”
  • 模型的学习过程就是一个在所有假设构成的假设空间进行搜索的过程,搜索的目标就是找到与训练集“匹配(fit)”的假设。

 广义归纳学习:从样例中学习

狭义归纳学习:从训练数据中学得概念,因此也称为“概念学习”或“概念形成”。其中最基本的是“布尔概念学习

在这里你是否会有好多好多小问号??????

下面是:可能取值所形成的假设组成假设空间

 而我们就是要通过一定的方法来确定所谓的 “ ?” !!!那就是学习和搜索

学习过程:在所有假设组成的空间中进行搜索的过程。

搜索目标:找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。

 特殊情况: 某个因素可取任意值,用*来表示;目标概念根本不存在,用来表示这个假设

设每个因素的取值分别为m1,m2,m3,…,mk,则假设空间规模为: ∏(mi+1)+1

        然后,我们只需在假设空间的搜索过程中,不断删除与正例不一致的假设和、或与反例一致的假设,最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设

版本空间(version space)

  • 基于有限规模的训练样本集进行假设的匹配搜索,会存在多个假设与训练集一致的情况,称这些假设组成的集合为“版本空间”

四、归纳偏好

1.哪种更好

机器学习算法在学习过程中对某种类型假设的偏好:

 如图是A更好还是B更好?????

2..假设的选择原则

主要准则:
“奥克姆剃刀(Occam’s Razor)”准则又称为吝啬定律(Law of parsimony),或者称为朴素原则

  • 如无必要,勿增实体
  • 若多个假设与经验观测一致,则选择最简单的那个

其它原则
“多释原则”:

  • 保留与经验观察一致的所有假设
    (与集成学习的思想一致)

3.没有免费的午餐(No Free Lunch Theorem)

 NFL定理:一个算法ℒa若在某些问题上比另一个算法ℒb好,必存在另一些问题, ℒb比ℒa好

NFL定义有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。实际情形并非如此;我们通常只关注自己正在试图解决的问题。脱离具体问题,空泛地谈论“什么学习算法更好”,毫无意义!

      简单起见,假设样本空间χ和假设空间Η都是离散的。令P(ℎ│X,ℒa)代表算法ℒa基于训练数据X产生假设ℎ的概率。令f代表希望学习的真实目标函数。则ℒa在训练集之外所有样本上的总误差为:

         考虑二分类问题,目标函数可以为任何函数χ⟼{0,1},函数空间为{0,1}^|χ|,对所有可能的f按均匀分布对误差求和,有:

 总误差与学习算法无关,所有算法一样好!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/565073.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

山东大学 2020级计算机系统原理——拆解二进制炸弹

写在前面 第一次拿到这个实验还是有点慌!之前没见过,不过还是慢慢做过来了。 这是个需要耐心的过程,请一定静下心来哦! 环境及配置 环境:Ubuntu 20.04 GDB 调试工具 可参考配置:GDB调试工具配置&#…

机器学习入门(2)之模型评估与选择

目录 一、误差与拟合 1. 泛化误差与经验误差 2. 损失函数与训练误差 3. 过拟合与欠拟合 4. 过拟合的另一种现象:数据泄露 二、评估方法 1. 留出法 2. 交叉验证法(留一法) 3. 自助法 4. 调参与最终模型 三、性能度量 1. 混淆矩阵 …

pytorch MNIST 手写数字识别 + 使用自己的测试集 + 数据增强后再训练

文章目录1. MNIST 手写数字识别2. 聚焦数据集扩充后的模型训练3. pytorch 手写数字识别基本实现3.1完整代码及 MNIST 测试集测试结果3.1.1代码3.1.2 MNIST 测试集测试结果3.2 使用自己的图片进行测试3.2.1 测试图片预处理代码3.2.2 测试图片结果4. 数据增强4.1 手动读取 MNIST …

python基础(13)之数组

目录 数组 一、访问数组的元素 二、数组的长度 三、修改数组 四、数组的其它操作 数组 Python 没有对数组的内置支持,但可以使用Python 列表代替。 例如: ben ["笨小孩1", "笨小孩2", "笨小孩3"]一、访问数组的元…

C语言归并排序(合并排序)

归并排序也称合并排序,其算法思想是将待排序序列分为两部分,依次对分得的两个部分再次使用归并排序,之后再对其进行合并。仅从算法思想上了解归并排序会觉得很抽象,接下来就以对序列A[0], A[l]…, A[n-1]进行升序排列来进行解说&a…

python基础(14)之 类和对象

目录 Python类和对象 一、创建类 二、创建对象 三、init() 函数 四、对象方法 五、自参数 六、对象及其属性更改 七、pass语句 Python类和对象 Python 类/对象。Python 是一种面向对象的编程语言。Python 中的几乎所有东西都是一个对象,有它的属性和方法。…

C语言顺序查找

顺序査找是一种简单的査找算法,其实现方法是从序列的起始元素开始,逐个将序列中的元素与所要查找的元素进行比较,如果序列中有元素与所要查找的元素相等,那么査找成功,如果査找到序列的最后一个元素都不存在一个元素与…

python基础(15)之 继承

目录 Python继承 一、创建父类 二、创建子类 三、添加 init() 函数 四、使用 super() 函数 五、添加属性 六、添加方法 Python继承 继承允许我们定义一个从另一个类继承所有方法和属性的类。父类是被继承的类,也称为基类。子类是从另一个类继承的类&#xff…

C语言二分查找(折半查找)

二分査找也称折半査找,其优点是查找速度快,缺点是要求所要査找的数据必须是有序序列。该算法的基本思想是将所要査找的序列的中间位置的数据与所要査找的元素进行比较,如果相等,则表示査找成功,否则将以该位置为基准将…

python基础(16)之 日期

目录 Python日期 一、日期输入输出 二、创建日期对象 三、strftime() 方法 Python日期 Python 中的日期不是它自己的数据类型,但我们可以导入一个名为的模块datetime来处理日期作为日期对象。 一、日期输入输出 导入 datetime 模块并显示当前日期:…

python基础(17)之 JSON

Python JSON JSON 是一种用于存储和交换数据的语法。JSON 是文本,用 JavaScript 对象表示法编写。 Python 有一个名为 的内置包json,可用于处理 JSON 数据。 导入 json 模块: import json一.从 JSON 转换为 Python 如果您有 JSON 字符串&am…

python基础(18)之 异常处理

目录 异常处理 一、异常处理 二、else搭配 三、finally语句 四、引发异常 异常处理 try块可让您测试代码块的错误。except块可让您处理错误。finally无论 try- 和 except 块的结果如何,该块都允许您执行代码。 一、异常处理 例如该try块将产生异常&#xff0…

python基础(19)之 输入输出

目录 用户输入 一、格式化输入输出 二、格式化字符串字面值 三、字符串 format() 方法 四、手动格式化字符串 五、旧式字符串格式化方法 用户输入 实在太简单了,就是使用一个input(),将输入后的值传递给另一个变量,相当于动态赋值、 例如&#xff…

C语言函数返回值详解

函数的返回值是指函数被调用之后,执行函数体中的代码所得到的结果,这个结果通过 return 语句返回。 return 语句的一般形式为: return 表达式;或者: return (表达式);有没有( )都是正确的,为了简明,一般…

机器学习之线性回归(python)

目录 一、基本概念 二、概念的数学形式表达 三、确定w和b 1.读取或输入数据 2.归一化、标准化 2.1 均值 2.2 归一化 2.3 标准化 3.求解w和b 1.直接解方程 2.最小二乘法(least square method)求解: 4. 评估回归模型 四、sklearn中…

C语言函数的调用

函数调用(Function Call),就是使用已经定义好的函数。 函数调用的一般形式为: functionName(param1, param2, param3 ...);functionName 是函数名称,param1, param2, param3 …是实参列表。实参可以是常数、变量、表…

机器学习之线性回归(matlab)

目录 一、基本概念 二、概念的数学形式表达 三、确定w和b 1.读取或输入数据 2.归一化、标准化 2.1 均值 2.2 归一化 2.3 标准化 3.求解w和b 1.直接解方程 2.最小二乘法(least square method)求解: 4. 评估回归模型 四、regress线…

C语言函数声明以及函数原型

C语言代码由上到下依次执行,原则上函数定义要出现在函数调用之前,否则就会报错。但在实际开发中,经常会在函数定义之前使用它们,这个时候就需要提前声明。 函数声明(Declaration),就是告诉编译…

python(20)之读写文件

目录 读写文件 1.简单介绍 2.从文件中读取单行数据 3.从文件中读取多行 4.把 string(字符串) 的内容写入文件 5.写入其他类型的对象 本节知识总结 mode 参数 file 对象 读写文件 1.简单介绍 最常用的参数有两个: open(filename, mode) f op…

C语言全局变量和局部变量深入

局部变量 定义在函数内部的变量称为局部变量(Local Variable),它的作用域仅限于函数内部, 离开该函数后就是无效的,再使用就会报错。 示例 int f1(int a){int b,c; //a,b,c仅在函数f1()内有效return abc; } int ma…