计算机基础知识菜鸟教程,机器学习基础知识整理归纳

关于机器学习的一些基本概念的整理

1.前言

1.机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义,假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法(learning algorithm)。“数据”即是现实生活中的“经验”。

关于产生的模型(model),可以泛指从数据中学得的结果。但也有不同说法。Hand在2001年发表的一篇文献中就提到,模型是全局结果(例如一颗决策树),模式指的是局部性结果(例如一条规则)。

2. 基本术语

引例,假设搜集到一些关于西瓜的数据(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆),......

上述引例中,每对括号内是关于西瓜的(也可是任何一个事件或者对象的)一条记录,则有:

数据集 (data set): 一组记录的集合

示例/样本(instance/sample):上述都每一条记录,均可称为示例/样本

属性/特征(attribute/feature):反映事件或者对象在某方面的表现或者性质的事项。例如上述色泽,根蒂,敲声

属性值(attribute value): 属性上的取值,例如青绿,乌黑,等等

特征向量(feature vector): 属性空间上每一个点相对原点构成的坐标向量

样本维数(sample dimensionality): 每一个样本(示例)所包含的不同属性的数量

学习/训练(learning/training) : 从数据中学得模型的过程

训练数据(training data): 训练过程中使用的数据

训练样本(training sample): 训练数据中的样本

训练集(training set): 训练样本的集合

假设(hypothesis): 值得是学得模型。因为这个模型对应了关于数据的某种潜在规律

真相/真实(ground-truth): 潜在规律本身

标记(label): 训练样本的结果信息

样例(example): 拥有了标记信息的示例。一般的,用((x_i,y_i))来表示第i个样例。其中(y_i)是示例(x_i)的标记

标记空间/输出集合(label space): 所有标记的集合

属性空间/样本空间/输入空间(attribute/sample space): 属性张成的空间。例如,如果把色泽,根蒂,敲声作为三个坐标轴,则他们张成一个用于描述西瓜的三维空间,每个西瓜都可以找到自己的位置。

分类(classification): 在关于利用训练集学得的预测模型中,预测值是离散值。这样的学习任务称为分类

回归(regression): 与分类相似,只是预测值是连续值

({color{red} 补充一句:(预测的任务是希望通过对训练集{(x_1,y_1),(x_2,y_2),...}进行学习,建立一个从输入空间到输出空间的映射关系)})

二分类任务(binary classification): 预测结果只有两个类别。通常将其中的一个称为正类(positive class),另一个称为反类(negative class)。而涉及多个,类别则称为多分类(multi-class)任务

测试(testing): 学得模型以后,使用其进行预测的过程

测试样本(testing sample): 被预测的样本,例如,在学得(mathit{f}) 以后,对测试例(x_i) 可得到其预测标记(y=f(x_i))

聚类(clustering): 将训练集中的示例分成若干组,每组称为一个簇(cluster)。这些自动形成的簇可能对应一些潜在的概念划分,例如本例中的西瓜可以分成浅色瓜,深色瓜...在聚类学习中,这些浅色瓜,深色瓜的概念事先是不知道的,而且学习过程中使用的训练样本通常也没有标记信息

学习任务大致可以划分成两类:

(1)监督学习(supervised learning):训练数据带有标记,例如分类与分归

(2)无监督学习(unsupervised learning):训练数据不带有标记,例如聚类

泛化能力: 学得模型适用于新样本的能力

(目前机器学习仍然假设样本空间的全体样本满足独立同分布假设,因此经典概率论得以适用)

3.假设空间

前言:归纳(induction)和假设(deduction)是科学推理的两大基本手段。前者是从特殊到一般的泛化(generalization),即从具体的事实归结出一般性规律;后者则是从一般到特殊的特化(specialization)过程,即从基础原理推演出具体状况。 在机器学习中,“从样例中学习”显然是一个归纳过程。因此,又被称为归纳学习(inductive learning)

广义的归纳学习:相当于从样例中学习

狭义的归纳学习:从训练数据中学得概念(concept)。因此也称为“概念学习”或者“概念形成” .概念学习中最基本的是布尔概念学习,即是或者不是的结果表述

假设空间(hypothesis space): 所有假设组成的空间

我们可以将学习的过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的样本判断正确的假设,假设的表示一旦确定,假设空间及其规模大小就确定了。

可以有许多策略对假设空间进行搜索,搜索过程中可以不断删除与正例不一致的假设,或者与反例一致的假设。最终将会获得与训练集一致的假设,就这是学得的结果。

版本空间(version space):现实生活中,我们常常面临很大的假设空间,但是学习的过程是基于有限的样本训练集进行的,因此,可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,这个假设集合就是版本空间

4.归纳偏好

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。偏好要起作用,是发生在形成版本空间的时候。而学习算法又必须产生一个模型。这样,偏好会起作用

({color{red}任何一个有效的机器学习算法都必有其偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生正确的学习结果}) 对于归纳偏好的看法: 归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。有一个一般性的原则来引导算法确立正确的偏好,即

奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选择最简单的那个。({color{red}然而奥卡姆原则并非唯一可用原则})

事实上,归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好的假设"。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

假设学习算法(zeta_a) 是基于某种归纳偏好产生的模型,学习算法(zeta_b)是基于另一种归纳偏好产生的模型。对于学习算法(zeta_a)若它在某些问题上比学习算法(zeta_b)好,则必然存在一个问题,(zeta_a)比(zeta_b)好在哪里?根据NFL定理,无论两种算法怎样产生,两者出错概论的期望是相同的(但是NFL定理前提是,所有问题出现的机会相同,或者所有问题同等重要,但是实际情形我们只需要关注我们目前试图解决的问题即可,因此(zeta_a)与$ zeta_b$ 还是有区别的。NFL定理其实是想说明,脱离具体问题讨论学习算法好坏是无意义的。学习算法自身的归纳偏好与问题是否匹配,往往起到决定性作用。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/304236.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python echo函数_python如何调用php文件中的函数详解

前言python调用php代码实现思路:php文件可通过在terminal中使用php命令行进行调用,因此可使用python开启子进程执行命令行代码。函数所需的参数可通过命令行传递。测试环境1、操作系统:macos10.13.22、php版本:PHP 7.1.7(mac自带)…

今天换了ubuntu10.04

今天换成了ubuntu10.04,开机很快,17秒到登录界面,在我这台dell vostro 1500上很快很快了。快是ubuntu10.04给我的第一印象。至于界面什么的,我真觉得没什么区别,反正我也不开特效,管它呢!反正我…

Jupyter 常见可视化框架的选择

文末有福利!对于以Python作为技术栈的数据科学工作者,Jupyter是不得不提的数据报告工具。可能对于R社区而言,鼎鼎大名的ggplot2是常见的可视化框架,而大家对于Python,以及Jupyter为核心的交互式报告的可个视化方案就并…

AOP(面向切面编程)大概了解一下

前言上一篇在聊MemoryCache的时候,用到了Autofac提供的拦截器进行面向切面编程,很明显能体会到其优势,既然涉及到了,那就趁热打铁,一起来探探面向切面编程。正文1. 概述在软件业,AOP为Aspect Oriented Prog…

es6添加删除class_es6中class类的使用

在es5中我们是使用构造函数实例化出来一个对象,那么构造函数与普通的函数有什么区别呢?其实没有区别,无非就是函数名称用首字母大写来加以区分,这个不用对说对es5有了解的朋友都应该知道。但是es5的这种方式给人的感觉还是不够严谨…

搞定WordPress的日志自动截断

WordPress默认首页显示日志全文,这个很让人受不了,在IC之前就想搞定这个,可是一直没有时间,现在比赛过后,作为休闲,总算是搞定,很多人说用more标签,最后还是用了某位仁兄做的很好的插…

如何选择 WebClient HttpWebRequest HttpClient ?

当我们在用 .NET 调用 RestAPI 时通常有三种选择,分别为:WebClient, HttpWebRequest,HttpClient,这篇文章我们将会讨论如何使用这三种方式去调用 RestAPI,我还会提供相应的代码案例来帮助你更好的理解这三者的概念和使…

gre考试能用计算机么,新GRE考试必须知道的九大考场问题

参加GRE考试须知GRE考场问题1、计算机化GRE考试考场的环境怎样?计算机化考场按照全球统一标准建设,温度适宜,光线充足,隔音效果良好。各个考位由屏风分隔,相对独立。GRE考试须知GRE考场问题2、参加计算机化GRE考试需要携带什么文…

python property setter_Python:动态属性 property setter 以及 __getattr__ 属性

1. property引言:-- 假设有这样一个需求,我们需要创建一个 User 类,并初始化 birthday 参数,之后根据 birthday 计算得到年龄;-- 我们设计下面的代码实现该需求:>>> from datetime import date, d…

机器学习三部曲

随着科技的发展,计算机对人类的生产活动和社会活动产生了极为重要的影响,同时以强大的生命力飞速发展着。目前计算机正广泛用于社会各个领域,并朝着微型化、网络化、智能化和巨型化的方向前进。说到智能化,大家最先想到的应该就是…

AntDesign Pro + .NET Core 实现基于JWT的登录认证

很多同学说AgileConfig的UI实在是太丑了。我想想也是的,本来这个项目是我自己使用的,一开始甚至连UI都没有,全靠手动在数据库里修改数据。后来加上了UI也是使用了老掉牙的bootstrap3做为基础样式。前台框架也是使用了angularjs,同…

武汉大学计算机学院2019考研复试,2019年武汉大学硕士研究生复试及录取名单汇总...

原标题:2019年武汉大学硕士研究生复试及录取名单汇总考生可以通过录取名单了解到很多重要的信息,例如复试比例,进复试最低分,复试录取成绩,录取总评成绩等重要信息。以下是我们整理收集到的各学院复试录取名单汇总&…

ugui unity 取消选择_UGUI中几种不规则按钮的实现方式

前言UGUI中的按钮默认是矩形的,若要实现非矩形按钮该怎么做呢?比如这样的按钮:本文将介绍两种实现方式供大家选择。使用alphaHitTestMinimumThresholdImage类的alphaHitTestMinimumThreshold是一个浮点值,Raycast检测时只有图片中…

你的专业 VS 你妈口中你的专业

亲妈认证★英语语言文学我妈:她就是一个学英语的~我同学:你学英语的啊?那你看美剧不用看字幕的吧?你听英文歌都听得懂的吧?这个怎么翻译啊?这上面写的什么?你不是专八吗?哈喽~ 在吗&…

反射 + 抽象工厂模式切换不同的实现方法

概述工厂模式(Abstract Factory)定义 :提供一个创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类。抽象工厂模式(Abstract Factory Pattern)是围绕一个超级工厂创建其他工厂。该超级工厂又称为其…

计算机应用乘法,计算机系统原理(十) 二进制整数的乘法运算和除法运算

2.5我们着重介绍了二进制整数的加、减运算,本次我们继续介绍乘、除运算。本章是迄今为止最难的一章,希望各位猿友有所收获,也别忘了“点个推荐哦”。引言运算一直是程序运行当中一个重要的环节,而在二进制的运算过程当中&#xff…

3 年工作经验程序员应有的技能

前言因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章。这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发的,因此有一部分内容也是专门面向咱们Java程序员的。第二阶段:五年五…

应急响应中的溯源方法

在发现有入侵者后,快速由守转攻,进行精准地溯源反制,收集攻击路径和攻击者身份信息,勾勒出完整的攻击者画像。 对内溯源与对内溯源 对内溯源:确认攻击者的行为 ,分析日志 数据包等; 对外溯源&…

POP3口令扫描案例

通过本案例可以学到: (1)了解POP3有关知识(2)利用Hscan工具软件来破解POP3账号和口令现在很多邮箱服务器都支持POP3功能,通过POP3来收取信件,收取信件时仅仅需要提供用户名和密码。目前有很多工具可以扫描POP3邮件账号和口令,本案…

中connect怎么用_烘焙中的各种酒,到底该怎么用?

​在烘焙食谱中,经常会出现“酒”这样材料。烘焙中的酒,仿佛是个神秘的存在,品种也繁多得让人一脸懵逼,朗姆酒是干嘛用的?怎么还有分白朗姆和金朗姆?和利口酒有什么区别?利口酒和力娇酒是同一个…