模式识别与机器学习笔记(一)

本系列博文是对研一课程《模式识别与机器学习》的随堂笔记,希望将老师所讲的与自己的见解记录下来,方便加深自己的理解以及以后复习查看,笔记完全按照老师所讲顺序,欢迎交流。

一、模式识别与机器学习的基本问题

机器学习主要解决以下四类问题:
1.监督学习:指的是训练的数据既包括特征(feature)又包括标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。监督学习主要分为两类,分别为回归问题(Regression)与分类问题(Classification)。回归问题的目标是通过对已有数据的训练拟合出恰当的函数模型,分类问题的目标是通过分析数据的特征向量与对应类别标签的关系,对于一个新的特征向量得到其类别。两者的区别是回归针对连续数据,分类针对离散数据。

2.非监督学习:指的是在未加标签的数据中,找到隐藏的结构,由于提供给学习者的实例是未标记的,因此没有错误信号(损失)来评估潜在的解决方案。典型的非监督学习类型包括聚类(Cluster)、隐马尔可夫模型、使用特征提取的技术降维(主成分分析)。

3.半监督学习:所给的数据有的是有标签的,而有的是没有标签的,试图利用大量的未标记示例来辅助对少量有标记示例的学习,常见的两种半监督的学习方式是直推学习(Transductive learning)和归纳学习(Inductive learning)。

4.强化学习(Reinforcement learning):指的是机器以“试错”的方式进行学习,通过与环境交互获得奖赏指导行为,目标是使机器获得最大的奖赏。强化学习中由环境提供的强化信号对产生动作的好坏作评价,而不是告诉机器如何去产生正确的动作。

二、多项式曲线拟合(Polynomial Curve Fitting)实例

本课程讲述的机器学习算法多为监督学习算法和非监督学习算法,此处用多项式曲线拟合的例子来简述监督学习的过程,作为全文开篇的算法来讲解机器学习的共通性。

1.问题描述

输入变量:x ,目标变量:t , 生成过程:实际问题中是未知的 , 给定训练样本:xt

前文讲述过监督学习是指训练的数据既包括特征,又包括标签。在本例中,输入变量x即为数据特征,目标变量t即为标签,我们给定训练样本:xt。生成过程也就是我们将使用的带有参数的待拟合模型(实际问题中是未知的,需要根据人为的经验选取合适的模型),本例中采用的模型为多项式模型,公式如下,

我们的目标是当给定新的x值时,能够通过此模型预测t的值,也就是说,我们需要利用给定的训练样本,估计模型中的参数w。如何计算出最佳的w值?采用误差平方和最小的原理,即

         

2.求解问题

问题中,参数w的个数M是模型的关键,我们假定有10个训练样本,分别取M=0,1,3,9来观察模型的拟合情况。

当M=0,1时,模型的效果很差,很多点不在曲线上;当M=3时,模型效果良好,红色线与绿色线基本一致;当M=9时,虽然所有训练数据均在曲线上,但模型效果极差,红色线与绿色线差别极大(10个方程,9个未知数,相当于模型有确定的解),这种情况称为过拟合(Over-fitting),与之相对应的是欠拟合(Under-fitting)。我们对M取值的不同情况进行考察,得到如下的结果,

此处的ERMSE_{RMS}ERMS为均方误差(root-mean-square),

当M=9时,此时的训练误差很小(为零),而测试误差很大,这种情况我们称为过拟合;相对应的,欠拟合是由于训练量少导致的训练误差很大的情况。可见,当参数数量很多时,接近或超过训练数据的数量,会导致过拟合,也就是说,模型复杂度越高过拟合越容易发生。对于一个模型来说,如果它能够对没见过的数据做出预测,我们就说它能够从训练集泛化到测试集,我们的目标是构造出泛化精度尽可能高的模型。在欠拟合与过拟合间存在一个最佳泛化模型,

上述是采用10个训练样本和9个模型参数的情况,我们尝试增加训练样本的数量,观察训练结果,

    

我们发现,训练样本数量越多,模型的拟合效果越好,同时解决了过拟合的问题,说明增加数据集有效地解决了模型复杂度过高导致的过拟合问题。由此可以看出,模型复杂度与训练集输入的变化密切相关,当我们选择模型时,数据集中包含的数据点的变化范围越大,在不发生过拟合的前提下可以使用的模型就越复杂

观察训练后的模型参数,发生过拟合情况下的参数往往非常大,原因是拟合函数需要考虑每一个训练样本点,最终形成的拟合函数波动很大,在某些很小的区间里函数值的变化很剧烈,意味着在某些区间的函数导数值的绝对值会非常大,只有参数(系数)足够大,导数的绝对值才能更大。

为了约束参数的范围,采用正则化 的方法,可以在一定程度上减少过拟合的情况。

在损失函数尾部所加的计算式即为正则项,直观上来看正则项缓解了www的变化,可以假设当E(w)E(w)E(w)有同样的ΔE(w)ΔE(w)ΔE(w)时,由于正则项始终为正,分担了一部分的E(w)E(w)E(w)的变化,相对于不加上正则项,减缓了由于原损失函数项C0C_0C0导致的www的变化(个人理解)。严格的数学推导如下,

CCC为添加正则项后的损失函数,采用梯度下降法进行求解,

其中,η、λ、nη、λ、nηλn都是正的,所以 1−ηλ/n1−ηλ/n1ηλ/n小于1,它的效果是减小www(直接减小了www的值,防止过大或过小,限制www的范围)。
λλλ是超参数,需要人为设置,当λ=0λ=0λ=0时相当于不加入正则项,设置不同的λλλ有如下不同的结果,

模型参数值如下,

正则化有效的缓解了模型的过拟合问题,解决途径:添加正则项→限制参数→解决过拟合

未完待续

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492588.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重磅推荐:中国人工智能趋势报告(完整版)

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云…

模式识别与机器学习笔记(二)机器学习的基础理论

机器学习是一门对数学有很高要求的学科,在正式开始学习之前,我们需要掌握一定的数学理论,主要包括概率论、决策论、信息论。 一、极大似然估计(Maximam Likelihood Estimation,MLE ) 在了解极大似然估计之…

Cell Stem Cell:研究人员开发出大脑类器官用于研究认知障碍!

图片来源:Cell Stem Cell来源:细胞摘要:来自耶鲁大学的研究人员近日在实验室培养皿中模拟了两种大脑结构以及它们之间的相互作用,为揭示神经精神疾病的起因带来了曙光。耶鲁大学遗传学副教授In-Hyun Park及其团队创造了大脑中丘脑…

图像处理与图像识别笔记(一)

本系列是研一课程《图像处理与图像识别》的随堂笔记,主要内容是数字图像处理方面,根据老师的讲课内容与自己的理解所书写,还会有一些具体实现的代码,基于Python,欢迎交流。本篇主要介绍图像处理与图像识别的基础知识。…

java日期处理总结

1.java.sql.Date 从数据库中取出的日期格式(rs.getDate())是java.sql.Date,这是java.util.Date的子类。查询API后发现可用的方法很少。包含构造只有4个: Date(long date) 使用给定毫秒时间值构造一个 Date 对象。voidsetTime(long date) …

神经网络的黎明

来源:中信出版社摘要:任何人工智能的难题都可以被解决。唯一能证明这一论断成立的是这样一个事实:自然界通过进化已经解决了这些难题。但在20 世纪50年代就已经存在各种暗示,如果AI 研究者能够选择完全不同于符号处理的方式&#…

计算机视觉(一)概述

一、什么是计算机视觉 计算机视觉(Computer Vision)是一门如何使计算机“看”的学问,让摄像头和电脑代替人眼对目标进行识别、跟踪、测量等机器视觉。计算机视觉能够模拟人类视觉的优越的能力,如识别物体、估计立体空间与距离、躲避障碍、理解图像、想象…

图像处理与图像识别笔记(二)图像变换

在本章节中,将介绍几种常用的图像变换的方法,即利用数学公式将图像变换成另一种具有特定物理意义的图像,通过新的图像,我们可以观察出原图像的某些特性,且可以对原图像进行滤波、压缩等图像处理的操作,包括…

图解|2018年度中国科学十大进展

来源:锐科技 2019年2月27日,科技部基础研究管理中心召开“2018年度中国科学十大进展专家解读会”,发布了2018年度中国科学十大进展。以下10项重大科学进展入选:01 基于体细胞核移植技术成功克隆出猕猴02 创建出首例人造单染色体真…

《麻省理工学院技术评论》评出最新十大突破性技术

来源:新华网摘要:全球知名科技评论期刊《麻省理工学院技术评论》27日发布2019年“全球十大突破性技术”,灵巧机器人、核能新浪潮、定制癌症疫苗、人造肉汉堡等入选。这份期刊的中文版官网当天发布公报说,今年是该杂志创刊120周年&…

图像处理与图像识别笔记(三)图像增强1

图像增强的目的是为了改善图像的视觉效果,为了更便于人或机器的分析和处理,在不考虑图像降质(前提)的情况下,提高图像的可观性。灰度变换是一种典型的图像增强方法,我们通常把图像处理按照处理方法分成空域…

图像处理与图像识别笔记(五)图像增强2

上一节中我们讲解了灰度变换的原理以及实现方法,本节我们讲解空域滤波增强,与灰度变换相同,空域滤波增强是一种空域处理的方法,不过空域滤波不是一种对点做处理的方法,而是利用相邻像素间的关系进行增强。空域滤波可以…

欧洲两个研究团队开发出了让截肢者能感觉到并准确抓住物体的仿生手

来源:IEEE电气电子工程师学会摘要:在过去十年中,研究人员在开发能给用户提供触觉和压力感的触觉传感器方面取得了很大进展。如在你旁边正好有一个咖啡杯,那么拿起这个杯子,并注意下在不真正看着它的情况下做这件事有多…

【转】eclipse中egit插件使用

原文网址:http://my.oschina.net/songxinqiang/blog/192567 eclipse和git这个两个工具的使用人数都是相当多的,在eclipse里面也有egit插件来支持eclipse中使用git,但是网上的相关说明都是简单使用,或者没有说明白一些具体的问题&a…

全球AI芯片投资版图公开!机会都在这五大场景

来源:智东西摘要:过去一年,随着人工智能在各个行业的逐步落地,AI芯片的发展路径逐渐明朗。在行业走过野蛮生长,开始加速落地、加速整合的过程中,也有更多的AI芯片公司也开始走出属于自己的差异化路线。我们…

图像处理与图像识别笔记(六)图像增强3

上一章节中我们讲解了空域滤波的图像增强方法,包括图像的平滑和锐化,本文中,我们首先带来频域滤波的图像增强方法,指在频域中对图像进行变换,需要的基础知识是前述过的图像傅里叶变换,请查看学习。 一、频…

初探数位DP-hdu2089

一开始刷dp就遇到了数位dp,以前程序设计艺术上看过一点,基本没懂,于是趁今天遇到题目,想把它搞会,但就目前状态来看仍然是似懂非懂啊,以后还要反复搞 统计区间[l,r]的满足题意的数的个数,可以转…

自动驾驶的疑点重重, 再次印证了科技的「非理性繁荣」

来源:悟空智能科技特斯拉 CEO 马斯克对全自动驾驶的短期实现,有着近乎疯狂的执念。最近,他又在第四季度财报的电话会议上表示,特斯拉汽车在今年年底前能实现全自动驾驶,无需人类干预。马斯克还表示,特斯拉在…

Truncated SVD for faster dection

Truncated SVD方法最先被提出在《Fast R-CNN》论文中,用于降低全连接层的运算量,提升模型的速度。在卷积神经网络的分类任务中,FC层的运算速度远远大于CONV层,而在Fast R-CNN的目标检测任务中,大多数的运算时间发生在F…

CSS学习-网页导航栏

用ul制作网页导航栏 <!DOCTYPE html> <html><head><style>ul {list-style-type: none;margin: 0;padding: 0;width: 800px;overflow: hidden;}li {float: left;}a {display: block;width: 120px;font-weight: bold;color: #FFFFFF;border-right: 1px s…