模式识别与机器学习笔记(二)机器学习的基础理论

机器学习是一门对数学有很高要求的学科,在正式开始学习之前,我们需要掌握一定的数学理论,主要包括概率论、决策论、信息论。

一、极大似然估计(Maximam Likelihood Estimation,MLE )

在了解极大似然估计之前,我们首先要明确什么是似然函数(likelihood function),对于p(x∣θ)p(x|θ)p(xθ)
θθθ是已知,xxx是变量,p(x∣θ)p(x|θ)p(xθ)表示概率函数,描述的是xxx出现的概率是多少;
xxx是已知,θθθ是变量,p(x∣θ)p(x|θ)p(xθ)表示似然函数,描述的是对于不同的模型(θθθ决定)出现样本点xxx的概率是多少。
似然可以理解为概率,只是表征的含义不同,通常利用求极大似然来确定模型参数,极大似然的描述如下:
极大似然估计是一种已知样本,估计参数的方法。通过给定样本集DDD估计假定模型的参数,极大似然估计可以帮助我们从参数空间中选择参数,使该参数下的模型产生DDD的概率最大

1.求解极大似然函数
重要前提:训练样本的分布能够代表样本的真实分布,每个样本集中的样本都是独立同分布的随机变量,并且有充分的训练样本。
已知样本集D={x1,x2,x3,...,xmx_1,x_2,x_3,...,x_mx1,x2,x3,...,xm},{y1,y2,y3,...,ymy_1,y_2,y_3,...,y_my1,y2,y3,...,ym},则似然函数表示为
L(θ)=p(y∣x;θ)=∏i=1mp(y(i)∣x(i);θ)L(θ)=p(y|x;θ)=\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ)L(θ)=p(yx;θ)=i=1mp(y(i)x(i);θ)
确定θθθ使模型出现样本集D的概率(表示为条件概率)最高即为我们所求,即
θ=argmaxL(θ)=argmax∏i=1mp(y(i)∣x(i);θ)θ=argmaxL(θ)=argmax\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ)θ=argmaxL(θ)=argmaxi=1mp(y(i)x(i);θ)
为便于计算与分析,定义了对数似然函数H(θ)=logL(θ)H(θ)=logL(θ)H(θ)=logL(θ)θ=argmax∑i=1mlogp(y(i)∣x(i);θ)θ=argmax\displaystyle\sum_{i=1}^{m}logp(y^{(i)}|x^{(i)};θ)θ=argmaxi=1mlogp(y(i)x(i);θ),现在我们确定了目标函数H(θ)H(θ)H(θ),需要求得一组θθθ使H(θ)H(θ)H(θ)最大,可以通过求导数的方法解决这个问题,以高斯分布的参数估计(Gaussian Parameter Estimation)为例,求解过程如下,
设样本服从正态分布N(μ,σ2)N(μ,σ^2)N(μ,σ2),首先写出似然函数L(μ,σ2)=p(x;μ,σ2)=∏n=1NN(xn;μ,σ2)L(μ,σ^2)=p(x;μ,σ^2)=\displaystyle\prod_{n=1}^{N}N(x_n;μ,σ^2)L(μ,σ2)=p(x;μ,σ2)=n=1NN(xn;μ,σ2)

L(μ,σ2)L(μ,σ^2)L(μ,σ2)的对数为:

求导,得方程组:

解得:

       

2.误差平方和的解释
在模式识别与机器学习(一)中我们讲到采用误差平方和原理来求解多项式系数,为何使用误差平方和作为衡量模型精度的标准呢?用极大似然估计可以解释。
我们观察下图,这是上一节课中讲到的多项式曲线拟合模型,红色曲线代表拟合结果,蓝色点代表样本点。

我们把每一个xxx看作独立的随机变量,对应的样本点ttt服从均值为y(x0,w)y(x_0,w)y(x0,w)的正态分布(一般来讲,误差服从均值为零的正态分布,平移y(x0,w)y(x_0,w)y(x0,w)个单位),即p(t∣x0,w,β)=N(t∣y(x0,w),β−1)p(t|x_0,w,β)=N(t|y(x_0,w),β^{-1})p(tx0,w,β)=N(ty(x0,w),β1),利用极大似然估计,使ttt出现的概率最大,p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)p(t|x,w,β)=\displaystyle\prod_{n=1}^{N}N(t_n|y(x_n,w),β^{-1})p(tx,w,β)=n=1NN(tny(xn,w),β1)ln⁡p(t∣x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2ln⁡β−N2ln⁡(2π)\ln p(t|x,w,β)=-\frac{β}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{N}{2}\lnβ-\frac{N}{2}\ln(2π)lnp(tx,w,β)=2βn=1N{y(xn,w)tn}2+2Nlnβ2Nln(2π),观察此式,我们想要求得此式的极大值,则需使12∑n=1N{y(xn,w)−tn}2\frac{1}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^221n=1N{y(xn,w)tn}2取得最小值,得证。

极大似然估计是三种机器学习方法中最基础的一种,其余两种分别是贝叶斯估计方法和贝叶斯学习方法,极大似然估计和贝叶斯估计的计算结果是精确的参数值,而贝叶斯学习的计算结果是概率区间,在后边我们会单独一章细致地进行学习,这三种方法是机器学习的主线,掌握这三种方法的原理才能对后边各种模型的学习和理解游刃有余。

3.贝叶斯估计(最大后验概率,MAP)
我们需要知道,使用极大似然估计方法容易使模型产生过拟合,在上一章中我们解决的办法是增加正则项,并且证明了正则项有效地解决了过拟合问题。现在我们尝试从贝叶斯估计的角度推导出正则项的由来与合理性。

由贝叶斯公式我们得知,posterior∝likelihood×priorposterior∝likelihood×priorposteriorlikelihood×prior,即后验概率可由似然与先验概率相乘得到,之前讲到的极大似然估计,我们仅仅用到了likelihoodlikelihoodlikelihood,现在我们假设参数有一个先验概率,如此便可通过公式求得后验概率,接下来与极大似然类似的,使后验概率最大,求得模型参数。
假定对参数www,先验概率为p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp{−α2wTw}p(w|α)=N(w|0,α^{-1}I)=(\frac{α}{2π})^{(M+1)/2}exp\{-\frac{α}{2}w^Tw\}p(wα)=N(w0,α1I)=(2πα)(M+1)/2exp{2αwTw},
根据贝叶斯公式,求得后验概率p(w∣x,t,α,β)∝p(t∣x,w,β)×p(w∣α)p(w|x,t,α,β)∝p(t|x,w,β)×p(w|α)p(wx,t,α,β)p(tx,w,β)×p(wα),将似然函数与先验概率带入式中得到后验概率的数学表达式。欲使后验概率获得最大值,等价于βE(w)=β2∑n=1N{y(xn,w)−tn}2+α2wTwβE(w)=\frac{β}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{α}{2}w^TwβE(w)=2βn=1N{y(xn,w)tn}2+2αwTw取得最小值,我们发现,表达式中α2wTw\frac{α}{2}w^Tw2αwTw即为前述的正则项,得证。
极大似然估计易导致过拟合,贝叶斯估计为参数提供了先验概率,形式上增加了正则函数,结果上抑制了过拟合的产生

二、概率论基础(Probability Theory)

1.p(X)=∑Yp(X,Y)p(X)=\displaystyle\sum_Yp(X,Y)p(X)=Yp(X,Y)         p(X,Y)=p(Y∣X)p(X)p(X,Y)=p(Y|X)p(X)p(X,Y)=p(YX)p(X)
2.贝叶斯理论(Bayes’Theorem)
p(Y∣X)=p(X∣Y)p(Y)p(X)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}p(YX)=p(X)p(XY)p(Y)           posterior∝likelihood×priorposterior∝likelihood×priorposteriorlikelihood×prior
3.概率函数
累积分布函数:描述随机变量取值分布规律的数学表示,表示对于任何实数xxx,事件X&lt;xX&lt;xX<x的概率。
概率密度函数:描述随机变量的输出值,在某个确定的取值点附近的可能性的函数。随机变量的取值落在某个区域之内的概率为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数表示的是概率的分布情况,在某个点取值高说明样本在该点附近出现的概率大

p(x)p(x)p(x)表示概率密度函数,P(x)P(x)P(x)表示概率分布函数。
p(x∈(a,b))=∫abp(x)dxp(x∈(a,b))=\int_a^bp(x)dxp(x(a,b))=abp(x)dx           p(x)≥0p(x)≥0p(x)0           ∫−∞∞p(x)dx=1\int_{-∞}^{∞}p(x)dx=1p(x)dx=1           P(z)=∫−∞zp(x)dxP(z)=\int_{-∞}^{z}p(x)dxP(z)=zp(x)dx

数学期望:试验中每次可能结果的概率乘以其结果的总和,数学期望可以理解为均值。
E[f]=∑xp(x)f(x)E[f]=\displaystyle\sum_xp(x)f(x)E[f]=xp(x)f(x)           E[f]=∫p(x)f(x)dxE[f]=\int p(x)f(x)dxE[f]=p(x)f(x)dx
4.高斯分布(Gaussian Distribution)
若随机变量X服从一个数学期望为μμμ、标准方差为σ2σ^2σ2的高斯分布,记为:XXX~N(μ,σ2)N(μ,σ^2)N(μ,σ2),概率密度如下图所示,

N(x∣μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2}N(x|μ,σ^2)=\frac{1}{(2πσ^2)^{1/2}}exp\{-\frac{1}{2σ^2}(x-μ)^2\}N(xμ,σ2)=(2πσ2)1/21exp{2σ21(xμ)2}           N(x∣μ,σ2)&gt;0N(x|μ,σ^2)&gt;0N(xμ,σ2)>0           ∫−∞∞N(x∣μ,σ2)dx=1\int_{-∞}^{∞}N(x|μ,σ^2)dx=1N(xμ,σ2)dx=1
E[x]=∫−∞∞N(x∣μ,σ2)xdx=μE[x]=\int_{-∞}^{∞}N(x|μ,σ^2)xdx=μE[x]=N(xμ,σ2)xdx=μ           E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2E[x^2]=\int_{-∞}^{∞}N(x|μ,σ^2)x^2dx=μ^2+σ^2E[x2]=N(xμ,σ2)x2dx=μ2+σ2
二元高斯分布如下图所示,

三、信息熵(Entropy)

信息熵在编码学、统计学、物理学、机器学习中有很重要的应用,我们有必要对信息熵的相关知识具备一定程度的了解。

1.信息量
信息量用一个信息的编码长度来定义,一个信息的编码长度与其出现概率是呈负相关的,可以理解为为使总信息编码量最低,出现高概率的的信息编码长度应相对短,也就是说,一个词出现的越频繁,则其编码方式也就越短。信息量计算方法为,
I=log⁡2(1p(x))=−log⁡2(p(x))I=\log_2(\frac{1}{p(x)})=-\log_2(p(x))I=log2(p(x)1)=log2(p(x))

2.信息熵
信息熵代表一个分布的信息量(信息量的均值),或者编码的平均长度,
H(p)=∑xp(x)log⁡2(1p(x))=−∑xp(x)log⁡2(p(x))H(p)=\displaystyle\sum_xp(x)\log_2(\frac{1}{p(x)})=-\displaystyle\sum_xp(x)\log_2(p(x))H(p)=xp(x)log2(p(x)1)=xp(x)log2(p(x))
从数学公式中可以看出,信息熵实际上是一个随机变量的信息量的数学期望,那么信息熵的含义是什么呢?信息熵是系统有序化程度的度量,系统越有序,信息熵越低,也就是说,系统中各种随机性的概率越均等,不确定性越高,信息熵越大,反之越小。为什么有这种对应关系呢?我们假设系统有两个事件AAABBB,当P(A)=P(B)=12P(A)=P(B)=\frac{1}{2}P(A)=P(B)=21时,我们无法判断会发生事件AAA还是BBB,这时系统的不确定性高、系统无序;当P(A)=99100P(A)=\frac{99}{100}P(A)=10099P(B)=1100P(B)=\frac{1}{100}P(B)=1001,此时大概率发生事件AAA,系统具有一定的确定性、相对有序。前者信息熵高,后者信息熵低。
接下来我们举一个信息熵计算的例子,如下所示,

H(p)=−12log⁡212−14log⁡214−18log⁡218−116log⁡2116−464log⁡2164=2bitsH(p)=-\frac{1}{2}\log_2\frac{1}{2}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}-\frac{1}{16}\log_2\frac{1}{16}-\frac{4}{64}\log_2\frac{1}{64}=2bitsH(p)=21log22141log24181log281161log2161644log2641=2bits

averageaverageaverage codecodecode lengthlengthlength=12×1+14×2+18×3+116×4+4×116×6=2bits=\frac{1}{2}×1+\frac{1}{4}×2+\frac{1}{8}×3+\frac{1}{16}×4+4×\frac{1}{16}×6=2bits=21×1+41×2+81×3+161×4+4×161×6=2bits
信息熵代表编码的平均长度。

3.相对熵(KL散度)
相对熵又称KL散度,对于同一个随机变量xxx有两个单独的概率分布p(x)p(x)p(x)q(x)q(x)q(x),我们可以用KL散度(Kullback-Leibler Divergence)来衡量这两个分布的差异。在机器学习中,P表示样本的真实分布,Q表示模型预测的分布。
KL散度的计算公式为:pppqqq的相对熵DKL(p∣∣q)=∑i=1np(xi)log⁡(p(xi)q(xi))D_{KL}(p||q)=\displaystyle\sum_{i=1}^{n}p(x_i)\log(\frac{p(x_i)}{q(x_i)})DKL(pq)=i=1np(xi)log(q(xi)p(xi))DKLD_{KL}DKL的值越小,表示qqq分布和ppp分布越接近。

4.交叉熵(cross-entropy)
DKLD_{KL}DKL可以变形得到DKL=∑i=1np(xi)log⁡p(xi)−∑i=1np(xi)log⁡q(xi)=−H(p(x))+[−∑i=1np(xi)log⁡q(xi)]D_{KL}=\displaystyle\sum_{i=1}^np(x_i)\log p(x_i)-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)=-H(p(x))+[-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)]DKL=i=1np(xi)logp(xi)i=1np(xi)logq(xi)=H(p(x))+[i=1np(xi)logq(xi)],等式的前一部分是ppp的信息熵,等式的后一部分就是交叉熵,
H(p,q)=−∑i=1np(xi)log⁡q(xi)H(p,q)=-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)H(p,q)=i=1np(xi)logq(xi)。在机器学习中,需要评估labellabellabelpredictpredictpredict之间的差距,应使用相对熵来衡量,由于DKLD_{KL}DKL的前一部分不变,所以在优化过程中,只需关注交叉熵即可,因此在机器学习中常常用交叉熵作为losslossloss来评估模型。

未完待续

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492585.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cell Stem Cell:研究人员开发出大脑类器官用于研究认知障碍!

图片来源&#xff1a;Cell Stem Cell来源&#xff1a;细胞摘要&#xff1a;来自耶鲁大学的研究人员近日在实验室培养皿中模拟了两种大脑结构以及它们之间的相互作用&#xff0c;为揭示神经精神疾病的起因带来了曙光。耶鲁大学遗传学副教授In-Hyun Park及其团队创造了大脑中丘脑…

图像处理与图像识别笔记(一)

本系列是研一课程《图像处理与图像识别》的随堂笔记&#xff0c;主要内容是数字图像处理方面&#xff0c;根据老师的讲课内容与自己的理解所书写&#xff0c;还会有一些具体实现的代码&#xff0c;基于Python&#xff0c;欢迎交流。本篇主要介绍图像处理与图像识别的基础知识。…

java日期处理总结

1.java.sql.Date 从数据库中取出的日期格式(rs.getDate())是java.sql.Date&#xff0c;这是java.util.Date的子类。查询API后发现可用的方法很少。包含构造只有4个&#xff1a; Date(long date) 使用给定毫秒时间值构造一个 Date 对象。voidsetTime(long date) …

神经网络的黎明

来源&#xff1a;中信出版社摘要&#xff1a;任何人工智能的难题都可以被解决。唯一能证明这一论断成立的是这样一个事实&#xff1a;自然界通过进化已经解决了这些难题。但在20 世纪50年代就已经存在各种暗示&#xff0c;如果AI 研究者能够选择完全不同于符号处理的方式&#…

计算机视觉(一)概述

一、什么是计算机视觉 计算机视觉(Computer Vision)是一门如何使计算机“看”的学问&#xff0c;让摄像头和电脑代替人眼对目标进行识别、跟踪、测量等机器视觉。计算机视觉能够模拟人类视觉的优越的能力&#xff0c;如识别物体、估计立体空间与距离、躲避障碍、理解图像、想象…

图像处理与图像识别笔记(二)图像变换

在本章节中&#xff0c;将介绍几种常用的图像变换的方法&#xff0c;即利用数学公式将图像变换成另一种具有特定物理意义的图像&#xff0c;通过新的图像&#xff0c;我们可以观察出原图像的某些特性&#xff0c;且可以对原图像进行滤波、压缩等图像处理的操作&#xff0c;包括…

图解|2018年度中国科学十大进展

来源&#xff1a;锐科技 2019年2月27日&#xff0c;科技部基础研究管理中心召开“2018年度中国科学十大进展专家解读会”&#xff0c;发布了2018年度中国科学十大进展。以下10项重大科学进展入选&#xff1a;01 基于体细胞核移植技术成功克隆出猕猴02 创建出首例人造单染色体真…

《麻省理工学院技术评论》评出最新十大突破性技术

来源&#xff1a;新华网摘要&#xff1a;全球知名科技评论期刊《麻省理工学院技术评论》27日发布2019年“全球十大突破性技术”&#xff0c;灵巧机器人、核能新浪潮、定制癌症疫苗、人造肉汉堡等入选。这份期刊的中文版官网当天发布公报说&#xff0c;今年是该杂志创刊120周年&…

图像处理与图像识别笔记(三)图像增强1

图像增强的目的是为了改善图像的视觉效果&#xff0c;为了更便于人或机器的分析和处理&#xff0c;在不考虑图像降质&#xff08;前提&#xff09;的情况下&#xff0c;提高图像的可观性。灰度变换是一种典型的图像增强方法&#xff0c;我们通常把图像处理按照处理方法分成空域…

图像处理与图像识别笔记(五)图像增强2

上一节中我们讲解了灰度变换的原理以及实现方法&#xff0c;本节我们讲解空域滤波增强&#xff0c;与灰度变换相同&#xff0c;空域滤波增强是一种空域处理的方法&#xff0c;不过空域滤波不是一种对点做处理的方法&#xff0c;而是利用相邻像素间的关系进行增强。空域滤波可以…

欧洲两个研究团队开发出了让截肢者能感觉到并准确抓住物体的仿生手

来源&#xff1a;IEEE电气电子工程师学会摘要&#xff1a;在过去十年中&#xff0c;研究人员在开发能给用户提供触觉和压力感的触觉传感器方面取得了很大进展。如在你旁边正好有一个咖啡杯&#xff0c;那么拿起这个杯子&#xff0c;并注意下在不真正看着它的情况下做这件事有多…

【转】eclipse中egit插件使用

原文网址&#xff1a;http://my.oschina.net/songxinqiang/blog/192567 eclipse和git这个两个工具的使用人数都是相当多的&#xff0c;在eclipse里面也有egit插件来支持eclipse中使用git&#xff0c;但是网上的相关说明都是简单使用&#xff0c;或者没有说明白一些具体的问题&a…

全球AI芯片投资版图公开!机会都在这五大场景

来源&#xff1a;智东西摘要&#xff1a;过去一年&#xff0c;随着人工智能在各个行业的逐步落地&#xff0c;AI芯片的发展路径逐渐明朗。在行业走过野蛮生长&#xff0c;开始加速落地、加速整合的过程中&#xff0c;也有更多的AI芯片公司也开始走出属于自己的差异化路线。我们…

图像处理与图像识别笔记(六)图像增强3

上一章节中我们讲解了空域滤波的图像增强方法&#xff0c;包括图像的平滑和锐化&#xff0c;本文中&#xff0c;我们首先带来频域滤波的图像增强方法&#xff0c;指在频域中对图像进行变换&#xff0c;需要的基础知识是前述过的图像傅里叶变换&#xff0c;请查看学习。 一、频…

初探数位DP-hdu2089

一开始刷dp就遇到了数位dp&#xff0c;以前程序设计艺术上看过一点&#xff0c;基本没懂&#xff0c;于是趁今天遇到题目&#xff0c;想把它搞会&#xff0c;但就目前状态来看仍然是似懂非懂啊&#xff0c;以后还要反复搞 统计区间[l,r]的满足题意的数的个数&#xff0c;可以转…

自动驾驶的疑点重重, 再次印证了科技的「非理性繁荣」

来源&#xff1a;悟空智能科技特斯拉 CEO 马斯克对全自动驾驶的短期实现&#xff0c;有着近乎疯狂的执念。最近&#xff0c;他又在第四季度财报的电话会议上表示&#xff0c;特斯拉汽车在今年年底前能实现全自动驾驶&#xff0c;无需人类干预。马斯克还表示&#xff0c;特斯拉在…

Truncated SVD for faster dection

Truncated SVD方法最先被提出在《Fast R-CNN》论文中&#xff0c;用于降低全连接层的运算量&#xff0c;提升模型的速度。在卷积神经网络的分类任务中&#xff0c;FC层的运算速度远远大于CONV层&#xff0c;而在Fast R-CNN的目标检测任务中&#xff0c;大多数的运算时间发生在F…

CSS学习-网页导航栏

用ul制作网页导航栏 <!DOCTYPE html> <html><head><style>ul {list-style-type: none;margin: 0;padding: 0;width: 800px;overflow: hidden;}li {float: left;}a {display: block;width: 120px;font-weight: bold;color: #FFFFFF;border-right: 1px s…

自动驾驶技术如何升级?这份技能图谱为你指路

来源&#xff1a;AI前线自动驾驶技术在过去的一年里发展十分迅速&#xff0c;无论控制系统的升级还是高清地图的泛用&#xff0c;无不在推动自动驾驶的落地。再加上开源框架的进一步成熟&#xff0c;V2X 的落地实践&#xff0c;传感器融合更强等多重因素的影响下&#xff0c;自…

Gradient Descent

梯度下降是我们在训练神经网络时用于训练参数的方法&#xff0c;本文总结了目前常用的几种梯度下降算法&#xff0c;包括原理、公式推导、解决的问题&#xff0c;主要要SGD、Momentum、NAG、AdaGrad、AdaDelta、RMSProp、Adam&#xff0c;先贴上手写的笔记&#xff0c;有时间再…