深度学习500问——Chapter01:数学基础

文章目录

前言

1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

1.1.2 张量与矩阵的区别

1.1.3 矩阵和向量相乘结果

1.1.4 向量和矩阵的范数归纳

1.1.5 如何判断一个矩阵为正定

1.2 导数和偏导数

1.2.1 导数偏导计算

1.2.2 导数和偏导数有什么区别

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

1.3.2 奇异值与特征值有什么关系

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率分布

1.4.2 变量与随机变量有什么区别

1.4.3 随机变量与概率分布的联系

1.4.4 离散型随机变量和概率质量函数

1.4.5 连续型随机变量和概率密度函数

1.4.6 举例理解条件概率

1.4.7 联合概率与边缘概率联系区别

1.4.8 条件概率的链式法则

1.4.9 独立性和条件独立性

1.5 常见概率分布

1.5.1 Bernoulli 分布

1.5.2 高斯分布

1.5.3 何时采用正态分布

1.5.4 指数分布

1.5.5 Laplace 分布(拉普拉斯分布)

1.5.6 Dirac 分布和经验分布

1.6 期望、方差、协方差、相关系数

1.6.1 期望

1.6.2 方差

1.6.3 协方差

1.6.4 相关系数

参考文献


前言

深度学习通常又需要哪些数学基础?深度学习里的数学到底难在哪里?通常初学者都会有这些问题,在网络推荐及书本的推荐里,经常看到会列出一系列数学科目,比如微积分、线性代数、概率论、复变函数、数值计算、优化理论、信息论等等。这些数学知识有相关性,但实际上按照这样的知识范围来学习,学习成本会很久,而且会很枯燥。本章我们通过选举一些数学基础里容易混肴的一些概念作以介绍,帮助大家更好的理清这些易混肴概念之间的关系。


1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

标量(scalar)

一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。

向量(vector)

一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量X是第一个元素是X_1,第二个元素是X_2,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。

矩阵(matrix)

矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵的一行,一个特征表示为矩阵的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如$A$

张量(tensor)

在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用$A$来表示“A”。张量$A$中坐标为$(i,j,k)$的元素记作$A_{(i,j,k)}$

四者之间关系:

标量是0阶张量,向量是1阶张量。举例:

标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。

向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。

张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。

1.1.2 张量与矩阵的区别

  • 从代数角度讲,矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排),矩阵是二维的“表格”(分量按照纵横位置排列),那么n阶张量就是所谓的n维“表格”。张量的严格定义是利用线性映射来描述。
  • 从几何角度讲,矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
  • 张量可以用3\times 3矩阵形式来表达。
  • 表示标量的数和表示向量的三维数组也可分别看作1\times 11\times 3的矩阵。

1.1.3 矩阵和向量相乘结果

若使用爱因斯坦求和约定(Einstein summation convention),矩阵AB相乘得到矩阵C可以用下式表示:

a_{ik}*b_{kj}=c_{ij}                    

其中,a_{ik}b_{kj}c_{ij}分别表示矩阵$A, B, C$的元素,k出现两次,是一个哑变量(Dummy Variables),表示对该参数进行遍历求和。而矩阵和向量相乘可以看成是矩阵相乘的一个特殊情况,例如:矩阵B是一个$n \times 1$的矩阵。

1.1.4 向量和矩阵的范数归纳

向量的范数(norm)

定义一个向量为:$\vec{a}=[-5, 6, 8, -10]$。任意一组向量设为$\vec{x}=(x_1,x_2,...,x_N)$。其不同范数求解如下:

向量1的范数:向量的各个元素的绝对值之和,上述向量\vec{a}的1范数结果就是:29。

\| \mathbf{x} \|_1 = \sum_{i=1}^{N} |x_i|

向量2的范数:向量的每个元素的平方和再开平方根,上述\vec{a}的2范数结果就是:15。

\| \mathbf{x} \|_2 = \left( \sum_{i=1}^{N} |x_i|^2 \right)^{\frac{1}{2}}

向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量\vec{a}的负无穷范数结果就是:5。

\| \mathbf{x} \|_{\infty} = \max |x_i|

向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量\vec{a}的正无穷范数结果就是:10。

\| \mathbf{x} \|_{\infty} = \max |x_i|

向量的p范数:

L_p = \| \mathbf{x} \|_p = \left( \sum_{i=1}^{N} |x_i|^p \right)^{\frac{1}{p}}

矩阵的范数

定义一个矩阵:A=[-1, 2, -3; 4, -6, 6]。任意矩阵定义为:A_{m\times n},其元素为a_{ij}

矩阵的范数定义为:

\| A \|_p = \sup_{\mathbf{x} \neq 0} \frac{\| A \mathbf{x} \|_p}{\| \mathbf{x} \|_p}

当向量取不同范数时,相应得到了不同的矩阵范数。

矩阵的1范数(列范数):矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵A的1范数先得到[5,8,9],再取最大的最终结果就是:9。

\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|

矩阵的2范数:矩阵A^TA的最大特征值开平方根,上述矩阵A的2范数先得到最终结果是:10.0623。

\| A \|_2 = \sqrt{\lambda_{\max}(A^TA)}

其中,\lambda_{\max}(A^TA)A^TA的特征值绝对值的最大值。

矩阵的无穷范数(行范数):矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵A的行范数先得到\left [ {6;16} \right ],再取最大的最终结果是:16。

\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|

矩阵的核范数:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A的最终结果就是:10.9287。

矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0越苏越多,也就越稀疏,上述矩阵A的最终结果就是:6。

矩阵的L1范数:矩阵中的每个元素的绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵A的最终结果就是:22。

矩阵的F范数:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的优点在于它是一个凸函数,可以求导求解,易于计算,上述矩阵A的最终结果就是:10.0995。

\|A\|_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^2}

矩阵的L21范数:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵A的最终结果就是:17.1559。

矩阵的p范数:

\|A\|_{p} = \left( \sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}|^p \right)^{\frac{1}{p}}

1.1.5 如何判断一个矩阵为正定

  • 判断一个矩阵是否为正定,通常有以下几个方面:
  • 顺序主子式全大于0;
  • 存在可逆矩阵C使C^TC等于该矩阵;
  • 正惯性指数等于n
  • 合同于单位矩阵E(即:规范形为E);
  • 标准形中主对角元素全为正;
  • 特征值全为正;
  • 是某基的度量矩阵。

1.2 导数和偏导数

1.2.1 导数偏导计算

导数定义

导数(derivative)代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。

注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。在物理学中有平均速度和瞬时速度之说。平均速度有:

v = \frac{s}{t}

其中,v表示平均速度,s表示路程,t表示时间。这个公式可以改写为:

\bar{v} = \frac{\Delta s}{\Delta t} = \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}

其中,\Delta s表示两点之间的距离,而\Delta t表示走过这段距离需要花费的时间。当\Delta t趋向于0(\Delta t \to 0)时,也就是时间变得很短时,平均速度也就变成了在t_0时刻的瞬时速度,表示成如下形式:

v(t_0) = \lim_{\Delta t \to 0} \bar{v} = \lim_{\Delta t \to 0} \frac{\Delta s}{\Delta t} = \lim_{\Delta t \to 0} \frac{s(t_0 + \Delta t) - s(t_0)}{\Delta t}

实际上,上式表示的是路程s关于时间t的函数在t=t_0处的导数。一般的,这样定义导数:如果平均变化率的极限存在,即有:

\lim_{\Delta x \to 0} \frac{\Delta y}{\Delta x} = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}

则称此极限为函数y=f(x)在点x_0处的导数。记作f'(x_0)\frac{d}{dx} y \bigg|_{x=x_0}\frac{dy}{dx} \bigg|_{x=x_0}\frac{d}{dx} f(x) \bigg|_{x=x_0}

通俗地说,导数就是曲线在某一点切线的斜率。

偏导数

既然谈到偏导数(partial derivative),那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y),从导数到偏导数,也就是曲线来到了曲面。曲线上的一点,其切线只有一条。但在曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。

注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的变化率。

设函数z=f(x,y)在点\left ( x_0,y_0 \right )处关于自变量x的偏导数,记作f_x(x_0,y_0)\frac{\partial z}{\partial x}\vert_{y=y_0}^{x=x_0}\frac{\partial f}{\partial x}\vert_{y=y_0}^{x=x_0}z_x\vert_{y=y_0}^{x=x_0}

偏导数在求解时可以将另一个变量看作常数,利用普通的求导方式求解,比如z=3x^2+xy关于x的偏导数就为z_x=6x+y,这个时候y就相当于x的系数。

某点\left ( x_0,y_0 \right )处的偏导数的几何意义为曲面z=f(x,y)与面x=x_0或面y=y_0交线在y=y_0x=x_0处切线的斜率。

1.2.2 导数和偏导数有什么区别

导数和偏导数没有本质区别,如果极限存在,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限。

  • 一元函数,一个y对应一个x,导数只有一个。
  • 二元函数,一个z对应一个x和一个y,有两个导数:一个是zx的导数,一个是zy的导数,称之为偏导。
  • 求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对该变量求导,从而将偏导的求解转化成了一元函数的求导。

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors);

特征值表示的是这个特征到底有多重要,将一定可以表示成下面的形式:

Av=\lambda v

\lambda为特征向量$\vec{v}$对应的特征值。特征值分解是将一个矩阵分解为如下形式:

A = Q \Sigma Q^{-1}

其中,Q是这个矩阵A的特征向量组成的矩阵,sum是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵A的信息可以由其特征值和特征向量表示。

1.3.2 奇异值与特征值有什么关系

那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵A的转置乘以A,并对A^TA求特征值,则有下面的形式:

(A^TA)V = \lambda V

这里V就是上面的右奇异向量,另外还有:

\sigma_i = \sqrt{\lambda_i}, \quad u_i = \frac{1}{\sigma_i} AV

这里的\sigma就是奇异值,u就是上面所说的左奇异值。奇异值\sigma跟特征值剋四,在矩阵\sum中也是从大到小排列,而且\sigma的减少特别快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前rr远小于m,n)个奇异值来近似描述矩阵,即部分奇异值分解:

A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,在这儿,r越接近于n,则相乘的结果越接近于A

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率分布

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。

机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。

概率论在机器学习中扮演着一个核心角色,因为i机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。

1.4.2 变量与随机变量有什么区别

随机变量(random variable)

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。

随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。

变量与随机变量的区别:

当变量的取值的概率不是1时,变量就成了随机变量;

当随机变量取值的概率为1时,随机变量就变成了变量。

比如:
​ 当变量x值为100的概率为1的话,那么x=100 就是确定了的,不会再有变化,除非有进一步运算.​ 当变量x的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

1.4.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态,还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能是状态的可能性大小的方法,就是概率分布(probability distribution)

随机变量可以分为离散型随机变量和连续性随机变量。

相应的描述其概率分布的函数是:

概率质量函数(Probability Mass Function,PMF):描述离散型随机变量的概率分布,通常用大写字母P表示。

概率密度函数(Probability Density Function,PDF):描述连续型随机变量的概率分布,通常用小写字母p表示。

1.4.4 离散型随机变量和概率质量函数

PMF将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

  • 一般而言,P(x)表示X=x的概率;
  • 有时为了防止混肴,要明确写出随机变量的名称P($x$=x)
  • 有时需要先定义一个随机变量,然后制定它遵循的概率分布x服从P(x)

PMF可以同时作用于多个随机变量,即联合概率分布(joint probability distribution)P($x$=x, $y$=y)^*表示X=xY=y同时发生的概率,也可以简写成P(x,y)

如果一个函数P是随机变量X的PMF,那么它必须满足如下三个条件:

  • P的定义域必须是x的所有可能状态的集合;
  • \forall x\in x,0\leq P(x)\leq 1
  • \sum_{x \in X} P(x) = 1.我们把这一条性质称之为 归一化的(normalized)。

1.4.5 连续型随机变量和概率密度函数

如果一个函数p是随机变量x的PDF,那么它必须满足如下三个条件:

  • p的定义域必须是x的所有可能状态的集合;
  • \forall x\in X,p(x)\geq0.注意,我们并不要求p(x)\leq 1,因为此处p(x)不是表示的对应此状态具体的概率,而是概率的一个相对大小(密度)。具体的概率,需要积分去求。
  • \int p(x)dx=1,积分下来,总和还是1,概率之和还是1。

注:PDFp(x)并没有直接对特定的状态给出概率,给出的是密度,相对的,它给出了落在面积为\delta x的无线小的区域内的概率为p(x)\delta x。由此,我们无法求得具体某个状态的概率,我们可以球的的是某个状态x落在某个区间\left [ a,b \right ]内的概率为\int_{a}^{b}p(x)dx

1.4.6 举例理解条件概率

条件概率公式如下: P(A|B) = P(A\cap B) / P(B)说明:在同一个样本空间$\Omega$中的事件或者子集AB,如果随机从$\Omega$中选出的一个元素属于B,那么下一个随机选择的元素属于A 的概率就定义为在B的前提下A的条件概率。条件概率文氏图示意如图1.1所示。

图1.1 条件概率文氏图示意

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A\bigcap B)除以P(B)
​举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)
穷举法:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3。
条件概率法:P(女|女)=P(女女)/P(女),夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则P(女女)为1/4,P(女)= 1-P(男男)=3/4,所以最后1/3。
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。

1.4.7 联合概率与边缘概率联系区别

区别:
​联合概率:联合概率指类似于P(X=a,Y=b)这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
​边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于P(X=a)P(Y=b)这样,仅与单个随机变量有关的概率。

联系:
​联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。

1.4.8 条件概率的链式法则

由条件概率的定义,可直接得出下面的乘法公式:
​乘法公式 设A, B是两个事件,并且P(A) > 0, 则有 P(AB) = P(B|A)P(A),推广P(ABC)=P(C|AB)P(B|A)P(A)

一般地,用归纳法可证:若P(A_1A_2...A_n)>0,则有:

P(A_1A_2...A_n)\\=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1) \\=P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})

任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。

1.4.9 独立性和条件独立性

独立性

​两个随机变量xy,概率分布表示成两个因子乘积形式,一个因子只包含x,另一个因子只包含y,两个随机变量相互独立(independent)。
​条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。
​举例:P(XY)=P(X)P(Y), 事件X和事件Y独立。此时给定ZP(X,Y|Z) \not = P(X|Z)P(Y|Z) 事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。

条件独立性

给定Z的情况下,$X$Y条件独立,当且仅当X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)XY的关系依赖于Z,而不是直接产生。

举例定义如下事件:

X:明天下雨;

Y:今天的地面是湿的;

Z:今天是否下雨;

Z的事件成立,对XY均有影响。然而,在Z事件成立的前提下,今天的地面情况对明天是否下雨没有影响。

1.5 常见概率分布

1.5.1 Bernoulli 分布

Bernoulli分布(伯努利分布,0-1分布)是单个二值随机变量分布, 单参数$\phi$∈[0,1]控制,$\phi$给出随机变量等于1的概率. 主要性质有:P(x=1)=\phi ,P(x=0)=1-\phi

概率质量函数:P(x = x) = \phi^x (1 - \phi)^{1-x}

其期望和方差为:E_x\left [ x \right ]=\phi,Var_x(x)=\phi(1-\phi)

 适用范围伯努利分布适合对离散型随机变量建模。

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中$k$是有限值.Multinoulli分布由向量\vec{p}\in[0,1]^{k-1}参数化,每个分量p_i表示第i个状态的概率, 且p_k=1-1^Tp.这里1^T表示元素全为1的列向量的转置,其实就是对于向量p中除了k的概率之和。可以重写为p_k=1-\sum_{0}^{k-1}p_i

补充二项分布、多项分布:

二项分布,通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

1.5.2 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:

N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )

其中, \mu\sigma分别是均值和标准差, 中心峰值x坐标由\mu给出, 峰的宽度受\sigma控制, 最大点在x=\mu处取得, 拐点为x=\mu \pm\sigma

正态分布中,±1\sigma、±2\sigma、±3\sigma下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

此外, 令\mu =0,\sigma =1,高斯分布即简化为标准正态分布:N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ),对概率密度函数高效求值:N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)

其中,\beta=\frac{1}{\sigma^2}通过参数\beta \in (0, \infty)来控制分布精度。

1.5.3 何时采用正态分布

问:何时采用正态分布?答:缺乏实数上分布的先验知识,不知选择何种形式时,默认选择正态分布总是不会错的,理由如下:

  1. 中心极限定理告诉我们,很多独立随机变量均近似服从正态分布,现实中很多复杂系统都可以被建模成正态分布的噪声,即使该系统可以被结构化分解。
  2. 正态分布是具有相同方差的所有概率分布中,不确定性最大的分布,换句话说,正态分布是对模型加入先验知识最少的分布。

正态分布的推广:正态分布可以推广到R^n空间,此时称为多位正态分布,其参数是一个正定对称矩阵\sigma

N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)

对多位正态分布概率密度高效求值:

N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)

此处,\vec\beta是一个精度矩阵。

1.5.4 指数分布

深度学习中,指数分布用来描述在x=0点处取得边界点的分布,指数分布定义如下:

p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})

指数分布用指示函数I_{x\geq0}来使x取负值时的概率为零。

1.5.5 Laplace 分布(拉普拉斯分布)

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点\mu处设置概率质量的峰值:

Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

1.5.6 Dirac 分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克\delta函数(也称为单位脉冲函数)定义如下:

p(x)=\delta(x-\mu), x\neq \mu

\int_{a}^{b} \delta(x - \mu) \, dx = 1, \quad a < \mu < b

Dirac分布经常作为经验分布(empirical distribution)的一个组成部分出现:

\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})

其中,m个点x^{1},...,x^{m}是给定的数据集,经验分布将概率分布密度\frac{1}{m}赋予给了这些点。

当我们在训练集上训练模型时,可以认为从这个训练集上得到的经验分布指明了采样来源

适用范围:狄拉克\delta函数适合对连续性随机变量的经验分布。

1.6 期望、方差、协方差、相关系数

1.6.1 期望

在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算:E(aX + bY + c) = aE(X) + bE(Y) + c

推广形式:E\left(\sum_{i} a_iX_i + c\right) = \sum_{i} a_iE(X_i) + c

函数期望:设f(x)x的函数,则f(x)的期望为:

  • 离散函数:E(f(x)) = \sum_{k=1}^{n} f(x_k)P(x_k)
  • 连续函数:E(f(x)) = \int_{-\infty}^{+\infty} f(x)p(x)dx

注意:

  • 函数的期望大于等于期望的函数(Jensen(詹森)不等式,即E(f(x))\geqslant f(E(x)));
  • 一般情况下,乘积的期望不等于期望的乘积;
  • 如果XY相互独立,则E(xy)=E(x)E(y)

1.6.2 方差

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:

\text{Var}(x) = E\left((x - E(x))^2\right)

方差性质:

(1)Var(x) = E(x^2) -E(x)^2

(2)常数的方差为0

(3)方差不满足线性性质

(4)如果XY相互独立,\text{Var}(aX + bY) = a^2\text{Var}(X) + b^2\text{Var}(Y)

1.6.3 协方差

协方差是衡量两个变量线性相关性强度及变量尺度。两个随机变量的协方差定义为:

Cov(x,y)=E((x-E(x))(y-E(y)))

方差是一种特殊的协方差,当X=Y时,Cov(x,y)=Var(x)=Var(y)

协方差性质:

(1)独立变量的协方差为0

(2)协方差计算公式:

\text{Cov}\left(\sum_{i=1}^{m} a_i X_i, \sum_{j=1}^{m} b_j Y_j\right) = \sum_{i=1}^{m} \sum_{j=1}^{m} a_i b_j \text{Cov}(X_i, Y_j)

(3)特殊情况:

\text{Cov}(a + bx, c + dy) = bd\text{Cov}(x, y)

1.6.4 相关系数

相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:

Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}

相关系数的性质:

(1)有界性。相关系数的取值范围是[-1,1],可以看成无量纲的协方差。

(2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强。当为0时,表示两个变量没有相关性。


参考文献

[1]Ian,Goodfellow,Yoshua,Bengio,Aaron...深度学习[M],人民邮电出版,2017

[2]周志华.机器学习[M].清华大学出版社,2016.

[3]同济大学数学系.高等数学(第七版)[M],高等教育出版社,2014.

[4]盛骤,试式千,潘承毅等编. 概率论与数理统计(第4版)[M],高等教育出版社,2008

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701823.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是边缘案例测试?如何查找并确定优先级

何为边缘情况&#xff1f; 在极端条件下发生的情况被称为边缘情况&#xff0c;有时候也叫边界情况&#xff0c;在功能、回归、单元和性能测试中都会应用。如果质量保证团队知道某项功能的最大和最小负载&#xff0c;他们就能防止这些情况发生。当用户不按照程序的预期工作流程…

gma 2.0.6 (2024.02.21) 更新日志

安装 gma 2.0.6 pip install gma2.0.6网盘下载&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1P0nmZUPMJaPEmYgixoL2QQ?pwd1pc8 提取码&#xff1a;1pc8 注意&#xff1a;此版本没有Linux版&#xff01; 编译gma的Linux虚拟机没有时间修复&#xff0c;本期Linux版继…

Spring Cloud Gateway官方文档学习

文章目录 推荐写在前面一、熟悉Gateway基本概念与原理1、三大概念2、工作流程 二、基本使用路由断言的两种写法 三、路由断言工厂1、After路由断言工厂2、Before路由断言工厂3、Between路由断言工厂4、Cookie路由断言工厂5、Header路由断言工厂6、Host路由断言工厂7、Method路由…

静态时序分析:SDC约束命令set_drive详解

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html 目录 指定电阻值 指定端口列表 简单使用 指定上升、下降沿 指定最大最小、条件 写在最后 本章将讨论使用set_drive命令&#xff0c;它用于对输入端口的驱动能力建模。首先需要说明的…

130 如何通过vs2017开发linux c++程序

使用VS2017开发linux下的应用程序&#xff08;C/C&#xff09;_vc_linux.exe vs2017-CSDN博客 参考上面这哥们的&#xff0c;写的很详细 前言 本文章记录如何使用VS2017进行linux应用程序的开发&#xff08;针对新手小白&#xff09;&#xff0c;VS2017能较为方便的通过SSH编辑…

公司数据迁移,服务器小文件多复制慢解决方案

企业普遍面临一个挑战&#xff1a;如何高效地处理和移动大量的小型文件。这些文件虽然单个体积不大&#xff0c;但数量庞大&#xff0c;累积起来会占据极大的存储空间&#xff0c;而且在迁移过程中&#xff0c;复制这些文件的速度往往非常缓慢。这不仅影响了企业的运营效率&…

10-pytorch-完整模型训练

b站小土堆pytorch教程学习笔记 一、从零开始构建自己的神经网络 1.模型构建 #准备数据集 import torch import torchvision from torch.utils.tensorboard import SummaryWriterfrom model import * from torch.utils.data import DataLoadertrain_datatorchvision.datasets.…

如何运用Mybatis Genertor

MyBatis Generator是一个MyBatis的代码生成器&#xff0c;它可以帮助我们快速生成Mapper接口以及对应的XML文件和模型类。在Java开发中&#xff0c;能大大提升开发效率。本文将介绍如何在IntelliJ IDEA中使用MyBatis Generator。 1. 添加MyBatis Generator依赖 我们首先需要在…

计网 - 深入理解HTTPS:加密技术的背后

文章目录 Pre发展历史Http VS HttpsHTTPS 解决了 HTTP 的哪些问题HTTPS是如何解决上述三个风险的混合加密摘要算法 数字签名数字证书 Pre PKI - 数字签名与数字证书 PKI - 借助Nginx 实现Https 服务端单向认证、服务端客户端双向认证 发展历史 HTTP&#xff08;超文本传输协…

代码随想录算法训练营第二十五天补|216.组合总和III ● 17.电话号码的字母组合

组合问题&#xff1a;集合内元素的组合&#xff0c;不同集合内元素的组合 回溯模板伪代码 void backtracking(参数) {if (终止条件) {存放结果;return;}for (选择&#xff1a;本层集合中元素&#xff08;树中节点孩子的数量就是集合的大小&#xff09;) {处理节点;backtrackin…

人工智能绘画的时代下到底是谁在主导,是人类的想象力,还是AI的创造力?

#ai作画 目录 一.AI绘画的概念 1. 数据集准备&#xff1a; 2. 模型训练&#xff1a; 3. 生成绘画&#xff1a; 二.AI绘画的应用领域 三.AI绘画的发展 四.AI绘画背后的技术剖析 1.AI绘画的底层原理 2.主流模型的发展趋势 2.1VAE — 伊始之门 2.2GAN 2.2.1GAN相较于…

深度学习系列60: 大模型文本理解和生成概述

参考网络课程&#xff1a;https://www.bilibili.com/video/BV1UG411p7zv/?p98&spm_id_frompageDriver&vd_source3eeaf9c562508b013fa950114d4b0990 1. 概述 包含理解和分类两大类问题&#xff0c;对应的就是BERT和GPT两大类模型&#xff1b;而交叉领域则对应T5 2.…

【C++精简版回顾】9.static

1.static修饰成员类型 1.类外初始化&#xff0c;初始化时不需要static修饰(不能修饰)&#xff0c;要有类名限定 2.静态成员是属于类的&#xff0c;全对象公有 1.class class MM { public:MM(string name) {size;a size;this->name name;}void print() {cout << &quo…

瑞_23种设计模式_桥接模式

文章目录 1 桥接模式&#xff08;Bridge Pattern&#xff09;1.1 介绍1.2 概述1.3 桥接模式的结构 2 案例一2.1 需求2.2 代码实现 3 案例二2.1 需求2.1 代码实现 &#x1f64a; 前言&#xff1a;本文章为瑞_系列专栏之《23种设计模式》的桥接模式篇。本文中的部分图和概念等资料…

【MySQL】连接查询和自连接的学习和总结

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​&#x1f4ab;个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-x4sPmqTXA4yupW1n {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

限流算法

下面对常见的限流算法进行讨论。目前&#xff0c;常用的限流算法主要有三种&#xff1a;计数器法、滑动窗口算法、漏桶算法和令牌桶算法。下面分别介绍其原理。 1. 计数器法 计数器法是通过计数对到来的请求进行选择性处理。如系统限制一秒内最多有X个请求&#xff0c;则在该…

《艾尔登法环 黄金树幽影》是什么?Mac电脑怎么玩《艾尔登法环》艾尔登法环下载

全体起立&#xff0c;《艾尔登法环 》最新DLC《黄金树幽影》将在6月21日发布&#xff0c;steam售价198元&#xff0c;现在就可以预订了。宫崎英高在接受FAMI通的采访时表示&#xff0c;新DLC的体量远超《黑暗之魂》和《血源诅咒》资料片。好家伙&#xff0c;别人是把DLC续作&am…

IO进程线程:通信

1.定义互斥锁 #include<myhead.h>int num520;//临界资源//1.创建一个互斥锁变量 pthread_mutex_t mutex;//定义任务&#xff11;函数 void *task1(void *arg) {printf("11111111111111\n");//3.获取锁资源pthread_mutex_lock(&mutex);num1314;sleep(3);pr…

EasyRecovery 16数据恢复软件功能介绍及2024 年最新easyrecover激活密钥?

EasyRecovery Photo16 for windows数据恢复软件免费版下载是一款由Kroll Ontrack公司开发的数据恢复软件&#xff0c;其主要功能是恢复已经删除或损坏的图片文件。该软件可用于恢复各种类型的图片文件&#xff0c;包括JPEG、GIF、BMP、PNG等&#xff0c;同时也支持恢复照片文件…

python-pyecharts画饼图

pyecharts饼图 from pyecharts import options as opts from pyecharts.charts import Pie# 构造数据 data [("A", 10),("B", 20),("C", 30),("D", 40),("E", 50) ]# 实例化饼图 pie Pie()# 添加数据 pie.add("&qu…